想象一下,站在哥斯达黎加茂密的热带森林中。空气中弥漫着潮湿的气息,周围的声景是由昆虫的嗡嗡声、鸟叫声、风吹过树叶的沙沙声以及远处的隆隆声交织而成的混沌交响乐。在这场声学风暴 (即“鸡尾酒会效应”) 中,一只白脸卷尾猴发出了一声呼唤。
对于人类研究员来说,识别出究竟是哪一只具体的猴子发出的声音是一项艰巨的任务,需要多年的训练和高度的专注。而对于计算机来说,这甚至更难。野生动物大型标注数据集的匮乏长期以来一直是生物声学的瓶颈。我们拥有海量的人类语音数据集和相当不错的鸟类鸣叫数据集,但对于一种特定的新热带灵长类动物呢?数据寥寥无几。
这就引出了密歇根大学研究人员提出的一个迷人问题: 我们能否通过“借用”专为鸟类和人类设计的人工智能模型的听觉能力,来识别特定的猴子个体?
在这篇深度文章中,我们将探讨一篇近期论文,该论文提出了一种新颖的声学个体识别方法。我们将了解如何结合来自完全不同物种 (人类和鸟类) 训练模型的“嵌入 (embeddings) ”,从而创建一个能够以惊人的准确率区分卷尾猴个体的超级分类器。
动物语言学的挑战
几十年来,动物的发声主要被视为对情绪状态的反射性反应——类似于简单的“哎哟” or “嘿”。然而,动物语言学领域的转变改变了这一观点,揭示了许多物种拥有具有类似句法和语义特征的复杂交流系统。
为了真正理解这些系统,研究人员需要知道谁在对谁说话。个体识别是研究社交网络、行为背景和种群动态的基石。
白脸卷尾猴 (Cebus capucinus) 是这项研究的理想候选者。它们高度聪明,会使用工具,并生活在复杂的社会群体中。然而,收集它们的数据非常困难。这项研究的研究人员在哥斯达黎加的塔博加保护区 (Taboga Reserve) 花费了两年时间,收集了被称为“Peep”和“Twitter”的独特叫声。

上方的 图 1 为该研究系统提供了一个窗口。面板 A-D 展示了“Twitter”叫声的声谱图,这些叫声复杂且结构多变。面板 G 展示了自然栖息地中的研究对象。面板 H 中的地图描绘了不同猴群的领地,突显了野外工作的空间复杂性。
问题依然存在: 当我们只有几千条录音——这只是通常训练深度学习模型所需数据的一小部分——时,我们该如何自动化识别这些个体?
核心方法: 跨物种迁移学习
研究人员转向了迁移学习 (Transfer Learning) 。 在机器学习中,这相当于教音乐家画画;他们对节奏和构图 (模式) 的理解可能帮助他们比完全的新手更快地理解笔触。
在这项研究中,“音乐家”是预训练的 AI 模型。研究人员假设,在其他物种的海量音频数据上训练的模型可以从猴子的叫声中提取有用的特征,即使这些模型以前从未“听过”猴子的声音。
他们主要关注两个源模型:
- Google Perch: 一个主要在数千小时鸟类鸣叫数据上训练的生物声学模型。
- OpenAI Whisper: 一个在 680,000 小时人类语音数据上训练的大型语音识别模型。
嵌入 (Embeddings) 的概念
这些模型不仅仅输出文本或鸟类名称;它们通过神经元层处理声音。在这个过程结束时,声音被转换成一个向量——一长串数字——称为嵌入 。 嵌入代表了声音的数学“本质”。
假设是: Whisper 生成的嵌入可能捕捉到猴子叫声中类似语言的复杂细节 (亲缘关系相近性) ,而 Perch 的嵌入则可能捕捉到野生动物录音的声学纹理 (环境相近性) 。
联合多物种嵌入
这篇论文的主要创新不仅在于使用一个模型,而在于结合它们。研究人员通过融合来自鸟类和人类模型的嵌入,测试了“双管齐下是否胜过单打独斗”。
他们采用了三种方法来组合这些表示:
- 拼接 (Concatenation) : 简单地将两个数字列表连在一起。
- 求和 (Summation) : 将数字相加 (在进行一些维度调整后) 。
- 最小冗余最大相关 (Minimum Redundancy Maximum Relevance, MRMR) : 这是最复杂的方法。
理解 MRMR 当你结合两个巨大的模型时,你会得到很多数据,但也会有很多噪音和重复。MRMR 是一种特征选择技术。它查看 Perch 和 Whisper 产生的成千上万个数字,并问两个问题:
- 相关性 (Relevance) : 这个特定的数字能帮助我区分猴子 A 和猴子 B 吗? (最大化这个) 。
- 冗余性 (Redundancy) : 这个数字告诉我的信息和我刚选的那个数字完全一样吗? (最小化这个) 。
通过应用 MRMR,研究人员创建了一个“超级嵌入”,它保留了鸟类和人类视角中最独特和最有信息量的特征。
可视化声学空间
为了理解这些模型“看到”了什么,我们可以使用 t-SNE 图,它将高维数据压缩成二维散点图。

在 图 8 (上图) 中,我们可以看到来自鸟类训练模型 (BirdNET 和 Perch) 的嵌入可视化。
- 第 1 列: 显示了“Peeps” (黄色) 和“Twitters” (蓝色) 之间的清晰分离。模型很容易区分这两种叫声类型。
- 第 2 和 3 列: 这些展示了个体识别的挑战。代表特定猴子的点在一定程度上聚集成簇,但存在显著的重叠。这种视觉上的混乱说明了为什么这项任务如此困难: 个体之间的差异很细微,而且往往被环境噪音淹没。
实验与结果
研究人员进行了广泛的实验,在从 Perch、Whisper 及其组合中提取的嵌入上训练分类器。他们使用 F1 分数 (一种平衡精确率和召回率的指标) 来评估性能。
结果得出了几个令人惊讶的结论。
1. 集成效应
主要假设得到了证实: 结合模型比单独使用模型效果更好。

表 1 概述了主要发现。
- 看“Twitters”部分。 Perch (Simple) 模型的 F1 分数达到 0.61 。
- Whisper (Simple) 模型仅达到 0.55 。
- 然而, Perch + Whisper (MRMR) 组合跃升至 0.66 。
这种统计上的提升证实了鸟类模型和人类模型注意到了猴子叫声中不同的东西。当结合在一起时,它们提供了个体声音身份的更完整图景。
2. 环境胜过基因
这篇论文最深刻的结论之一是 Perch 和 Whisper 单独使用时的比较。
人类是灵长类动物。我们在基因上比鸟类更接近卷尾猴。人们可能会预期在人类语音上训练的模型 (Whisper) 能更好地解码灵长类动物的发声。 但事实并非如此。
Perch (鸟类模型) 的表现始终优于 Whisper (人类模型) 。
为什么?作者认为领域相关性 (domain relevance) 比亲缘关系相近性 (phylogenetic proximity) 更重要。
- Whisper 是在清晰的录音室级语音或互联网音频上训练的。它“预期”清晰的信号和语言结构。
- Perch 是在鸟类的野外录音上训练的。它“知道”风声、雨声和距离的声音是什么样的。它已经学会了过滤掉森林的背景噪音——也就是猴子生活的同一片森林。
这表明,对于野外的生物声学来说,声学环境是一个比声音的生物来源更强的共享特征。
3. 窥探模型的“大脑”内部
研究人员不仅止步于最终输出;他们还探测了 Whisper 模型的内部层,看看有用的信息藏在哪里。

图 3 显示了基于神经网络的哪一“层”被使用时的模型性能。深度学习模型分层处理数据: 早期层检测简单的边缘或音调,而更深层检测复杂的概念或单词。
图表显示中间层 (大约第 15 层) 产生了最佳性能。这是有道理的: 早期层太基础,而最终层对于人类语言来说又太专业化了。中间层捕捉到了通用的声学模式——音高、音色、节奏——这些对猴子和人类都适用。
4. 可解释特征 vs. 深度学习
最后,研究人员将“黑盒”深度学习嵌入与传统的声学测量 (如峰值频率,可以在声谱图上手动测量) 进行了比较。

图 2 显示了不同个体的峰值频率分布。你可以看到某些猴子有明显的“隆起” (双峰分布) 。虽然这些传统特征对生物学家来说是有用且可解释的,但研究发现它们捕捉到的信息少于 AI 嵌入。然而,它们对于验证 AI 检测到的是真实的生物学差异而不仅仅是背景噪音至关重要。
结论与启示
这项研究标志着计算生物声学向前迈出的重要一步。它证明了我们并不总是需要海量的、特定物种的数据集来构建强大的工具。通过创造性地结合来自不同领域的模型——利用鸟类模型的“野外”鲁棒性和人类语音模型的结构敏感性——我们可以在数据有限的情况下实现对动物的高精度识别。
MRMR 方法在融合这些嵌入方面的成功为自然资源保护主义者指明了一条前进的道路。我们可以设想一个未来,由各种预训练 AI 拼凑而成的“科学怪人”式模型,能够实时监测生物多样性,识别雨林树冠中的个体动物,以追踪它们的健康、社会结构和生存状况。
塔博加保护区的白脸卷尾猴向我们展示了,在 AI 的世界里,多样性——无论是模型、物种还是数据的多样性——是理解的关键。
](https://deep-paper.org/en/paper/file-2308/images/cover.png)