解码荒野: 多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测
想象一下,试图记录难以捉摸的山区生物——马鹿、狼或雪兔——的日常生活,却从未踏足森林半步。几十年来,生态学家一直依赖红外相机陷阱 (camera traps) 作为他们在野外的眼睛。这些动作激活的传感器捕捉了数百万张图像和视频,为生物多样性提供了前所未有的视角。
然而,一个新的问题出现了: 我们的数据太多了。随着现代相机陷阱能够连续数周录制高清视频,研究人员正被淹没在素材的海洋中。手动标注这些数据以不仅了解有什么动物,而且了解它在做什么 (行为) ,是一项极其艰巨的任务。
这引出了一篇开创性的研究论文,题为 “MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps” (MammAlps: 瑞士阿尔卑斯山野生哺乳动物多视角视频行为监测数据集) 。在这篇文章中,我们将探索瑞士洛桑联邦理工学院 (EPFL) 的研究人员如何弥合生态学与计算机视觉之间的鸿沟。我们将深入了解他们如何创建独特的多模态数据集,并开发旨在自动理解野外动物行为的复杂深度学习基准。

背景: 从快照到电影
要理解 MammAlps 的重要性,我们需要先看看当前野生动物监测的格局。历史上,研究人员主要使用两种方法:
- 以动物为中心的传感器: 附在特定动物身上的生物记录仪 (如 GPS 项圈) 。这些非常适合在大范围内追踪移动,但需要捕捉动物,且无法告诉我们要太多关于它们与直接环境互动的信息。
- 以栖息地为中心的传感器: 固定在树上的相机陷阱。这些传感器观察环境并捕捉任何经过的动物。
最近,相机陷阱已经从拍摄颗粒感照片演变为录制高清视频。这种转变使我们能够大规模研究复杂的行为——求偶、觅食和社交互动。然而,计算机视觉模型 (分析这些素材的 AI 大脑) 需要训练数据来学习这些行为。
数据缺口
现有的数据集通常分为两类:
- 实地考察数据: 由科学家在特定地点收集。这些数据很真实,但通常规模较小,且仅限于少数常见的行为。
- 网络爬取数据: 从 YouTube 或纪录片中收集。这些数据巨大且多样,但往往缺乏真实研究条件的“混乱感” (光线差、遮挡、雨天) 。
MammAlps 填补了一个关键的空白。它是一个经整理的实地考察数据集,既是多模态 (使用视频、音频和环境地图) 也是多视角 (同一场景使用多个相机) 的。

如上表所示,MammAlps 与众不同,它提供了以前的数据集 (如 PanAf20k 或 MammalNet) 中罕见的分层行为标注和多视角设置。
MammAlps 数据集: 夯实基础
研究人员在瑞士国家公园的三个不同地点部署了九个相机陷阱。这个位置至关重要,因为欧洲阿尔卑斯山特别容易受到气候变化的影响,使得监测当地动物群变得必不可少。
设置
在每个地点,三个相机被放置在不同的角度。这种多视角方法至关重要。一只动物可能在相机 1 中被树挡住,但在相机 2 中却清晰可见。只要检测到运动,相机就会记录视频和音频,并且全天候运作 (夜间使用红外闪光) 。
流程: 从原始素材到洞察
创建数据集不仅仅是把相机留在树林里。原始数据经历了一个严格的处理流程:
- 事件聚合: 原始视频被分组成“事件” (由 5 分钟的非活动期分隔的生态场景) 。
- 检测与追踪: 团队使用 MegaDetector 发现动物,并使用 ByteTrack 跨帧追踪个体动物。
- 手动修正: 专家审查轨迹以修正错误,确保高质量的基准真值。
- 标注: 这就是 MammAlps 的亮点所在。数据在两个复杂度层级上进行了标注。

分层行为: 动作 vs. 活动
动物行为是复杂且分层的。一只鹿可能正在“行走” (物理运动) ,同时也在“觅食” (高层级目标) 。为了捕捉这一点,研究人员对数据进行了分层标注:
- 动作 (低层级 Actions) : 刻板的动作,如行走、抬头站立或吃草。
- 活动 (高层级 Activities) : 背景或目标,如觅食、求偶或警戒。

上表详述了这种分层方法,使模型能够学习行为的细微差别。例如,“奔跑”可能是“玩耍”、“追逐”或“逃跑”的一部分。背景很重要。
基准 1: 多模态物种与行为识别
该论文的第一个主要贡献是一个基准任务,专注于从短视频片段中识别物种和行为 。
大多数现有的野生动物模型只看视频 (像素) 。然而,自然是一种多感官体验。鹿的叫声或踩碎树叶的声音可以区分行为。此外,环境本身也提供了线索;如果有水存在,动物更有可能在喝水。
多模态方法
为了利用这一点,研究人员调整了 VideoMAE (视频掩码自编码器) 架构以接受三个输入:
- 视频: 动物的视觉运动。
- 音频: 相机记录的声音声谱图。
- 分割图: 背景场景的语义地图 (识别草、水、树等) 。

如图 7 所示,模型处理这三个流并融合它们以进行预测。
它有效吗?
结果令人信服。在视频输入中加入音频显著提升了性能。

查看结果表:
- 仅视频 (V): 达到了 0.453 的平均平均精度 (mAP)。
- 视频 + 音频 (V+A): 跃升至 0.473 。
音频模态对于具有明显声音的类别特别有帮助,例如“发声”或“标记”。有趣的是,分割图 (S) 在与视频结合时并没有太大帮助,可能是因为视频帧已经隐含了背景信息。然而,当它们单独与音频一起使用时确实提高了性能,证明它们包含有价值的上下文信号。
基准 2: 多视角长期事件理解
第二个基准解决了一个更全面的挑战: 事件理解 。
在生态学中,研究人员不仅对鹿行走的 5 秒片段感兴趣。他们想知道: 在这 10 分钟内,有多少动物在这里?它们集体在做什么?天气如何?
这项任务涉及处理来自多个相机角度的长序列 (长达 12 分钟) 。
挑战: 计算成本
标准的 Transformer 模型 (ChatGPT 和 VideoMAE 背后的架构) 难以处理长序列,因为它们的内存使用量随输入长度呈二次方增长。逐帧处理 15 分钟的视频在计算上是令人望而却步的。
解决方案: 离线 Token 合并
为了解决这个问题,研究人员设计了一种受 ToME (Token Merging) 算法启发的离线 Token 合并策略。
核心思想简单而强大: 视频包含大量冗余。第 1 帧的天空看起来与第 10 帧的天空一样。我们不需要将两者都作为单独的“Token”来处理。

工作原理 (分步) :
- 空间合并: 在每一帧中,相似的图块 (Patch,例如所有的草地图块) 被合并成单一的表示。
- 时间合并: 算法跨时间查看。如果第 2 帧中的一个图块与第 4 帧中的一个图块非常相似,它们就会被合并。
- 结果: 包含数万个图块的 10 分钟视频被浓缩为几百个丰富的“视频 Token”,代表了场景的本质。
这些浓缩后的 Token 随后被输入到一个标准的 Transformer 编码器中,以预测:
- 存在的物种。
- 执行的活动。
- 个体数量 (群体大小) 。
- 气象条件。
结果: 理解大局
这种方法使模型能够有效地处理长期事件。研究人员测试了使用多个相机视角的重要性,并发现联合使用来自不同相机的数据显著提高了计数个体和识别活动的能力。

上表显示,该模型在联合任务预测上达到了稳健的 0.500 mAP 。 “计数”任务 (Indiv.) 仍然是最难的,因为它需要跨越时间和不同相机视角追踪唯一的身份——这项任务即使对人类来说也很困难!
为什么这很重要
MammAlps 论文代表了“面向地球的 AI”迈出的重要一步。通过发布这个数据集和这些基准,作者正在提供自动化野生动物监测所需的工具。
- 效率: 生态学家可以花更少的时间标记视频,更多的时间分析趋势。
- 深度: 我们超越了简单的“物种检测”,进入了复杂的“行为分析”。
- 准确性: 多模态和多视角方法模仿了专家野外生物学家观察自然的方式,从而产生更稳健的 AI 模型。
音频、视觉背景 (分割) 和长期时间处理的独特结合开启了新的大门。未来的模型可能不仅能通过视觉检测捕食者,还能通过听到猎物的警报声或注意到森林中突然的寂静来检测捕食者。
MammAlps 不仅仅是一个数据集;它是计算生态学未来的蓝图,在这里机器帮助我们要破译野外错综复杂的语言。
术语快速参考
对于学习这篇论文的学生,这里是研究中使用的特定术语的快速参考:

](https://deep-paper.org/en/paper/2503.18223/images/cover.png)