引言

想象一下,你正在训练一个计算机视觉模型来识别正在爬树的黑猩猩。你给它输入了数千小时的视频素材。模型达到了很高的准确率,你对此感到非常兴奋。但是,当你用一段没有黑猩猩的空旷森林视频测试它时,模型却自信地预测: “正在爬树”。

为什么会发生这种情况?因为模型掉进了一个被称为捷径学习 (Shortcut Learning) 的陷阱。模型没有去学习四肢的复杂运动或皮毛的纹理,而是选择了阻力最小的路径: 它学会了“垂直的树干”通常等于“爬树”。它记住了背景,而不是行为。

这种现象是计算机视觉中的一个关键问题,特别是在野生动物保护领域。自然资源保护主义者依靠红外相机 (绑在树上的运动触发相机) 来监测濒危物种。如果 AI 模型无法区分背景环境和动物行为,那么它在适应新地点 (分布外数据,即 Out-of-Distribution 或 OOD 数据) 时的能力就会崩溃。

在这篇文章中,我们将深入探讨一篇名为 “The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition” (PanAf-FGBG 数据集: 理解背景在野生动物行为识别中的影响) 的新研究论文。这篇论文介绍了一个新颖的数据集和一种巧妙的方法来量化和减轻这种背景偏差。

图 1. 概念概览。PanAf-FGBG 数据集包含 > 20 小时的配对且注释丰富的野生黑猩猩前景-背景红外相机视频。

如上图 1 所示,研究人员创建了一个独特的资源: 在这个数据集中,每一个有黑猩猩的视频都配对了一个来自完全相同位置但没有黑猩猩的视频。这使我们能够从方程中数学地减去森林背景,并强制 AI 去关注动物本身。

背景知识: 捷径学习与“偷懒”的 AI

要理解这篇论文的意义,我们首先需要了解深度神经网络 (DNN) 的行为特征。DNN 以“偷懒”而闻名。如果静态背景特征 (如白蚁丘) 与标签 (如“进食”) 之间存在很强的相关性,网络就会抓住白蚁丘不放,因为检测白蚁丘比检测黑猩猩使用工具时的细微手部动作要容易得多。

在人类动作识别中,这是一个众所周知的问题。研究表明,模型仅凭识别出网球场就能预测“打网球”等动作,即使将球员从图像中移除也是如此。

野生动物视频面临的挑战

在野外,这个问题更加严重。红外相机是静止的。它们几个月都盯着同一个背景。如果你在来自“相机 A” (一条林间小道) 和“相机 B” (一棵果树) 的数据上训练模型,模型可能会学会: 相机 B 的绿色纹理意味着“进食”,而不是去识别进食这一行为本身。

当你把那台相机移动到一个新的国家公园 (一个新的分布) 时,模型就会失效,因为背景线索变了。这就是分布外 (OOD) 泛化问题。

此前,研究人员试图通过合成移除视频中的动物 (使用软件将其涂黑或填充) 来研究这一问题。然而,合成数据引入的伪影可能会进一步干扰模型。我们要的真正是背景的“基准真值 (Ground Truth)”: 一个完全空旷的场景的真实视频。

介绍 PanAf-FGBG 数据集

研究人员推出了 PanAf-FGBG , 这是行为学 (动物行为) 计算机视觉领域的一个巨大飞跃。该数据集源自泛非计划 (Pan African Programme),涵盖了来自 6 个非洲国家、14 个国家公园的 389 个相机点位的 21 小时素材。

它有何独特之处?

PanAf-FGBG 最显著的特点是 前景-背景 (FG-BG) 配对

  • 前景视频 (Foreground Video): 包含黑猩猩表现出特定行为的视频片段。
  • 背景视频 (Background Video): 来自同一个红外相机,在类似的时间段拍摄,但是空无一物的视频片段。

这种配对并非易事。它需要从海量素材中筛选,找到与行为片段的光照和环境条件相匹配的空白片段。

图 7. 数据集概览。展示了数据集中 180 万帧的一小部分 (~0.05%) ,突显了其多样性。

正如上面的数据集概览所示,其多样性是巨大的。素材捕捉了变化的光照条件、天气,以及从茂密森林到稀树草原的各种栖息地。

行为与类别不平衡

该数据集包含诸如使用工具、爬树、进食和休息等行为的注释。像大多数现实世界的数据一样,它遵循“长尾”分布。

图 2. 行为分布。数据集中各类行为的比例。

一些行为,如“移动 (Travel)”和“休息 (Resting)”,非常常见 (长尾的头部) ,而像“攻击 (Aggression)”或“玩耍 (Playing)”这样独特的行为则很罕见 (尾部) 。这种不平衡给识别模型增加了另一层难度。

真实背景 vs. 合成背景

为什么要费力去寻找真实的背景视频?为什么不直接使用现代 AI 移除黑猩猩?

图 5. 合成背景视频示例。三个视频片段示例,带有通过 SAM2 单次提示生成的原始分割掩码。

上图展示了通过掩盖黑猩猩并用平均像素值填充空间生成的合成背景。虽然有用,但这些合成背景缺乏真实背景视频中发现的树叶的自然运动、阴影和光照变化。论文证明,使用真实的配对背景对于训练稳健的模型更为有效。

实验设置: 重叠 vs. 不相交

为了严格测试模型的泛化能力,作者定义了两种截然不同的实验配置。这种区分对于理解结果至关重要。

  1. 重叠配置 (\(\mathcal{D}^{overlap}\)): 训练集和测试集的相机位置是共享的。如果相机 #123 在训练数据中,来自相机 #123 的其他片段也会出现在测试数据中。这测试了模型在熟悉环境中识别行为的能力。
  2. 不相交配置 (\(\mathcal{D}^{disjoint}\)): 相机位置是互斥的。如果相机 #123 在训练数据中,那么模型在测试时从未见过相机 #123。这模拟了将训练好的 AI 部署到一个全新国家公园的真实场景。

图 4. 重叠与不相交数据集配置。展示了六对前景-背景视频对以可视化这些配置。

图 4 清晰地展示了这一点。左侧 (重叠) ,测试视频看起来与训练视频非常相似——同样的河床,同样的岩石。右侧 (不相交) ,测试环境是全新的。这种“不相交”设置是检验模型是否学会了行为而不仅仅是背景的终极测试。

核心方法: 潜在空间背景中和

研究人员不仅提供了数据;他们还提出了解决背景偏差问题的方案。他们的假设很简单: 如果我们能告诉网络“背景”是什么样子的,它就能从“前景”视频中减去这些信息,只留下“行为”。

他们通过一种称为潜在空间背景中和 (Latent Space Background Neutralisation) 的技术实现了这一点。

工作原理

  1. 双流 (Dual Streams): 模型接收两个输入: 带有黑猩猩的视频 (前景) 和配对的空视频 (背景) 。
  2. 特征提取: 两个视频都通过相同的骨干网络 (如 ResNet-50 或 MViT) 。
  3. 潜在空间: 减法不是发生在像素层面 (这很混乱且对对齐敏感) ,而是发生在网络深处的“潜在空间” (高维特征向量) 中。

图 6. 潜在空间背景补偿。所提出的操作使用 alpha 来执行背景特征的加权减法。

如上面的架构图所示,该过程涉及对特征向量 (\(z\)) 的数学运算。

公式概念如下:

\[z^{\text{result}} = z^{\text{Foreground}} - (1 - \alpha) \cdot z^{\text{Background}}\]

在这里,\(\alpha\) 是一个在训练过程中变化的调节参数。最初,模型可能依赖背景,但随着训练的进行,系统强制背景的特征被“中和”或从表示中减去。这迫使分类层仅基于黑猩猩动作的独特特征做出决策。

实验与结果

作者使用卷积神经网络 (ResNet-50) 和 Transformer (MViT-V2) 进行了广泛的实验。以下是关键结论。

1. 环境就是一张“小抄”

第一个问题是: “光靠背景能告诉我们多少信息?” 为了回答这个问题,他们在空旷的背景视频上训练模型,但给它们分配了最终会在那里发生的黑猩猩行为的标签。

结果令人震惊。 仅背景模型的性能达到了看到黑猩猩的模型性能的大约 65%。 这证实了环境是一个巨大的预测因子。如果相机对着一棵果树,黑猩猩很可能在“进食”。如果是一条小路,黑猩猩就是在“移动”。这证明了为什么 OOD 泛化如此困难——因为“小抄” (背景) 在新地点变了。

2. “背景时长”问题

在野生动物监测中,红外相机通常会提前触发,在动物进入画面前录制数秒的空旷森林。研究人员分析了这种“背景时长”如何影响性能。

图 5. 增加背景时长对性能的影响。比较 2D R50、3D R50 和 MViT-V2 模型的性能。

上图揭示了不同架构之间的一个有趣差异:

  • 3D-ResNet (CNN): 随着你添加更多的空背景帧 (\(\lambda\)),性能显著下降。CNN 会因为空帧而感到“无聊”或困惑,从而跟丢动作。
  • MViT-V2 (Transformer): 这个模型要稳健得多。由于 Transformer 固有的“注意力”机制,它可以有效地忽略空帧,专注于黑猩猩出现的特定 Token (视频补丁) 。然而,即使是 Transformer,在具有高背景时长的 OOD 数据 (不相交集) 上测试时也会遇到困难。

3. 中和的力量

最后,他们测试了所提出的潜在空间中和方法。

  • 输入空间减法: 简单地从前景视频中减去背景像素对于简单的 2D 网络效果尚可,但对于高级 3D 网络则失效了。
  • 潜在空间减法: 这是赢家。通过使用配对的真实世界视频在嵌入空间中减去特征,他们实现了显著的提升。

关键结果: 在具有挑战性的不相交 (OOD) 数据集上,潜在空间方法使 ResNet 模型的 mAP 提升了 +5.42% , 使 Transformer 模型的 mAP 提升了 +3.75%

这在计算机视觉领域是一个实质性的改进,有效地证明了“教”模型忽略什么,能让它更好地理解该关注什么。

结论与启示

PanAf-FGBG 数据集为计算机视觉社区敲响了警钟,同时也提供了一个工具包。它通过实证量化了许多人怀疑的一点: 我们最好的模型往往过度依赖背景景色,而不是理解动作。

通过提供配对的前景和背景视频,作者开启了一种训练 AI 的新方法。我们现在可以明确地强制模型将“舞台”与“演员”解耦。

对于野生动物保护而言,这是一个颠覆性的改变。这意味着我们可以利用来自一组国家公园的数据训练模型,并更有信心地将其部署到一个全新的、未被监测的地点去保护物种。

图 6. 前景-背景视频对示例。展示了 18 对静止帧。

当我们观察图 6 中的视频对时,我们看到了挑战的现实: 黑猩猩出现与否的区别,往往只是黑暗森林背景下几像素的深色皮毛而已。然而,解决这个难题对于自动化生物多样性监测至关重要。PanAf-FGBG 数据集提供了必要的基准真值,以构建真正能“看见”其所保护的野生动物的 AI。