引言

想象一下,你闭着眼睛走在繁忙的城市街道上。你听到警笛声。为了弄清它来自哪里,你可能会本能地转头或向前走。当你移动时,声音会发生变化——如果你向右转而声音仍然在你左边,你就确切地知道它相对于你的位置。这种运动 (自身运动,egomotion) 与声音感知之间的动态关系是人类在世界中导航的基础。

然而,教人工智能复制这种技能——声源定位——是出了名的困难。标准方法通常依赖于在模拟的、安静的 3D 房间中训练智能体,在那里的声学环境在数学上是完美的,但却是不真实的。现实世界的音频是杂乱的;它会在墙壁上反弹,被风声淹没,并与背景噪音混合。此外,为真实世界的视频收集“真值 (ground truth) ”数据 (即精确标记每一帧中每个声音的来源) 极其昂贵且耗时。

在论文 “Supervising Sound Localization by In-the-wild Egomotion” 中,来自密歇根大学、清华大学和上海期智研究院的研究人员提出了一个巧妙的解决方案。他们提出了一个简单的问题: 我们能否仅通过观看人们四处走动的“野外”视频来教 AI 定位声音?

利用自然视频中的自身运动监督声源定位。

他们的方法利用相机的运动作为一种“免费”的监督信号。通过分析相机在视频中如何移动 (旋转和平移) ,模型学习预测与该运动一致的声音方向。其结果是一个能够从未经人工标注的标准 YouTube 徒步游览视频中学习的系统,弥合了模拟训练与现实世界应用之间的差距。

背景: “野外”音频的挑战

要理解这项研究的重要性,我们需要先看看机器通常是如何学习听觉的。

模拟的问题

历史上,研究人员依赖模拟器 (如 SoundSpaces) 来生成训练数据。在模拟中,你可以将虚拟智能体放置在虚拟房间中,播放虚拟声音,并确切地告诉智能体声音在哪里。这提供了完美的标签。然而,存在着巨大的“Sim2Real (从模拟到现实) ”差距。模拟房间无法捕捉拥挤的地铁站或多风公园的声学复杂性。在模拟中训练的模型在部署到现实世界时往往会失败。

真实数据的问题

另一种选择是使用真实视频。但这面临着“标注瓶颈”。如何生成数百万帧视频,并由人工精确标记每一个脚步声、汽车喇叭声和鸟鸣声的角度?这几乎是不可能的。

解决方案: 弱监督

这篇论文介绍了一种弱监督学习框架。模型不使用显式标签 (例如“汽车在 45 度方向”) ,而是使用源自视觉数据的约束。它不需要知道声音确切在哪里就可以开始学习;它只需要知道根据相机的移动方式,声音的位置应该如何变化

核心方法: 从运动中学习

这篇论文的核心创新在于将自身运动 (相机/观察者的运动) 视为老师。

展示音频和视觉线索如何交互的方法概览。

如上图 3 所示,该流程包含两个并行流: 音频流 (我们想要训练的部分) 和视觉流 (充当监督者的部分) 。

1. 视觉流: 估计自身运动

首先,系统分析视频帧以了解相机在两个时间点 \(t\) 和 \(t'\) 之间是如何移动的。研究人员使用现成的计算机视觉技术 (具体为用于特征匹配的 SuperGlue 和用于校准的 Perspective Fields )来估计两件事:

  1. 旋转: 相机是向左还是向右转了?
  2. 平移: 相机是向前还是向后移动了?

关键在于,该系统的视觉部分并没有被训练。它是一个固定的、预先存在的工具,用于为音频模型生成标签。

2. 音频流: 预测方位角

模型获取对应于时间 \(t\) 和 \(t'\) 的立体声音频片段 (声谱图) 。一个卷积神经网络 (ResNet-18) 处理这些声谱图,并输出可能的声音角度 (方位角) 的概率分布。它将 360 度的视野划分为不同的角度网格 (例如 32 个区间) 。

3. “掩码求和”监督

这是论文的数学核心。模型预测时间 \(t\) 的声音角度 (\(f(s_1)\)) 和时间 \(t'\) 的声音角度 (\(f(s_2)\)) 。然后系统会检查: 这两个预测是否与我们要看到的相机运动一致?

旋转损失

如果视觉系统检测到相机顺时针旋转,那么相对于相机,一个静止的声源必须看起来是逆时针移动的。

研究人员制定了一个损失函数,如果模型预测了“错误”方向的移动,就会对其进行惩罚。他们将所有与视觉旋转兼容的角度对的概率相加。

\[ \mathcal { L } _ { \mathrm { r o t } } = L _ { \mathrm { c e } } \left( \sum _ { ( i , j ) \in R } f ( \mathbf { s } _ { 1 } ) _ { i } f ( \mathbf { s } _ { 2 } ) _ { j } , d _ { r } \right) , \]

在这个公式中:

  • \(f(s_1)_i\) 和 \(f(s_2)_j\) 分别是声音位于角度 \(i\) 和 \(j\) 的预测概率。
  • \(R\) 是所有与视觉旋转方向 \(d_r\) 一致的 \((i, j)\) 对的集合。
  • 该损失强制模型最大化这些一致对的概率。

平移损失

同样,如果相机向前移动 (平移) ,侧面的物体应该向视野的后方移动 (视差效应) 。论文定义了一个平移损失:

\[ \mathcal { L } _ { \mathrm { t r a n s } } = L _ { \mathrm { c e } } \left( \sum _ { ( i , j ) \in T } f ( \mathbf { s } _ { 1 } ) _ { i } f ( \mathbf { s } _ { 2 } ) _ { j } , d _ { t } \right) , \]

这里,\(T\) 代表与相机向前或向后移动 \(d_t\) 一致的角度对集合。

双耳线索 (IID)

为了稳定训练,研究人员还使用了一种传统的基于物理的线索: 双耳强度差 (IID) 。 简单来说,如果左声道的声音更大,那么声音很可能来自左边。

\[ \mathcal { L } _ { \mathrm { b i n } } = L _ { \mathsf { c e } } \left( \sum _ { j \in B } f ( \mathbf { s } _ { i } ) _ { j } , b _ { t } \right) , \]

这充当了模型的“健全性检查”,确保它在从运动中学习更复杂的几何关系的同时,尊重基本的声学物理规律。

组合目标

最终的训练目标结合了所有这三种损失。权重 \(\lambda_1\) 和 \(\lambda_2\) 允许研究人员平衡模型对旋转、平移或原始强度差异的依赖程度。

\[ \mathcal { L } = \lambda _ { 1 } L _ { \mathrm { r o t } } + ( 1 - \lambda _ { 1 } ) L _ { \mathrm { t r a n s } } + \lambda _ { 2 } L _ { \mathrm { b i n } } , \]

通过最小化这个组合损失,神经网络学会了以一种既符合立体声音频物理规律,又符合相机运动几何关系的方式来定位声音。

实验与结果

为了测试他们的方法,作者必须克服一个主要障碍: 当时没有大规模的、带有声音标签真值的“野外”立体声视频数据集。因此,他们建立了一个。

StereoWalks 数据集

研究人员策划了一个名为 StereoWalks 的数据集,主要来源于 YouTube 的徒步游览视频。这些视频非常理想,因为它们展示了穿过不同环境 (城市、公园、市场) 的连续相机运动,并且是用高质量的立体声麦克风 (通常是 iPhone) 录制的。

StereoWalks 数据集示例和统计数据。

如图 2 所示,该数据集捕捉了各种各样的场景。为了评估性能,他们收集了两个较小的、受控的子集: Stereo-FountainBinaural-Fountain , 在这些子集中他们可以人工验证声源位置。

数据集比较表。

表 1 突出了一个关键区别: 虽然模拟数据集提供了完美的可见性和控制,但 StereoWalks 提供了强大的现实世界学习所需的嘈杂、不可预测的条件。

优于基线

研究人员将他们的方法与几个基线进行了比较,包括在模拟数据上训练的模型 (GTRot) 和仅使用 IID 线索的模型。

与最先进方法的比较。

表 2 揭示了主要发现: 在现实世界中测试时,在真实数据上训练 (Ours-Full) 明显优于在模拟数据上训练。

  • “Simulated”模型难以泛化到 YT-Stereo 数据集 (MAE 为 \(73.4^{\circ}\)) ,这可能是由于合成房间与城市街道之间的领域差距。
  • “Ours-Full”模型在具有挑战性的 YT-Stereo-iPhone 集合上实现了低得多的平均绝对误差 (MAE) \(34.0^{\circ}\)。

可视化成功结果

定量数字得到了定性可视化的支持。在下面的图 4 中,我们可以看到模型的预测 (桃色线) 紧密跟踪各种声源 (如脚步声、语音和音乐) 的真值 (橙色虚线) 。

结果可视化,显示预测的声音方向。

请注意模型是如何在视野中成功跟踪移动的声源的。这证实了模型不仅仅是在记忆静态线索;它理解观察者与声音之间的动态关系。

为什么它效果更好?

现实世界的音频是杂乱的。声音会重叠、淡入淡出,并且移动不可预测。作者假设他们的方法对这些情况具有更强的鲁棒性。

重叠声音的实验。

表 4 证实了这一假设。在重叠间歇性声音的场景中 (设置 2 和 3) ,自身运动监督模型 (“Ours-Full”) 比模拟训练的基线更好地保持了准确性。相机运动提供的几何约束似乎有助于模型解开复杂的听觉场景。

平移与旋转的作用

研究的一个有趣细节是运动类型的细分。模型是从相机转动 (旋转) 还是向前走 (平移) 中学到的更多?

自身平移与相对运动之间的关系。

表 5 表明, 旋转通常是更强的信号。因为徒步视频中的声源通常较远,向前走几米不会太大地改变声音的角度。然而,旋转相机会立即且显著地改变角度。尽管如此,包含平移损失 (“Ours-Full”) 仍然可以在不同场景下提供最稳健的性能。

解决前后混淆

立体声音频 (两个麦克风) 的一个经典问题是区分你前面的声音和你后面的声音。如果没有人耳复杂的形状 (耳廓) 来过滤声音,立体声麦克风听到的前方和后方几乎是一样的。

前后定位的评估。

表 6 显示了不同录音设备之间的有趣比较。 Binaural-Fountain 数据集 (用入耳式麦克风录制) 在前后定位方面的准确率 (69.3%) 远高于标准 Stereo-Fountain (iPhone) 数据集 (51.0%) 。这强调了虽然自身运动有帮助,但标准手机的硬件限制仍然对解决前后模糊性构成了挑战。

结论与启示

这篇论文代表了视听学习向前迈出的重要一步。通过巧妙地利用视觉和声音之间的几何关系,作者创建了一个能够从普通的、无标签视频中学习定位声音的系统。

关键要点:

  1. 自身运动是一位强大的老师: 我们并不总是需要人工标签。世界相对于我们移动的物理规律提供了丰富的监督信号。
  2. 真实数据胜过模拟: 对于“野外”任务,在杂乱的现实世界数据上训练 (即使是弱监督) 比在原始模拟上训练产生更好的结果。
  3. 几何 + 深度学习: 该方法的成功来自于将深度学习 (ResNet) 与经典的计算机视觉几何 (旋转/平移矩阵) 相结合。

未来潜力: 这项技术开启了利用 YouTube 等平台上数百万小时的可用视频来训练复杂的空间音频模型的大门。未来,这可能会改善助听器,允许机器人在灾区朝声音方向导航,或者创造更具沉浸感的增强现实体验,让虚拟声音完美地锚定在真实世界中。通过教机器“听”运动,我们让它们离像我们要样感知世界更近了一步。