引言
想象一下,你闭着眼睛走在繁忙的城市街道上。你听到警笛声。为了弄清它来自哪里,你可能会本能地转头或向前走。当你移动时,声音会发生变化——如果你向右转而声音仍然在你左边,你就确切地知道它相对于你的位置。这种运动 (自身运动,egomotion) 与声音感知之间的动态关系是人类在世界中导航的基础。
然而,教人工智能复制这种技能——声源定位——是出了名的困难。标准方法通常依赖于在模拟的、安静的 3D 房间中训练智能体,在那里的声学环境在数学上是完美的,但却是不真实的。现实世界的音频是杂乱的;它会在墙壁上反弹,被风声淹没,并与背景噪音混合。此外,为真实世界的视频收集“真值 (ground truth) ”数据 (即精确标记每一帧中每个声音的来源) 极其昂贵且耗时。
在论文 “Supervising Sound Localization by In-the-wild Egomotion” 中,来自密歇根大学、清华大学和上海期智研究院的研究人员提出了一个巧妙的解决方案。他们提出了一个简单的问题: 我们能否仅通过观看人们四处走动的“野外”视频来教 AI 定位声音?

他们的方法利用相机的运动作为一种“免费”的监督信号。通过分析相机在视频中如何移动 (旋转和平移) ,模型学习预测与该运动一致的声音方向。其结果是一个能够从未经人工标注的标准 YouTube 徒步游览视频中学习的系统,弥合了模拟训练与现实世界应用之间的差距。
背景: “野外”音频的挑战
要理解这项研究的重要性,我们需要先看看机器通常是如何学习听觉的。
模拟的问题
历史上,研究人员依赖模拟器 (如 SoundSpaces) 来生成训练数据。在模拟中,你可以将虚拟智能体放置在虚拟房间中,播放虚拟声音,并确切地告诉智能体声音在哪里。这提供了完美的标签。然而,存在着巨大的“Sim2Real (从模拟到现实) ”差距。模拟房间无法捕捉拥挤的地铁站或多风公园的声学复杂性。在模拟中训练的模型在部署到现实世界时往往会失败。
真实数据的问题
另一种选择是使用真实视频。但这面临着“标注瓶颈”。如何生成数百万帧视频,并由人工精确标记每一个脚步声、汽车喇叭声和鸟鸣声的角度?这几乎是不可能的。
解决方案: 弱监督
这篇论文介绍了一种弱监督学习框架。模型不使用显式标签 (例如“汽车在 45 度方向”) ,而是使用源自视觉数据的约束。它不需要知道声音确切在哪里就可以开始学习;它只需要知道根据相机的移动方式,声音的位置应该如何变化。
核心方法: 从运动中学习
这篇论文的核心创新在于将自身运动 (相机/观察者的运动) 视为老师。

如上图 3 所示,该流程包含两个并行流: 音频流 (我们想要训练的部分) 和视觉流 (充当监督者的部分) 。
1. 视觉流: 估计自身运动
首先,系统分析视频帧以了解相机在两个时间点 \(t\) 和 \(t'\) 之间是如何移动的。研究人员使用现成的计算机视觉技术 (具体为用于特征匹配的 SuperGlue 和用于校准的 Perspective Fields )来估计两件事:
- 旋转: 相机是向左还是向右转了?
- 平移: 相机是向前还是向后移动了?
关键在于,该系统的视觉部分并没有被训练。它是一个固定的、预先存在的工具,用于为音频模型生成标签。
2. 音频流: 预测方位角
模型获取对应于时间 \(t\) 和 \(t'\) 的立体声音频片段 (声谱图) 。一个卷积神经网络 (ResNet-18) 处理这些声谱图,并输出可能的声音角度 (方位角) 的概率分布。它将 360 度的视野划分为不同的角度网格 (例如 32 个区间) 。
3. “掩码求和”监督
这是论文的数学核心。模型预测时间 \(t\) 的声音角度 (\(f(s_1)\)) 和时间 \(t'\) 的声音角度 (\(f(s_2)\)) 。然后系统会检查: 这两个预测是否与我们要看到的相机运动一致?
旋转损失
如果视觉系统检测到相机顺时针旋转,那么相对于相机,一个静止的声源必须看起来是逆时针移动的。
研究人员制定了一个损失函数,如果模型预测了“错误”方向的移动,就会对其进行惩罚。他们将所有与视觉旋转兼容的角度对的概率相加。
\[ \mathcal { L } _ { \mathrm { r o t } } = L _ { \mathrm { c e } } \left( \sum _ { ( i , j ) \in R } f ( \mathbf { s } _ { 1 } ) _ { i } f ( \mathbf { s } _ { 2 } ) _ { j } , d _ { r } \right) , \]在这个公式中:
- \(f(s_1)_i\) 和 \(f(s_2)_j\) 分别是声音位于角度 \(i\) 和 \(j\) 的预测概率。
- \(R\) 是所有与视觉旋转方向 \(d_r\) 一致的 \((i, j)\) 对的集合。
- 该损失强制模型最大化这些一致对的概率。
平移损失
同样,如果相机向前移动 (平移) ,侧面的物体应该向视野的后方移动 (视差效应) 。论文定义了一个平移损失:
\[ \mathcal { L } _ { \mathrm { t r a n s } } = L _ { \mathrm { c e } } \left( \sum _ { ( i , j ) \in T } f ( \mathbf { s } _ { 1 } ) _ { i } f ( \mathbf { s } _ { 2 } ) _ { j } , d _ { t } \right) , \]这里,\(T\) 代表与相机向前或向后移动 \(d_t\) 一致的角度对集合。
双耳线索 (IID)
为了稳定训练,研究人员还使用了一种传统的基于物理的线索: 双耳强度差 (IID) 。 简单来说,如果左声道的声音更大,那么声音很可能来自左边。
\[ \mathcal { L } _ { \mathrm { b i n } } = L _ { \mathsf { c e } } \left( \sum _ { j \in B } f ( \mathbf { s } _ { i } ) _ { j } , b _ { t } \right) , \]这充当了模型的“健全性检查”,确保它在从运动中学习更复杂的几何关系的同时,尊重基本的声学物理规律。
组合目标
最终的训练目标结合了所有这三种损失。权重 \(\lambda_1\) 和 \(\lambda_2\) 允许研究人员平衡模型对旋转、平移或原始强度差异的依赖程度。
\[ \mathcal { L } = \lambda _ { 1 } L _ { \mathrm { r o t } } + ( 1 - \lambda _ { 1 } ) L _ { \mathrm { t r a n s } } + \lambda _ { 2 } L _ { \mathrm { b i n } } , \]通过最小化这个组合损失,神经网络学会了以一种既符合立体声音频物理规律,又符合相机运动几何关系的方式来定位声音。
实验与结果
为了测试他们的方法,作者必须克服一个主要障碍: 当时没有大规模的、带有声音标签真值的“野外”立体声视频数据集。因此,他们建立了一个。
StereoWalks 数据集
研究人员策划了一个名为 StereoWalks 的数据集,主要来源于 YouTube 的徒步游览视频。这些视频非常理想,因为它们展示了穿过不同环境 (城市、公园、市场) 的连续相机运动,并且是用高质量的立体声麦克风 (通常是 iPhone) 录制的。

如图 2 所示,该数据集捕捉了各种各样的场景。为了评估性能,他们收集了两个较小的、受控的子集: Stereo-Fountain 和 Binaural-Fountain , 在这些子集中他们可以人工验证声源位置。

表 1 突出了一个关键区别: 虽然模拟数据集提供了完美的可见性和控制,但 StereoWalks 提供了强大的现实世界学习所需的嘈杂、不可预测的条件。
优于基线
研究人员将他们的方法与几个基线进行了比较,包括在模拟数据上训练的模型 (GTRot) 和仅使用 IID 线索的模型。

表 2 揭示了主要发现: 在现实世界中测试时,在真实数据上训练 (Ours-Full) 明显优于在模拟数据上训练。
- “Simulated”模型难以泛化到 YT-Stereo 数据集 (MAE 为 \(73.4^{\circ}\)) ,这可能是由于合成房间与城市街道之间的领域差距。
- “Ours-Full”模型在具有挑战性的 YT-Stereo-iPhone 集合上实现了低得多的平均绝对误差 (MAE) \(34.0^{\circ}\)。
可视化成功结果
定量数字得到了定性可视化的支持。在下面的图 4 中,我们可以看到模型的预测 (桃色线) 紧密跟踪各种声源 (如脚步声、语音和音乐) 的真值 (橙色虚线) 。

请注意模型是如何在视野中成功跟踪移动的声源的。这证实了模型不仅仅是在记忆静态线索;它理解观察者与声音之间的动态关系。
为什么它效果更好?
现实世界的音频是杂乱的。声音会重叠、淡入淡出,并且移动不可预测。作者假设他们的方法对这些情况具有更强的鲁棒性。

表 4 证实了这一假设。在重叠和间歇性声音的场景中 (设置 2 和 3) ,自身运动监督模型 (“Ours-Full”) 比模拟训练的基线更好地保持了准确性。相机运动提供的几何约束似乎有助于模型解开复杂的听觉场景。
平移与旋转的作用
研究的一个有趣细节是运动类型的细分。模型是从相机转动 (旋转) 还是向前走 (平移) 中学到的更多?

表 5 表明, 旋转通常是更强的信号。因为徒步视频中的声源通常较远,向前走几米不会太大地改变声音的角度。然而,旋转相机会立即且显著地改变角度。尽管如此,包含平移损失 (“Ours-Full”) 仍然可以在不同场景下提供最稳健的性能。
解决前后混淆
立体声音频 (两个麦克风) 的一个经典问题是区分你前面的声音和你后面的声音。如果没有人耳复杂的形状 (耳廓) 来过滤声音,立体声麦克风听到的前方和后方几乎是一样的。

表 6 显示了不同录音设备之间的有趣比较。 Binaural-Fountain 数据集 (用入耳式麦克风录制) 在前后定位方面的准确率 (69.3%) 远高于标准 Stereo-Fountain (iPhone) 数据集 (51.0%) 。这强调了虽然自身运动有帮助,但标准手机的硬件限制仍然对解决前后模糊性构成了挑战。
结论与启示
这篇论文代表了视听学习向前迈出的重要一步。通过巧妙地利用视觉和声音之间的几何关系,作者创建了一个能够从普通的、无标签视频中学习定位声音的系统。
关键要点:
- 自身运动是一位强大的老师: 我们并不总是需要人工标签。世界相对于我们移动的物理规律提供了丰富的监督信号。
- 真实数据胜过模拟: 对于“野外”任务,在杂乱的现实世界数据上训练 (即使是弱监督) 比在原始模拟上训练产生更好的结果。
- 几何 + 深度学习: 该方法的成功来自于将深度学习 (ResNet) 与经典的计算机视觉几何 (旋转/平移矩阵) 相结合。
未来潜力: 这项技术开启了利用 YouTube 等平台上数百万小时的可用视频来训练复杂的空间音频模型的大门。未来,这可能会改善助听器,允许机器人在灾区朝声音方向导航,或者创造更具沉浸感的增强现实体验,让虚拟声音完美地锚定在真实世界中。通过教机器“听”运动,我们让它们离像我们要样感知世界更近了一步。
](https://deep-paper.org/en/paper/file-2242/images/cover.png)