引言: 看见与听见的挑战

想象一下在电视上观看一场篮球比赛。你看到球员们运球、投篮,但你听到的是解说员的声音、观众的呐喊,或许还有运动鞋轻微的摩擦声。对机器而言,理解这样的场景是极其复杂的。视觉线索 (篮球、欢呼的球迷) 和主要的音频线索 (语音、欢呼声) 并不总是完美匹配。当视觉和声音讲述略有不同的故事时,人工智能如何学会关注正确的信号?

一张图示展示了一个 10 秒篮球比赛视频片段,其中包含独立的视频、音频及联合音视频事件标签。这些标签突出了视觉 (篮球) 与听觉 (语音、欢呼) 之间的不匹配。

图 1: 一个 10 秒的篮球片段,展示了视频标签 (“篮球”、“欢呼”、“鼓掌”) 与音频标签 (“语音”、“欢呼”) 之间的差异。

这种不匹配凸显了音视频学习中的核心挑战——让模型能够通过整合多种感官输入来感知并理解真实世界场景。人类可以轻松做到这一点,而人工智能模型尚未完全具备这种能力。虽然目前已有视觉 (如 Swin Transformer) 和音频 (如 HTS-AT) 方向上的强大预训练模型,但针对每个新任务进行完整微调仍然计算代价高昂。

最近的研究提出了适配器 (adapters) ——将小型、可训练的模块插入到大型冻结模型中——以实现参数高效微调 (PEFT) 。但多数设计采用跨模态适配器,总是尝试融合不同模态的信息。这种做法在模态不相关时可能适得其反: 强行融合声音与视觉可能引入噪声与混乱。

论文《用于音视频学习的混合专家模型》 (Mixture of Experts for Audio-Visual Learning) 提出了一种更具适应性的方案——音视频混合专家模型 (AVMoE) 。它基于“混合专家” (MoE) 机制,让不同的适配器充当特定的专家——一些专注于模态融合,另一些只优化单一模态。一个动态的路由器负责选择哪位专家的判断更重要,使模型能够智能地适应不同场景。

本文将探讨 AVMoE 的工作机制、意义和实验结果,揭示它如何塑造多模态学习的新方向。具体包括:

  • 参数高效适配器与混合专家策略的基本概念;
  • AVMoE 架构: 路由器与双适配器;
  • 在事件定位、视频解析、分割和问答任务上的关键结果;
  • 从消融研究与可视化中获得的深层洞察。

背景: 适配器与混合专家

适配器: 大型模型的高效微调

像 Vision Transformer 这样的大型模型是视觉或听觉信息的强大预训练表示,但为每个新任务重新训练所有参数既低效又浪费。适配器通过冻结主体骨干网络,仅插入一些小型瓶颈模块 (少量新层) 来学习任务特定的变换,从而提升训练效率。这样只需训练总参数的少部分,就能保留骨干网络原有的知识。

混合专家: 分而治之

混合专家 (MoE) 框架增加了额外的智能层。它并非依赖单一的通用网络,而是通过多个子网络——“专家”——分别处理特定类型的数据或任务。一个门控或路由模块决定该输入应“咨询”哪些专家,并加权它们的输出。

可以将其比喻为一个专家团队:

  • 专家带来不同的视角 (例如,一位擅长音频融合,另一位擅长视觉推理) ;
  • 路由器动态分配权重,决定哪位专家的贡献更多。

最终形成一个能高效扩展并动态适应的模型,它在每个时刻仅激活与当前任务相关的专家。

AVMoE 将上述两种理念结合: 适配器成为专家,而路由器则协调它们的协作。


核心方法: 深入理解音视频混合专家模型 (AVMoE)

AVMoE 将动态专家模块嵌入到冻结的音频与视觉 Transformer 中,实现灵活的模态处理。如下图所示,它结合了冻结的音频与视觉骨干网络,并引入包含路由器与专用适配器的可训练 AVMoE 模块。

AVMoE 架构概览,展示并行的视觉和音频 Transformer 编码器。可训练的 AVMoE 模块被插入到冻结的骨干网络中,最终融合模块使用路由器来权衡跨模态适配器和单模态适配器的输出。

图 2: AVMoE 架构,将可训练的适配器专家集成到冻结的预训练视觉与音频骨干网络中。

路由器: 分配专家职责

路由器是一个轻量级多层感知器,用于在适配器之间动态分配权重。

对于连接后的音视频 token \( i_t \):

\[ w_{\text{CMA}} = \frac{\exp(r_{\text{CMA}}(i_t))}{\exp(r_{\text{CMA}}(i_t)) + \exp(r_{\text{UA}}(i_t))}, \quad w_{\text{UA}} = \frac{\exp(r_{\text{UA}}(i_t))}{\exp(r_{\text{CMA}}(i_t)) + \exp(r_{\text{UA}}(i_t))} \]

其中 \( w_{\text{CMA}} \) 与 \( w_{\text{UA}} \) 决定了对跨模态适配器 (CMA)单模态适配器 (UA) 的关注程度。当模态间高度相关时,\( w_{\text{CMA}} \) 增大;当检测到噪声或不匹配时,\( w_{\text{UA}} \) 优先权提升。

为了在训练阶段鼓励探索,引入高斯噪声:

\[ g' = g + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2) \]

这防止路由器过度偏向单一专家,确保更均衡的专家利用。

专家: 两种互补适配器

AVMoE 使用两类具有不同功能的专家——分别用于跨模态融合与单模态优化。

跨模态适配器 (CMA) 与单模态适配器 (UA) 架构对比。CMA 包含特征融合步骤,UA 使用自注意力机制,凸显它们不同的作用。

图 3: 适配器架构——跨模态适配器 (左) 融合模态特征;单模态适配器 (右) 专注于模态内部的自注意力。

1. 跨模态适配器 (CMA) : 促进协作

CMA 通过三个阶段完成模态间融合:

  1. Token 压缩: 使用交叉注意力将特定模态的 token 压缩为紧凑的潜在摘要。 \[ S_{a}^{l} = f_{c}(L_{a}^{l}, X_{a}^{l}, X_{a}^{l}), \quad S_{v}^{l} = f_{c}(L_{v}^{l}, X_{v}^{l}, X_{v}^{l}) \]
  2. 特征融合: 将音频摘要与视觉 token 结合,反之亦然。 \[ X^{l}_{av} = f_c(X^{l}_{a}, S^{l}_{v}, S^{l}_{v}), \quad X^{l}_{va} = f_c(X^{l}_{v}, S^{l}_{a}, S^{l}_{a}) \]
  3. 瓶颈优化: 通过轻量级投影与激活层提炼最终的可辨识特征。 \[ Z_{av}^{l} = \theta^{up}(\sigma(\theta^{down}(X_{av}^{l}))), \quad Z_{va}^{l} = \theta^{up}(\sigma(\theta^{down}(X_{va}^{l}))) \]

2. 单模态适配器 (UA) : 保持自主性

UA 专注于模态内推理,当跨模态融合不利 (如无声视频场景) 时,它独立优化各模态。UA 将交叉注意力替换为自注意力以强化模态内部的一致性:

\[ X_{a}^{l} = f_{s}(X_{a}^{l}, S_{v}^{l}, S_{v}^{l}), \quad X_{v}^{l} = f_{s}(X_{v}^{l}, S_{a}^{l}, S_{a}^{l}) \]

CMA 与 UA 相互补充——前者负责融合,后者确保独立。路由器会根据每种场景动态确定它们的组合比例。


实验结果: AVMoE 的性能表现

作者在四个高难度任务上评估了 AVMoE: 音视频事件定位 (AVE) 、视频解析 (AVVP) 、分割 (AVS) 及问答 (AVQA) ,并与主要基线模型 (LAVisH、DG-SCT) 比较。

音视频事件定位 (AVE)

目标: 识别并定位视频中既能听到又能看到的事件。

表格比较了 AVMoE 与其他方法在 AVE 任务中的表现。AVMoE 取得最高准确率 (82.6%) ,且总参数量少于最接近的竞争者 DG-SCT。

表 1: AVMoE 以 82.6% 的准确率超越 LAVisH 和 DG-SCT,并使用更少的可训练参数。

AVMoE 在多种骨干网络中表现稳定优异。使用 Swin-V2-L 视觉编码器与 HTS-AT 音频编码器,可达到 82.6% 准确率,超过 DG-SCT 的 82.2%,同时使用更少的可训练参数。这体现了其专家分配的高效性。

音视频视频解析 (AVVP)

目标: 将视频解析为事件片段,并标记为可听、可见或两者兼有。

表格显示 AVMoE 在 AVVP 任务上的片段级与事件级性能均优于其他方法,在片段级类型 F-score 达 58.8,事件级 F-score 达 59.0。

表 2: AVMoE 以事件级 F-score 59.0 与类型 F-score 58.8 领先,比 DG-SCT 高约 2%。

由于 AVVP 数据经常包含模态不匹配场景,AVMoE 的选择性单模态机制至关重要。更高的 F-score 结果表明其动态路由能有效减轻跨模态干扰。

音视频分割 (AVS)

目标: 分割视频帧中发声物体的像素。

表格比较 AVMoE 在 AVS 任务上的表现。AVMoE 在多声源 (MS3) 设置下取得最高分,Jaccard 指数 54.5,F-score 达 68.7。

表 3: AVMoE 在分割性能上超越 DG-SCT,在多源 (MS3) 场景中表现尤为突出。

在多源分割场景中,AVMoE 的 MoE 灵活性凸显。其 F-score 达到 68.7%,而 DG-SCT 仅为 64.2%,定性结果进一步验证了精度优势。

AVS 结果的定性对比。AVMoE (“Ours”) 生成的发声物体分割掩码更准确、更完整,尤其是在多声源场景下优于 DG-SCT。

图 4: AVMoE 能准确隔离发声物体——排除无声汽车,并生成更整洁的轮廓——DG-SCT 则易出现过度分割。

音视频问答 (AVQA)

目标: 回答需要同时进行音视频推理的多模态问题。

表格显示 AVMoE 在 AVQA 任务中的业界领先表现,在音频、视觉及组合音视频问题类型上均优于其他方法。

表 4: AVMoE 达到平均准确率 75.7%,创下业界最佳表现,即使在复杂的音视频类别上也优于 DG-SCT。

AVMoE 的动态路由提升了高级推理能力。其在 CMA 与 UA 之间的智能切换使模型能理解更精细的上下文,从而在所有问题类型上取得更高准确率。


消融研究与洞察: AVMoE 的成功之道

专家多样性促进更好学习

消融实验表显示: 增加 CMA 和 UA 专家数量可在所有任务上持续提升性能。

表 5: 增加专家数量在 AVS、AVQA 和 AVE 等任务上均带来一致的性能提升。

添加更多适配器——即更多专家——能显著提升表现。即使是最简单配置,也超越此前仅用单适配器的设计 (如 LAVisH) ,验证了 MoE 的模块化效率。

对缺失模态的鲁棒性

表格比较 AVMoE 与 DG-SCT 在仅视觉输入条件下的表现。AVMoE 性能下降更小,展现了对缺失音频信息的鲁棒性。

表 6: 在仅有视觉输入的测试中,AVMoE 仍保持高性能,而 DG-SCT 的性能明显下降。

AVMoE 由于拥有单模态适配器,即使测试时缺失整个模态 (如音频) ,仍能保持鲁棒。这一能力在现实世界传感器数据不完整的场景中尤为重要。

专家激活可视化

热图展示专家激活概率。在处理仅视觉数据时,路由器提高视觉分支中单模态适配器 (专家 #3 和 #4) 的激活度。

图 7: 在仅视觉输入时,路由器激活倾向单模态专家——体现了真正的动态路由行为。

专家激活热图显示,路由器会根据输入类型智能调整依赖模式。在仅视觉输入的情况下,单模态适配器主导工作——这与人类感官优先顺序的直觉行为相吻合。

学习更具判别性的特征

t-SNE 图比较基线模型 (“Original”) 与 AVMoE (“Ours”) 学习到的特征。AVMoE 的特征在不同事件类别间形成更紧凑且更清晰的簇。

图 8: AVMoE 在 AVE 和 AVS 任务中学习到的嵌入向量表现出更紧密的类内簇与更清晰的类间分离。

t-SNE 特征可视化表明,AVMoE 生成的特征表示更具区分性——类内更紧凑、类间更分明,从而更有效地组织多模态表示。


结论: 灵活多模态智能的未来

《用于音视频学习的混合专家模型》研究提出了 AVMoE——一个兼具灵活性、效率与鲁棒性的全新范式。通过动态路由器整合单模态与跨模态适配器,AVMoE 克服了静态多模态融合的局限。

主要启示:

  • 灵活性至关重要: AVMoE 能智能应对模态不匹配、噪声或缺失数据,动态选择最合适的专家组合。
  • 高效与性能兼得: 以少量可训练参数实现四大任务业界领先性能。
  • 强鲁棒性: 在模态缺失的情况下依然保持平稳表现,使其非常适合部署在真实多模态系统中。

在人工智能逐步与多样感官输入交互的时代,AVMoE 展示了“专业化与动态协作”是掌握真实世界丰富感知的关键。