想象你正在观看一段管弦乐队的视频。一位朋友问: “哪种乐器最先开始演奏?”为了回答这个问题,你的大脑完成了一项复杂的壮举。你不仅是看几张随机的快照;你在感知时间的连续流动。你不仅仅是整体地听音频;你在分离特定的声音,并将它们与视觉动作同步。最重要的是,在处理场景之前,你就确切地知道要看什么和听什么,因为问题引导了你的注意力。

在人工智能领域,这项任务被称为音视频问答 (Audio-Visual Question Answering,简称 AVQA) 。虽然人类可以自然地做到这一点,但 AI 模型历来都很吃力。它们通常将视频视为不连贯的帧幻灯片,并且只在过程的最后才考虑实际的问题。

今天,我们将深入探讨一篇挑战这些限制的研究论文: “Question-Aware Gaussian Experts for Audio-Visual Question Answering” (QA-TIGER) 。 该框架提出了一种连续建模时间的方法,并将“问题”整合到了感知过程的核心。

问题所在: 离散采样与后期融合

为了理解 QA-TIGER 的重要性,我们需要先看看传统的 AVQA 模型是如何运作的,以及它们失败在哪里。

大多数现有方法依赖于均匀采样 (Uniform Sampling) 。 它们将视频切成相等的时间间隔 (例如,每 2 秒) ,然后选取一帧。这种方法计算效率高,但很危险。如果“哪支单簧管最后发出声音?”的答案位于这些采样帧之间的瞬间动作中,模型就会完全错过它。

更先进的方法使用Top-K 帧选择 (Top-K Frame Selection) 。 它们试图根据与问题的相似度来选取“最好”的帧。然而,这仍然是一种离散的方法。它选取的是孤立的时刻,破坏了理解持续时间、顺序或渐变所需的时间连续性。

此外,大多数模型都存在后期融合 (Late Fusion) 的问题。它们独立处理音频和视频以提取特征,并且只在最后的分类阶段才将它们与问题文本结合起来。这意味着视觉编码器直到为时已晚才知道它应该寻找什么

采样方法的比较。(a) 输入。(b) 均匀采样错过了上下文。(c) Top-K 选择错过了时间连续性。(d) QA-TIGER 使用连续的高斯曲线来捕捉完整的上下文。

如上图 1 所示,均匀采样 (b) 和 Top-K 选择 (c) 都未能识别出正确的单簧管,因为它们错过了关键的时间窗口。然而,QA-TIGER (d) 使用平滑曲线 (高斯分布) 来连续地对时间片段的重要性进行加权,使其能够正确识别答案。

QA-TIGER 架构

QA-TIGER 代表 Question-Aware Temporal Integration of Gaussian Experts for Reasoning (用于推理的问题感知型高斯专家时间整合) 。该架构旨在解决上述两个主要缺陷: 它尽早注入问题感知,并使用“专家”连续地对时间进行建模。

让我们看看高层工作流程:

QA-TIGER 架构概览。输入经过编码器处理,与问题数据融合,通过高斯专家进行整合,并进行推理以产生答案。

该流程包含三个主要阶段:

  1. 问题感知融合 (Question-Aware Fusion) : 立即将问题嵌入到音频和视觉特征中。
  2. 高斯专家的时间整合 (Temporal Integration of Gaussian Experts) : 使用混合专家 (Mixture of Experts, MoE) 来创建动态、连续的时间窗口。
  3. 问题导向推理 (Question-Guided Reasoning) : 最后的决策步骤。

让我们逐步拆解这些步骤。

1. 问题感知融合

第一个创新在于模型处理输入的方式。QA-TIGER 不提取通用的视觉特征,而是想要已经偏向于问题的特征。

模型接收视频 \(V\)、音频 \(A\) 和问题 \(Q\)。

  • 视觉: 由 CLIP 编码器处理,获得帧级和 Patch 级特征。
  • 音频: 由 VGGish 处理以获得音频特征。
  • 问题: 由文本编码器处理,获得词级和句级特征。

神奇之处在于融合模块 。 模型强制视觉特征“关注”音频和问题中的特定单词。同时,音频特征也会关注视觉和问题。

这是通过堆叠的自注意力 (Self-Attention, SA) 和交叉注意力 (Cross-Attention, CA) 层来实现的。下面的公式描述了视觉特征 (\(v\)) 和音频特征 (\(a\)) 如何更新为“问题感知”的特征 (\(v_q\) 和 \(a_q\)):

展示使用自注意力和交叉注意力机制计算问题感知视觉和音频特征的公式。

简单来说:

  1. SA(v, v, v): 视觉帧相互观察以理解视频上下文。
  2. CA(v, a, a): 视觉观察音频以同步声音和画面。
  3. CA(v, q_w, q_w): 视觉观察问题中的特定单词 (\(q_w\)) 以高亮显示相关对象 (例如,如果问题是关于“萨克斯管”,图像中的萨克斯管区域就会得到增强) 。

这个过程确保了当我们到达下一阶段时,我们的数据已经富含了与用户查询相关的语义意义。为了捕捉更精细的细节,研究人员对Patch 级特征 (帧内的特定区域) 应用了类似的优化,如下所示:

优化 Patch 级特征以将空间细节与问题上下文对齐的公式。

2. 高斯专家的时间整合

这是论文的核心贡献。我们如何摆脱选取离散帧的方式?我们使用高斯专家 (Gaussian Experts)

在概率论中,高斯分布 (或钟形曲线) 由中心 (\(\mu\)) 和宽度 (\(\sigma\)) 定义。在 QA-TIGER 中,这些曲线代表时间窗口

  • 中心 \(\mu\) 告诉模型何时看。
  • 宽度 \(\sigma\) 告诉模型看多久

混合专家 (MoE) 框架

该模型采用“混合专家”方法。可以将这些专家想象成一组观察员。一个专家可能专注于视频的开头,另一个专注于结尾,还有一个可能扫描短促的活动爆发。

首先,模型通过关注句级问题特征 (\(q_s\)),为音频和视频生成浓缩的查询表示:

展示生成以问题为焦点的浓缩表示的公式。

使用这些表示,模型生成高斯曲线的参数。与以前可能使用单个掩码的作品不同,QA-TIGER 生成 \(E\) 个不同的高斯分布 (专家) 。

定义视觉和音频模态的高斯分布的公式。

路由机制 (The Router)

至关重要的是,并非所有专家对每个问题都同样有用。如果问题问的是“最后发生了什么?”,那么专注于视频开头的专家就是无关紧要的。

为了处理这个问题,一个路由机制决定了每个专家的重要性。它使用 Softmax 函数计算路由权重 (\(r\))。这个权重决定了每个专家的高斯曲线对最终结果有多大影响。

计算每个专家路由值 (权重) 的公式。

聚合时间轴

最后,模型聚合时间信息。它不仅仅是对帧进行求和;它计算加权和,其中的权重来自高斯曲线乘以路由器的置信度。

展示专家输出的加权求和以创建最终时间特征的公式。

这产生了一组代表连续时间跨度的特征,并根据问题暗示的答案所在位置进行动态调整。

3. 问题导向推理

在这个阶段,我们要拥有高度精炼、时间上整合的音频和视觉特征。最后一步是结合它们来预测答案。

模型最后一次融合音频和视觉流,再次使用问题作为指导。它首先优化视觉表示:

最终视觉特征计算公式。

然后将音频融合到视觉流中:

最终音视频特征融合公式。

这个最终的特征向量 (\(F_{va}\)) 被传递给分类器,从候选列表中选择正确的答案。

为什么这行得通: 定性可视化

数学很优雅,但它真的像我们要想的那样工作吗?研究人员提供了“注意力”图的可视化,向我们展示了模型究竟在看什么。

运行中的问题感知

让我们看看问题感知融合模块的表现。在下图中,我们看到了针对同一视频提出的两个不同问题的注意力热力图。

展示注意力如何根据问题发生变化的热力图。上图: “有萨克斯管和钢琴的声音吗”。下图: “有多少个发声的萨克斯管”。

  • 上排 (问题 1) : “有萨克斯管和钢琴的声音吗?” 注意音频注意力 (上图块的下半部分) 是如何强烈点亮钢琴声的,钢琴声在视觉上很微妙,但在听觉上很清晰。
  • 下排 (问题 2) : “有多少个发声的萨克斯管…?” 注意力发生了转移。视觉注意力锁定在萨克斯管上进行计数,而音频注意力则聚焦于萨克斯管的音色。

这证明了模型不仅仅是在“看”视频;它在积极搜索文本中提到的概念。

运行中的高斯专家

我们也可以可视化高斯权重 。 专家们真的关注正确的时间片段吗?

高斯权重的可视化。专家 (彩色线) 结合形成一个整合的权重曲线 (黑色虚线) ,与相关的音频/视觉事件对齐。

在图 A 中,针对一个关于计算乐器数量的问题,专家们分布在时间轴上。你可以看到代表不同专家的不同颜色的曲线。它们的共同努力 (“Integrated”曲线) 创造了一个平滑的注意力机制,覆盖了乐器演奏的时刻,忽略了静音或无关的部分。

实验结果

研究人员在 MUSIC-AVQA 基准上测试了 QA-TIGER,这是涉及乐器的此类任务的标准数据集。

最先进的性能 (SOTA)

定量结果令人印象深刻。QA-TIGER 达到了新的最先进 (SOTA) 准确率。

显示 QA-TIGER 达到 77.62% 准确率的表格,优于 TSPM 和 PSTP-Net 等之前的 SOTA 方法。

该模型在 AV-Counting (基于视觉和声音计数乐器) 和 AV-Temporal (理解序列) 任务中表现尤为出色。这验证了连续时间建模对于推理持续时间和顺序更优越的假设。

比较采样策略

为了证明高斯专家优于简单的均匀或 Top-K 采样,作者进行了一项消融实验,直接比较了这些方法。

对比不同专家/帧数量下准确率的图表。高斯专家 (品红线) 始终优于均匀 (灰色) 和 Top-K (绿色) 。

如图 5 所示,“高斯专家”方法 (品红线) 始终产生比均匀或 Top-K 方法更高的准确率,无论使用的片段数 (\(K\)) 是多少。值得注意的是,性能在 7 个专家左右达到峰值,这表明一个由专业时间专家组成的小团队足以覆盖复杂的视频。

定性比较: 其他方法失败的地方

观察以前模型的失败案例通常更能说明进步所在。

成功/失败案例对比。面板 (a) 显示均匀和 Top-K 方法未能正确计数乐器,而高斯方法成功了。

在图 F(a) 中,问题问的是: “听到了多少种乐器?”

  • 均匀/Top-K: 这些方法实际上是基于几帧进行“猜测”。它们错过了所有乐器一起演奏或独特独奏发生的时刻,导致计数错误。
  • QA-TIGER (音频/视觉高斯) : 通过随时间整合信号,TIGER 捕捉到了完整的听觉场景并正确识别了乐器的数量。

结论与启示

QA-TIGER 代表了多模态 AI 向前迈出的重要一步。通过摆脱离散帧采样并采用基于高斯专家的连续时间建模 , 该模型弥合了静态图像处理与真实视频理解之间的差距。

此外, 问题感知融合机制展示了“早期融合”的威力。通过让语言从最初的层级就开始指导视觉和音频处理,模型在过滤噪声和聚焦相关信号方面变得更加高效。

关键要点:

  1. 时间是连续的: 将视频视为孤立快照的序列会破坏关键信息。高斯建模恢复了这种连续性。
  2. 上下文为王: 问题应该指导特征提取,而不仅仅是最后的分类。
  3. 专业化制胜: 使用混合专家允许模型动态适应视频的不同部分,提供了僵化采样无法比拟的灵活性。

对于计算机视觉和多模态学习的学生和研究人员来说,QA-TIGER 提供了如何更有效地处理“第四维度” (时间) 的蓝图。它表明视频理解的未来不仅仅在于更大的 Transformer,还在于更智能、更具适应性的时间与上下文表示方法。