引言: AI 中的“作弊”学生问题
想象一个学生正在参加历史考试。题目问: “为什么工业革命始于英国?”学生其实不知道答案,但他注意到以往考试中有一个规律: 只要“英国”和“革命”这两个词出现,答案通常是“选项 C”。于是他选了 C,并且答对了。
这个学生学会历史了吗?没有。他学到的是一种统计学捷径。
这正是现代视觉语言模型 (VLMs) 在视频问答 (VideoQA) 中发生的情况。模型往往依赖伪相关 (spurious correlations) ——即训练数据中的统计偏差——而不是真正理解视频内容。例如,如果数据集经常包含女性抱着婴儿的视频,模型可能会学会将“女人”和“婴儿”这两个词与“牵手”这个动作联系起来,而不管提供的具体视频片段中实际发生了什么。
这导致了一个关键问题: 不忠实的定位 (Unfaithful Grounding) 。 模型可能会猜对答案,但它看的是视频的错误部分 (或者根本没看视频) 。

如上图 图 1 所示,模型可能会正确回答那个女人“牵着他的手” (选项 E) ,但标记为“Unfaithful Grounding” (不忠实定位) 的绿色条显示,模型关注的是一个完全不相关的时间段。图 (b) 中的图表强调了这种偏差: “婴儿”和“女人”的共现严重偏向于特定的答案,从而创造了一条捷径。
在这篇文章中,我们将深入探讨一篇名为 《Cross-modal Causal Relation Alignment for Video Question Grounding》 (用于视频问题定位的跨模态因果关系对齐) 的论文。我们将探索作者如何提出一个新的框架 CRA , 利用因果推理 (Causal Inference) 迫使模型停止“作弊”,开始在视频时间轴中寻找答案的真正成因。
背景: 视频问题定位 (VideoQG)
在剖析解决方案之前,我们需要定义任务。 视频问题定位 (VideoQG) 比简单的 VideoQA 更难。
- VideoQA: 模型接收视频和问题,输出答案。
- VideoQG: 模型必须输出答案, 并且识别出视频中包含该答案证据的具体时间区间 (开始和结束时间戳) 。
挑战在于,VideoQG 的有效训练数据非常稀缺,因为为每个问题标注开始/结束时间既昂贵又耗时。大多数模型都是以“弱监督”方式训练的——它们只有问答对和完整视频,但没有具体的时间戳。
伪相关的问题
在标准的关联模型中,答案 (\(a\)) 的概率是基于视频 (\(V\)) 和语言 (\(L\)) 计算的。
\[P(a | V, L)\]然而,隐藏的混淆因子 (\(Z\)) ——如数据集偏差——会同时影响输入和输出,创建一条绕过推理过程的后门路径。本文作者使用结构因果模型 (SCM) 来打破这些伪连接。
核心方法: 跨模态因果关系对齐 (CRA)
作者提出了 CRA 框架 。 其目标是对齐视频模态和文本模态之间的因果关系。

如 图 2 所示,该架构非常复杂。让我们分解一下数学目标。模型旨在找到最佳答案 \(a^*\) 和时间区间 \(t^*\):

这里,\(\Psi\) 代表 VideoQA 推理,\(\Phi\) 代表定位 (寻找时间区间) 。变量 \(w\) 代表时序注意力——本质上是指哪些帧是重要的。
CRA 框架由三个主要引擎协同工作组成:
- 高斯平滑定位 (GSG)
- 跨模态对齐 (CMA)
- 显式因果干预 (ECI)
1. 高斯平滑定位 (GSG)
第一步是找出答案位于视频的哪里。标准的跨模态注意力可能充满噪声,由于视觉噪声,注意力权重会在帧之间随机跳动。
为了解决这个问题,作者引入了高斯平滑 (Gaussian Smoothing) 层。他们不再使用原始的注意力分数,而是应用自适应高斯滤波器。这迫使模型寻找连贯、连续的时间片段,而不是分散的帧。

如 图 3(a) 所示,GSG 模块计算全局语言特征 (\(l_g\)) 与视频特征 (\(v\)) 之间的相关性。注意力权重 \(w\) 的方程为:

\(G(\cdot)\) 是自适应高斯滤波器。这“平滑”了注意力,使得预测的时间区间 (\(t\)) 更加可靠且抗噪。
2. 跨模态对齐 (CMA)
既然模型在训练期间没有真值时间戳 (弱监督) ,它如何学会将视频片段与文本匹配呢?作者使用了双向对比学习 (Bidirectional Contrastive Learning) 。
这个想法很简单: 正确视频片段 (\(v^+\)) 的表示应该与正确问题 (\(l^+\)) 的表示非常相似,而与随机片段或无关问题的表示非常不同。
使用的损失函数是 InfoNCE , 一种标准的对比损失:

总对齐损失结合了视频到文本和文本到视频的对齐:

这鼓励模型在嵌入空间中将相关的视频和文本特征拉得更近。
3. 显式因果干预 (ECI)
这是论文中理论最密集和最具创新性的部分。作者认为,标准的注意力机制仅仅是相关性的 (\(P(a|V,L)\)) 。为了获得真正的理解,我们需要执行因果干预 , 用 do算子 表示: \(P(a | do(V), do(L))\)。
这涉及两种类型的“去混淆”:
A. 语言去混淆 (后门调整)
语言中的偏差 (如“婴儿”暗示“抱着”) 被视为混淆因子 \(Z_l\)。作者构建了一个语义结构图 (见图 3b) 来识别问题中的实体 (主语、谓语、宾语) 。
通过基于这些语义结构对数据进行分层,他们可以应用后门调整 (Back-door Adjustment) :

这个公式本质上是说: “计算答案的概率,但在所有可能的语义上下文 (\(Z_l\)) 上取平均值,以消除任何单一上下文的特定偏差。”
B. 视觉去混淆 (前门调整)
视觉偏差很难定义。一个场景可能有黑暗的背景,或者特定的光照,模型可能会以此建立捷径。由于我们无法轻易描述所有的视觉混淆因子,作者使用了前门调整 (Front-door Adjustment) 。
他们引入了一个中介变量 (Mediator, \(M\)) 。
- \(V\): 完整视频。
- \(M\): 具体的、已定位的视频片段 (由 GSG 模块找到) 。
- \(a\): 答案。
我们要的因果路径是 \(V \to M \to a\)。我们要让答案源自特定片段 (\(M\)) ,而不仅仅是整体视频氛围 (\(V\)) 。
前门调整公式为:

为了使其可计算,作者使用链式法则和概率论将其展开:

最后,他们使用归一化加权几何平均 (NWGM) 来近似这个复杂的求和:

这有效地迫使模型将“中介变量” (聚焦的视频片段) 视为连接原始视频和答案的关键桥梁,切断了跳过详细证据的虚假捷径。
实验与结果
研究人员在两个具有挑战性的数据集上测试了 CRA: NExT-GQA 和 STAR 。
- NExT-GQA: 侧重于因果 (“为什么”、“如何”) 和时序 (“之前”、“之后”) 问题。
- STAR: 一个需要逻辑推理和情境理解的数据集。
数据集统计
数据集非常庞大,包含数千个视频和数万个问题。

定量性能
结果显示 CRA 优于现有的基线模型。在 表 3 中,我们查看 NExT-GQA 测试集。
- Acc@GQA: 这是“忠实回答”指标。这意味着模型不仅答对了问题, 并且看了视频的正确部分 (IoU > 某个阈值) 。
- Acc@QA: 仅仅是答对问题。

请注意, CRA (ours) 始终获得最高的 Acc@GQA (取决于骨干网络,分别为 18.2% 和 18.8%) 。即使与像 FrozenBiLM 这样的大型模型相比,添加 CRA 框架也提高了答案的“忠实度”。
有趣的是,较大的模型 (如 FrozenBiLM) 具有很高的 QA 准确率,但与其潜力相比,定位准确率往往较低——它们是基于数据集先验知识“幻觉”出了正确答案。CRA 修正了这一点。
定性分析: 看见改进
模型真的在看正确的东西吗?让我们看看预测视频片段的分布。

在 图 4 中,青色条代表真值 (Ground Truth) 。橙色条是 CRA , 紫色条是基线 (NG+)。
- 在 (b) 中,注意 CRA (橙色) 比基线更好地遵循了真值 (青色) 的分布。基线倾向于预测极短的片段 (左侧的尖峰) ,而 CRA 捕捉到了更真实的片段时长分布。
注意力可视化
最后,我们可以可视化“注意力权重”——即模型正在看什么。

在 图 6 的图表 (a) 中,问题是关于特定反应的。
- Ground Truth (真值) : 底部的青色条。
- Temp[CLIP] (w/o GS): 紫色虚线。它混乱且尖锐。
- CRA (Temp[CLIP]): 实心橙色线。注意它是如何更平滑并形成一个清晰的“山峰”,与真值青色条对齐得好得多。
这精确地可视化了高斯平滑和因果干预的成果: 它们清理了噪声,迫使模型关注重要的连续事件。
消融实验: 我们需要所有组件吗?
作者进行了消融实验,以确保每个组件都是必要的。

- w/o GSG: 去除高斯平滑会导致 IoU (交并比) 显著下降 (10.6 \(\to\) 8.0) 。模型在定位片段方面变差。
- w/o CMA: 去除跨模态对齐会同时损害准确率和定位。
- w/o Causal: 去除因果干预 (ECI/LCI) 会导致忠实准确率 (Acc@GQA) 的最大下降。这证明了因果推理对于将视觉证据与答案联系起来至关重要。
结论与启示
CRA (跨模态因果关系对齐) 框架代表了使 AI 系统更加鲁棒和可解释的重要一步。通过摆脱简单的相关性并拥抱因果推理 , 作者成功创建了一个不仅仅是猜测答案的模型——它通过“观看”视频来寻找证据。
关键要点:
- 不要相信捷径: 标准的 VideoQA 模型经常利用数据集偏差作弊。
- 平滑噪声: 高斯平滑帮助模型识别连贯的视频事件,而不是嘈杂的帧。
- 因果干预: 使用前门和后门调整可以让模型将真正的视觉证据 (中介变量) 与混淆偏差隔离开来。
这种方法对于未来的应用至关重要,在这些应用中,“忠实度”是不可妥协的——例如法律视频分析、医学影像或自动导航,在这些领域,因为错误的原因得到正确的答案可能是危险的。
](https://deep-paper.org/en/paper/2503.07635/images/cover.png)