想象一下,给 AI 展示一段某人在拳击的视频。问题在于?他们是在图书馆里打拳。典型的视频大语言模型 (Video-LLM) 可能会看着书架和安静的氛围,完全忽略拳击动作,将场景描述为“学生在阅读”。或者,它可能会看到拳击动作,然后凭空捏造 (幻觉) 出一个背景中的“拳击台”,完全无视了书籍。
这种现象被称为动作-场景幻觉 (Action-Scene Hallucination) 。 当模型过度依赖场景上下文来猜测动作,或者根据动作错误地推断场景时,就会发生这种情况。
今天,我们将深入探讨一篇题为 “MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations” (MASH-VLM: 通过解耦时空表示缓解视频大语言模型中的动作-场景幻觉) 的研究论文。这篇论文提出了一种新颖的架构,强制 AI 分别处理事物在哪里 (空间) 和发生了什么 (时间) ,从而对复杂视频产生更准确的理解。

如上图 1 所示,这不仅仅是一个理论问题。当现有的模型看到一座覆盖着雪且空无一人的山时,它们通常会产生“滑雪”或“单板滑雪”的幻觉,仅仅因为背景看起来像滑雪胜地。MASH-VLM 旨在解决这个问题。
问题所在: 为什么 Video-LLM 会产生幻觉?
要理解解决方案,我们需要先了解当前模型为何会失败。研究人员指出了两个主要罪魁祸首: 纠缠的注意力机制 (Entangled Attention) 和有偏差的位置嵌入 (Biased Positional Embeddings) 。
1. 纠缠陷阱
大多数 Video-LLM 将视频视为一系列 Token (信息块) 。它们使用一种称为“注意力”的机制让这些 Token 彼此交流。在标准方法中,空间 Token (单帧的视觉细节) 和时间 Token (随时间的变化) 是混合在一起的。
由于模型是在海量数据上训练的,它学习的是统计相关性。它学到了“雪山”通常与“滑雪”相关联。如果空间特征和时间特征混杂在一起,模型就会走捷径: 它看到山就猜测在滑雪,跳过了对实际运动的验证。
2. 位置偏差 (RoPE 问题)
大语言模型使用旋转位置嵌入 (RoPE) 来理解数据的顺序。在一个句子中,RoPE 告诉模型第 1 个词在第 2 个词之前。
然而,当应用于视频时,标准 RoPE 会产生偏差。视觉 Token 通常按顺序输入模型: 首先是空间 Token,然后是时间 Token。由于文本 Token (你向 AI 提出的问题) 位于最后,它们在数学上比时间 Token 更“接近”空间 Token。

如图 2(a) 所示,标准 RoPE 导致文本 Token 过度关注空间 Token,仅仅因为它们在序列中靠得更近。这导致模型过度优先考虑背景场景,而忽略了时间动作动态。
MASH-VLM 登场: 解决方案
研究人员推出了 MASH-VLM , 全称为 Mitigating Action-Scene Hallucination in Video-LMs。其核心理念是解耦 (disentanglement) 。 如果模型混淆了空间和时间,解决方案就是强制它在合并之前分别处理它们。
该架构引入了两项关键创新: 谐波 RoPE (Harmonic-RoPE) 和 DST 注意力机制 (DST-Attention) 。

创新 1: 谐波 RoPE (Harmonic-RoPE)
为了修复模型忽略时间 Token 的位置偏差,作者提出了谐波 RoPE 。
标准 RoPE 为每个 Token 分配一个唯一的、顺序的 ID。这在早期的时间 Token 和最后的文本 Token 之间造成了巨大的“距离”。谐波 RoPE 通过扩展位置 ID 的维度改变了规则。
它为空间和时间 Token 分配平衡的位置 ID (Balanced Positional IDs) 。 这意味着,在数学上,模型将空间特征和时间特征视为与文本“等距”。它创造了一个公平的竞争环境,确保模型对运动数据的关注程度与对静态图像数据的关注程度一致。

如图 4 所示,标准 RoPE (左) 造成了差异。谐波 RoPE (右) 使用“平衡旋转” (\(\theta_0\)) 来对齐空间和时间 Token,同时保留“区分旋转” (\(\theta_1\)) 以维持必要的顺序。
这种谐波分配的数学公式确保对于特定维度 (偶数) ,位置 ID 是共享的,而对于其他维度 (奇数) ,它们保持不同:

创新 2: DST 注意力机制 (DST-Attention)
第二项创新解决了“走捷径”的问题。 DST-Attention (解耦时空注意力) 是一种自定义的注意力机制,它限制了神经网络中谁可以与谁交流。
研究人员使用掩码注意力 (Masked Attention) 来防止空间和时间 Token 之间的直接交互。
- 空间 Token 允许相互查看 (双向注意力) ,因为理解场景需要同时查看整个图像。
- 时间 Token 使用因果注意力 (仅查看之前的 Token) 以保留时间的流动。
- 解耦: 关键在于,掩码在特征提取阶段阻止了空间 Token 关注时间 Token,反之亦然。
通过阻断这些交互,模型无法偷懒地依赖场景来猜测动作。它被迫学习一种独特的场景表示和一种独特的运动表示。
UNSCENE 基准测试
如果现有的基准测试不针对幻觉进行测试,你如何证明你的模型在捕捉幻觉方面做得更好?答案是建立一个新的基准。
作者介绍了 UNSCENE 基准 (UNusual context & SCENE-only,意为异常上下文与仅场景) 。这个数据集是专门为了诱导 AI 模型犯错而策划的。

数据集的创建巧妙地利用了 GPT-4:
- 收集: 他们手动收集了具有异常上下文的视频 (例如,有人在河里游泳,但河水看起来像街道洪水) 或仅有场景的视频 (空房间) 。
- 陷阱生成: 他们要求 GPT-4 生成“幻觉标签”——看似合理但错误的答案。对于雪地,幻觉标签可能是“单板滑雪”。
- 双重问答 (Dual QA) : 他们创建了二元 (是/否) 问题。要通过测试,模型必须对幻觉回答“否”,对真实标签 (ground truth) 回答“是”。
以下是这些高难度的“异常上下文”视频的一瞥:

在图 9 (左上角) 中,我们看到有人在办公室里推杆 (高尔夫) 。标准模型可能会看到桌子然后说“工作”,或者看到球杆然后产生“高尔夫球场”的幻觉。MASH-VLM 需要正确识别出这两者。
实验结果
那么,解耦空间和时间真的有效吗?结果表明确实非常有效。
在 UNSCENE 上的表现
在新建的 UNSCENE 基准上,MASH-VLM 达到了最先进 (SOTA) 的性能。

看表 2,提升是巨大的。在“异常上下文”类别中,MASH-VLM 在场景识别上得分 80.25% , 而排名第二的模型 (VideoChat2) 仅得分 51.04% 。 这证明当动作与场景不匹配时,MASH-VLM 混淆的可能性要小得多。
通用视频理解
人们可能会担心限制模型 (通过掩码注意力) 会损害其通用性能。然而,在 MVBench 等标准基准测试中,MASH-VLM 同样占据主导地位。

它的平均得分为 57.6% , 击败了 GPT-4V 和 VideoChat2 等重量级模型。这表明解耦表示不仅有助于防止幻觉,还能从整体上建立更稳健的视频理解。
定性分析: 看看 AI 看到了什么
为了真正理解这种改进,我们可以查看“注意力分数”——本质上是 AI 在生成答案时关注内容的关注度热力图。

在上图 8(c) 中,请看基线模型 (上方图表) 。当被问及一个人在读书时,它主要关注空间 Token (棕色线) ,但未能捕捉到时间上的细微差别,从而导致幻觉。
相比之下, MASH-VLM (下方图表) 显示出更加平衡的激活。它在必要时会参考空间和时间 Token。它不会让背景主导决策过程。
结论
MASH-VLM 论文揭示了我们构建多模态 AI 方式中的一个关键缺陷: 通过将空间和时间视为单一、混乱的数据流,我们鼓励了模型走统计捷径。
通过引入 Harmonic-RoPE 来平衡 Token 的位置重要性,以及引入 DST-Attention 来强制执行严格的职责分离,MASH-VLM 迫使 AI 更加诚实。它必须独立于场景来验证动作。
随着我们迈向能够作为盲人可靠叙述者、自动安全监控器或自主智能体的 AI,缓解幻觉至关重要。MASH-VLM 提供了一个令人信服的蓝图,展示了结构化的架构变革如何带来更值得信赖和准确的人工智能。
](https://deep-paper.org/en/paper/2503.15871/images/cover.png)