引言
想象你正站在一个拥挤的博物馆里。你指着远处的一件展品对朋友说: “看那个!”你的朋友会立刻转头,顺着你手指的方向,在众多物体中识别出那个特定的目标,并完全理解你的意思。这种对人类来说瞬间完成且毫不费力的互动,实际上是多模态处理的杰作。它涉及将视觉数据、空间推理和语言整合为对世界的连贯理解。
在人工智能飞速发展的今天,多模态大语言模型 (Multimodal Large Language Models,简称 MLLMs) 如 GPT-4o 和 Gemini 已经开始展示出惊人的能力。它们可以描述照片、回答关于视频的问题,并进行流畅的对话。但是,它们真的像我们一样看世界吗?具体来说,它们能否理解手势这种微妙的物理语言?
最近一篇名为《多模态大语言模型真的看到我们指的东西了吗?》 (Do Multimodal Large Language Models Truly See What We Point At?) 的研究论文深入探讨了这个问题。研究人员调查了最先进的 AI 模型是否能区分不同类型的手势——重点关注指向某物的“指示性手势” (Indexical) 与用手描述某物的“形象性手势” (Iconic) 之间的区别。他们的发现揭示了现代 AI 的一个迷人“盲点”: 虽然模型越来越擅长说话,但它们在将理解建立于物理世界之上这方面仍然举步维艰。
背景: 手的语言
为了理解 MLLM 面临的挑战,我们首先需要拆解人类如何使用双手进行交流。在语言学和认知科学中,手势通常根据其传达意义的方式进行分类。这项研究主要关注三种类型:
- 指示性手势 (Indexical Gestures) : 即“指向”手势。它们完全依赖于物理环境。如果我指着某处说“那个”,其含义 100% 取决于我手指末端指向的是什么。如果不将手势“锚定 (Grounding) ”在物理世界中 (即看到指代对象) ,这个手势就是没有意义的。
- 形象性手势 (Iconic Gestures) : 这些手势描绘了意象。例如,在空中画一个圆圈代表圆形物体,或者挥动做波浪状手势来描述过山车。即使没有看到具体的物理对象,通常也能通过语境和形状理解这些手势。
- 象征性手势 (Symbolic Gestures) : 这些是文化定义的符号,比如竖起大拇指表示“好”,或者挥手表示“你好”。它们的含义是由习俗固定的。

如图 1 所示,这些区别非常明显。左侧面板显示了一个指示性手势,一名男子指向镜头外。要理解他,你必须知道他指着哪里。中间面板显示了一个形象性手势;这名男子正在模仿通过望远镜观看的动作。仅仅看着他,你可能就能猜出其中的含义。右侧面板显示了一个象征性手势,通过常规的手部姿势强调一个概念。
研究人员假设 MLLM 会在指示性手势上遇到特别的困难。为什么?因为这些模型主要是通过大量的文本和静态图像训练出来的。它们可能缺乏理解“手指是指向 3D 空间中特定坐标的向量”所需的“具身 (embodied) ”经验。
实验: 实地测试 AI
为了验证这一假设,作者没有依赖摆拍的照片。他们利用了日本科学未来馆科学传播 (SC) 语料库 (Miraikan Science Communication Corpus) ,这是一个包含日本科学博物馆内科学解说员与参观者之间真实对话视频的数据集。这个场景非常适合这项研究,因为博物馆的对话自然充满了指向 (“看这个机器人”) 和描述性手势 (“它像这样旋转”) 。
数据集构建
研究人员从语料库中手动标注了 925 个手势实例,将其标记为指示性、形象性、象征性、混合型或其他。

表 1 强调了这些手势的分布。请注意, 指示性手势是最常见的 (33.4%) ,反映了指向在博物馆等现实环境中的重要性。形象性手势也很常见 (18.3%) 。这些手势的平均持续时间大约为 7.4 秒,确保了模型性能的差异不仅仅是因为某些手势更短或更难捕捉。
任务
研究人员测试了几款领先的模型,包括 GPT-4o、Gemini 1.5 Pro、Qwen2.5-VL 和 LLaVA-NeXT-Video 。
设置简单但严谨:
- 输入: 给模型一段视频剪辑和手势发生前的对话记录。
- 提示词 (Prompt) : 要求模型解释场景结束时所做手势的含义和意图。
- 评估: 将模型生成的描述与人类编写的“标准答案 (Ground Truth) ”描述进行比较。另一个大语言模型 (GPT-4o-mini) 作为裁判,对准确性进行打分 (0.0 到 1.0) 。

图 3 提供了使用的提示词示例 (从日语翻译而来) 。模型看到对话历史和视频帧 (可视化为“Cam A”到“Cam F”) ,并且必须输出解释。
核心结果: “指向”差距
研究结果证实了研究人员的假设: MLLM 在指示性锚定方面存在明显的弱点。

如图 2 所示,看看 GPT-4o (左侧第一组) 的表现。它在形象性手势 (橙色柱) 上得分 0.50 , 但在指示性手势 (红色柱) 上下降到了 0.47 。 这一趋势出现在大多数模型中。虽然原始数字的差异看起来很小,但它代表了在解析“被指之物是什么”这一任务上的系统性失败。
唯一的例外似乎是 LLaVA-NeXT-Video (最右侧) ,它的整体表现较差,这可能是因为与商业巨头相比,其整体能力较弱。
为什么会发生这种情况?
研究人员认为,MLLM 实际上并没有“追踪”指向的手指到目标物体。相反,它们充当了复杂的猜测机器。当模型看到一个形象性手势 (比如模仿望远镜) 并读到关于“看星星”的文本时,它可以很容易地利用常识和语言关联来推断手势的含义。
然而,指示性手势打破了这种对文本的依赖。如果用户说“看那个”,文本中包含的关于该物体的信息为零。信息完全是视觉和空间上的。模型必须沿着手臂的向量追踪到物体。较低的得分表明 MLLM 无法可靠地做到这一点,而是默认基于对话的一般主题进行猜测。
深入探究: 视觉 vs. 上下文
为了证明指示性手势需要视觉锚定 (而形象性手势依赖文本) ,研究人员进行了“消融研究 (ablation study) ”。他们再次测试了模型,但做了一个改动: 选择性地移除信息,看看什么会破坏模型的理解。
- 仅对话 (Dialogue Only) : 模型获得文本但没有视频。
- 仅视觉 (Vision Only) : 模型获得视频但没有文本。
- 完整输入 (Full Input) : 模型获得两者。

表 3 提供了论文中最有力的证据。
- 看指示性 (Indexical) 一列: 当视觉输入被移除时 (“仅对话”) ,准确率显著下降 (0.47 \(\rightarrow\) 0.38) 。这证明视觉线索对于指向性手势至关重要。然而,即使有了视觉,得分仍然很低,这意味着模型并没有有效地利用视觉数据。
- 看形象性 (Iconic) 一列: 当对话被移除时 (“仅视觉”) ,得分暴跌 (0.50 \(\rightarrow\) 0.29) 。这表明对于形象性手势,模型严重依赖听到的内容来解释手部动作。
这表明 MLLM 目前是“文本优先”的学习者。它们擅长形象性手势,因为它们可以利用口头语境 (“那座山有这么高”) 来猜测手势。它们在指向方面很挣扎,因为它们无法仅靠文本“作弊”。
我们能修复它吗?
如果 MLLM 不擅长看指向性手势,我们可以通过提供更多信息来帮助它们吗?研究人员尝试在提示词中增加额外数据:
- 扩展上下文: 提供 10 秒的对话而不是 5 秒。
- 物理描述: 手动告诉模型手是如何移动的 (例如,“手向前伸出”) 。
- 标注: 明确告诉模型“这是一个指示性手势”。

表 2 显示了这些干预的结果。仅仅增加更多的对话 (扩展上下文) 几乎没有任何作用 (0.47 \(\rightarrow\) 0.48) 。这加强了答案不在文本中的观点。
然而,明确描述手部动作( 物理层面的手势描述 )导致性能大幅跃升 (0.47 \(\rightarrow\) 0.60 )。这表明,如果被确切告知手在做什么,模型可以推理出手势的含义。失败在于它们的视觉感知——即它们从视频像素本身提取该物理动作的能力。
结论与启示
这项研究强调了当前一代多模态 AI 的一个关键局限性。虽然我们通常认为像 GPT-4o 这样的模型能“看”图像,但它们处理视觉数据的方式与人类不同。它们严重依赖语言先验和语义关联。
研究得出的结论是,MLLM 尚未完全内化外部参照在交流中的作用。它们难以画出从指向的手指到现实世界物体之间的那条看不见的线。
这为什么重要?
这不仅仅是一个学术上的好奇。随着我们迈向具身智能 (Embodied AI) ——在家庭或工厂工作的机器人,以及看到我们要看东西的增强现实 (AR) 助手——这种局限性成为了一个阻碍。
如果你告诉机器人,“把那个箱子放到那边”,同时用手指着,机器人必须依赖指示性手势。如果 AI 无法在 3D 空间中将你的指向动作锚定到具体物体,它就无法执行任务。这篇论文表明,简单地将模型做“大”或喂给它们更多文本可能无法解决问题。未来的发展需要专注于更好的视觉空间锚定能力,帮助模型真正“看”世界,而不仅仅是阅读关于世界的内容。
](https://deep-paper.org/en/paper/file-2331/images/cover.png)