想象一下,你正在帮朋友找丢失的钥匙。你站在门口,而朋友在厨房岛台后面。你看到钥匙就在台面上,但从朋友的角度看,钥匙被一个水果盘挡住了。如果你仅仅说: “就在台面上”,他们可能根本看不到。但如果你说: “在你左边,苹果后面”,他们马上就能找到。
这种日常互动需要一种复杂的认知能力,称为换位思考 (Perspective-taking) 或心智理论 (Theory of Mind) 。你不只是在描述你看到的东西;你在模拟你的朋友看到了什么,并相应地调整你的语言。
虽然人类能直觉地做到这一点,但人工智能在这方面却非常吃力。大多数视觉-语言模型 (VLMs) 都是基于单张静态图像进行处理的。它们描述的是“图像里有什么”,而不是“物体相对于作为观察者的你位置在哪里”。
在这篇文章中,我们将深入探讨加州大学伯克利分校的研究论文 “Grounding Language in Multi-Perspective Referential Communication” (在多视角指称交流中实现语言落地) 。 这项工作为具身 AI 引入了一个引人注目的新基准,并提出了一种方法来教开源模型如何“设身处地”地为另一个智能体着想,最终在这个特定任务上甚至超越了像 GPT-4o 这样的专有巨头模型。
问题所在: “以自我为中心”的 AI
当前的具身智能体——无论是机器人还是虚拟助手——必须对它们所占据的空间进行推理。然而,这里存在一个脱节。当机器人与人类交谈时,他们通常拥有不同的视野。
该论文将此形式化为指称通信游戏 (Referential Communication Game) 。
- 说话者 (Speaker) : 看到一个目标物体 (例如,一个特定的蓝球) 并必须描述它。
- 听话者 (Listener) : 从不同的角度看场景,甚至可能缺少颜色信息 (例如,所有的球看起来都是红色的) ,必须仅根据说话者的描述来识别目标。
如果说话者忽略了听话者的视角,沟通就会失败。

如 图 1 所示,说话者 (顶部视图) 可以清晰地看到目标。听话者 (底部视图) 看到的布局则不同。说话者必须意识到,对听话者说“左边的球”可能是模棱两可甚至是错误的。
环境: 构建心智理论的测试平台
为了研究这一点,研究人员创建了一个平台,利用 ScanNet++ 和 habitat-sim 生成逼真的 3D 场景。这些不仅仅是平面图像;它们是物理模拟环境,物体 (球体) 通过物理引擎被放置在场景中,以确保它们自然地落在表面上。
定义沟通成功率
这里的核心指标是二元的: 沟通成功 (Communicative Success) 。 听话者是否选择了正确的物体?
在数学上,研究人员将这种互动定义为一个概率博弈。说话者模型 (\(p_s\)) 根据其观察 (\(o_s\)) 和目标 (\(t\)) 生成一个表达 \(x\)。然后,听话者模型 (\(p_l\)) 根据其自己的观察 (\(o_l\)) 和表达 \(x\) 选择一个目标 \(\hat{t}\)。

只有当听话者的选择 \(\hat{t}\) 等于实际目标 \(t\) 时,才算成功。
控制难度: 对抗性设置
这篇论文最具创新性的方面之一是他们生成场景的方式。随机把物体扔进房间很容易。但在现实世界中,“困难”的情况——即物体聚集在一起或被部分遮挡——才是换位思考最重要的时候。
作者引入了两种难度控制:
- 相对朝向: 改变说话者和听话者之间的角度,从 \(0^\circ\) (并排站立) 到 \(180^\circ\) (面对面) 。
- 对抗性放置: 他们训练了一个单独的“对抗”模型,将物体放置在最糟糕的位置,以最大化沟通失败率。

在 图 2 中,你可以看到区别。第一行显示随机放置——球是分散的。底行显示对抗性放置——球聚集在地标附近,迫使说话者必须极其精确。
对抗性放置策略 (\(R\)) 被训练用于寻找能混淆基准说话者/听话者对 (如 GPT-4o) 的物体配置,数学表示为最大化失败率:

基准测试: 人类 vs. 机器
环境搭建好后,研究人员收集了一个包含 2,970 条人类编写的指称表达的数据集,并将它们与最先进的模型进行了对比。
他们测试了:
- 通用模型: GPT-4o 和 LLaVA-1.5。
- 细粒度模型: Ferret 和 Groma (专为指称特定图像区域而设计) 。
- 模块化系统: ViperGPT (编写代码来解决视觉任务) 。
结果非常鲜明。

表 1 揭示了一个巨大的差距:
- 人对人成功率: ~87.6%。
- GPT-4o (说话者) 对人 (听话者) : 64.9%。
- LLaVA-1.5 (说话者) 对人 (听话者) : 55.7%。
当模型之间相互对话时 (表中的黑色文本) ,性能下降得更多。“对抗性”场景 (Adv.) 比随机场景 (Ran.) 更难住模型,证明了难度控制的有效性。
为什么模型会失败?
研究人员分析了人类与模型使用的语言。他们将策略分为:
- 以物体为中心: “在灯旁边。”
- 以听话者为中心: “在你的左边。”
- 以说话者为中心: “在我的前面。”

如上方的顶部图表所示,人类 (最右边的条形) 使用听话者视角 (Listener’s View) 策略的频率显著高于 GPT-4o 或 LLaVA。LLaVA 几乎从不参考听话者的视角。
此外,随着说话者和听话者的视野 (FOV) 重叠减少 (意味着他们看到的东西不同) ,人类会进行调整。

在底部的图表中,注意人类 (Human) 的条形。随着重叠减少 (向左移动) ,人类会从“其他候选者 (Other Candidates) ” (将球与其他球进行比较) 转向“听话者视角”或“说话者视角”。模型则无法根据场景共享的程度动态调整其策略。
错误分析
当模型搞砸时,它们究竟错在哪里?

在 图 5 中,LLaVA 说话者说“球在桌子上的灯旁边”。虽然从说话者的视角 (左) 看这在事实上是正确的,但从听话者的视角 (右) 看,“灯”可能被遮挡了,或者空间关系令人困惑。这导致了脱离语境的指称 (Out-of-Context Reference) 错误。

错误分类图 (上图) 证实了这一点。LLaVA (左侧条形) 有很大一部分错误 (粉色/红色) 与脱离语境的指称有关。它描述了听话者根本无法看到或理解的东西。
解决方案: 从沟通成功中学习
所以,我们现在的模型不擅长换位思考。我们该如何修复它们?
标准的训练涉及监督微调 (SFT) ——给模型展示一张图片和一个“正确”的标题。但在这里,没有唯一的正确标题;“正确性”取决于听话者是否理解它。
研究人员提出了强化学习 (RL) , 具体是基于这样一个概念: 经验上的成功是最好的老师。
方法: 成对偏好学习 (PPL)
他们采用了较弱的开源模型 LLaVA-1.5 并对其进行了微调。他们不仅仅是给它看人类的例子 (模仿学习) 。相反,他们让模型生成描述,让一个听话者 (人类或另一个模型) 猜测目标,并利用结果来更新模型。
他们利用了一种称为成对偏好学习 (Pairwise Preference Learning, PPL) 的技术。 如果模型生成了针对目标 \(t\) 的描述 \(x\),但听话者猜了 \(\hat{t}\) (其中 \(\hat{t} \neq t\)) ,这就是一次失败。 然而,这次失败包含了一个信号: 描述 \(x\) 可能比拟定目标 \(t\) 更适合错误的物体 \(\hat{t}\)。
奖励函数最大化给定听话者选择的物体时的描述概率,并最小化拟定目标的概率 (在失败案例中) 。这迫使模型停止编写那些听起来像是错误物体的描述。

这有效吗?
结果令人印象深刻。他们仅用了 200 个示例对 LLaVA-1.5 进行了微调——这是一个极小的数据量。

查看 表 2 :
- 预训练的 LLaVA: 58.9% 成功率。
- GPT-4o: 67.1% 成功率。
- LLaVA + PPL (人类反馈) : 69.3% 成功率。
通过使用这种基于偏好的学习信号,开放权重的 LLaVA-1.5 模型超越了专有的 GPT-4o 模型。它学会了更加简洁 (平均长度从 61 个 token 降至 15.6,与人类的简洁度相当) 且更有效。
模型学会了不再絮絮叨叨地描述无关的细节,而是专注于从听话者的视角区分目标的独特特征。
结论与启示
论文 “Grounding Language in Multi-Perspective Referential Communication” 凸显了现代 AI 的一个关键缺陷: 能够理解我看到的不是你看到的。
通过包含对抗性场景生成和人类基准测试的严谨设置,作者证明了当前的 SOTA 模型缺乏这种“心智理论”。然而,他们提出的解决方案提供了一条充满希望的前进道路。通过从纯粹的静态监督学习转向基于互动的学习——即模型因被理解而获得奖励,而不仅仅是因为正确——我们可以大幅提高沟通能力。
对于 AI 领域的学生和研究人员来说,要点很明确:
- 具身很重要: 语言不是存在于真空中的;它扎根于物理空间和视角之中。
- 反馈循环很强大: 听话者的困惑比真实标签 (ground-truth label) 是更强的训练信号。
- 开源模型能赢: 通过巧妙的训练目标 (如 PPL) ,较小的开源模型可以越级挑战,在特定的推理任务上击败像 GPT-4o 这样的巨头。
这项工作让我们离那些当我们说“不,不是那个——是苹果后面的那个!”时能真正找到钥匙的机器人更近了一步。
](https://deep-paper.org/en/paper/2410.03959/images/cover.png)