想象一下,你正在帮朋友找丢失的钥匙。你站在门口,而朋友在厨房岛台后面。你看到钥匙就在台面上,但从朋友的角度看,钥匙被一个水果盘挡住了。如果你仅仅说: “就在台面上”,他们可能根本看不到。但如果你说: “在你左边,苹果后面”,他们马上就能找到。

这种日常互动需要一种复杂的认知能力,称为换位思考 (Perspective-taking) 或心智理论 (Theory of Mind) 。你不只是在描述看到的东西;你在模拟你的朋友看到了什么,并相应地调整你的语言。

虽然人类能直觉地做到这一点,但人工智能在这方面却非常吃力。大多数视觉-语言模型 (VLMs) 都是基于单张静态图像进行处理的。它们描述的是“图像里有什么”,而不是“物体相对于作为观察者的你位置在哪里”。

在这篇文章中,我们将深入探讨加州大学伯克利分校的研究论文 “Grounding Language in Multi-Perspective Referential Communication” (在多视角指称交流中实现语言落地) 。 这项工作为具身 AI 引入了一个引人注目的新基准,并提出了一种方法来教开源模型如何“设身处地”地为另一个智能体着想,最终在这个特定任务上甚至超越了像 GPT-4o 这样的专有巨头模型。

问题所在: “以自我为中心”的 AI

当前的具身智能体——无论是机器人还是虚拟助手——必须对它们所占据的空间进行推理。然而,这里存在一个脱节。当机器人与人类交谈时,他们通常拥有不同的视野。

该论文将此形式化为指称通信游戏 (Referential Communication Game)

  1. 说话者 (Speaker) : 看到一个目标物体 (例如,一个特定的蓝球) 并必须描述它。
  2. 听话者 (Listener) : 从不同的角度看场景,甚至可能缺少颜色信息 (例如,所有的球看起来都是红色的) ,必须仅根据说话者的描述来识别目标。

如果说话者忽略了听话者的视角,沟通就会失败。

Figure 1: Example scene from our environment and dataset. The center image shows the speaker on the left and the listener on the right with their respective fields of view (FOV). The speaker refers to the target object, distinguished by its blue color, and the listener selects the candidate referent they believe is described by the speaker’s description, without access to its distinct color.

图 1 所示,说话者 (顶部视图) 可以清晰地看到目标。听话者 (底部视图) 看到的布局则不同。说话者必须意识到,对听话者说“左边的球”可能是模棱两可甚至是错误的。

环境: 构建心智理论的测试平台

为了研究这一点,研究人员创建了一个平台,利用 ScanNet++habitat-sim 生成逼真的 3D 场景。这些不仅仅是平面图像;它们是物理模拟环境,物体 (球体) 通过物理引擎被放置在场景中,以确保它们自然地落在表面上。

定义沟通成功率

这里的核心指标是二元的: 沟通成功 (Communicative Success) 。 听话者是否选择了正确的物体?

在数学上,研究人员将这种互动定义为一个概率博弈。说话者模型 (\(p_s\)) 根据其观察 (\(o_s\)) 和目标 (\(t\)) 生成一个表达 \(x\)。然后,听话者模型 (\(p_l\)) 根据其自己的观察 (\(o_l\)) 和表达 \(x\) 选择一个目标 \(\hat{t}\)。

Equation describing the communicative success metric.

只有当听话者的选择 \(\hat{t}\) 等于实际目标 \(t\) 时,才算成功。

控制难度: 对抗性设置

这篇论文最具创新性的方面之一是他们生成场景的方式。随机把物体扔进房间很容易。但在现实世界中,“困难”的情况——即物体聚集在一起或被部分遮挡——才是换位思考最重要的时候。

作者引入了两种难度控制:

  1. 相对朝向: 改变说话者和听话者之间的角度,从 \(0^\circ\) (并排站立) 到 \(180^\circ\) (面对面) 。
  2. 对抗性放置: 他们训练了一个单独的“对抗”模型,将物体放置在最糟糕的位置,以最大化沟通失败率。

Figure 2: Example scenes generated with different relative orientations and with randomly- or adversarially-placed referents.

图 2 中,你可以看到区别。第一行显示随机放置——球是分散的。底行显示对抗性放置——球聚集在地标附近,迫使说话者必须极其精确。

对抗性放置策略 (\(R\)) 被训练用于寻找能混淆基准说话者/听话者对 (如 GPT-4o) 的物体配置,数学表示为最大化失败率:

Equation describing the adversarial placement policy objective.

基准测试: 人类 vs. 机器

环境搭建好后,研究人员收集了一个包含 2,970 条人类编写的指称表达的数据集,并将它们与最先进的模型进行了对比。

他们测试了:

  • 通用模型: GPT-4o 和 LLaVA-1.5。
  • 细粒度模型: Ferret 和 Groma (专为指称特定图像区域而设计) 。
  • 模块化系统: ViperGPT (编写代码来解决视觉任务) 。

结果非常鲜明。

Table 1: Rates of communicative success for all four combinations of human and automated speakers and listeners.

表 1 揭示了一个巨大的差距:

  • 人对人成功率: ~87.6%。
  • GPT-4o (说话者) 对人 (听话者) : 64.9%。
  • LLaVA-1.5 (说话者) 对人 (听话者) : 55.7%。

当模型之间相互对话时 (表中的黑色文本) ,性能下降得更多。“对抗性”场景 (Adv.) 比随机场景 (Ran.) 更难住模型,证明了难度控制的有效性。

为什么模型会失败?

研究人员分析了人类与模型使用的语言。他们将策略分为:

  1. 以物体为中心: “在灯旁边。”
  2. 以听话者为中心: “在你的左边。”
  3. 以说话者为中心: “在我的前面。”

Charts showing referential strategies and success rates.

如上方的顶部图表所示,人类 (最右边的条形) 使用听话者视角 (Listener’s View) 策略的频率显著高于 GPT-4o 或 LLaVA。LLaVA 几乎从不参考听话者的视角。

此外,随着说话者和听话者的视野 (FOV) 重叠减少 (意味着他们看到的东西不同) ,人类会进行调整。

Charts showing referential strategies with respect to FOV overlap.

在底部的图表中,注意人类 (Human) 的条形。随着重叠减少 (向左移动) ,人类会从“其他候选者 (Other Candidates) ” (将球与其他球进行比较) 转向“听话者视角”或“说话者视角”。模型则无法根据场景共享的程度动态调整其策略。

错误分析

当模型搞砸时,它们究竟错在哪里?

Figure 5: LLaVA speaker example that leads to incorrect listener selection.

图 5 中,LLaVA 说话者说“球在桌子上的灯旁边”。虽然从说话者的视角 (左) 看这在事实上是正确的,但从听话者的视角 (右) 看,“灯”可能被遮挡了,或者空间关系令人困惑。这导致了脱离语境的指称 (Out-of-Context Reference) 错误。

Figure 4: Impact of task difficulty on communication errors between speaker and listener.

错误分类图 (上图) 证实了这一点。LLaVA (左侧条形) 有很大一部分错误 (粉色/红色) 与脱离语境的指称有关。它描述了听话者根本无法看到或理解的东西。

解决方案: 从沟通成功中学习

所以,我们现在的模型不擅长换位思考。我们该如何修复它们?

标准的训练涉及监督微调 (SFT) ——给模型展示一张图片和一个“正确”的标题。但在这里,没有唯一的正确标题;“正确性”取决于听话者是否理解它。

研究人员提出了强化学习 (RL) , 具体是基于这样一个概念: 经验上的成功是最好的老师

方法: 成对偏好学习 (PPL)

他们采用了较弱的开源模型 LLaVA-1.5 并对其进行了微调。他们不仅仅是给它看人类的例子 (模仿学习) 。相反,他们让模型生成描述,让一个听话者 (人类或另一个模型) 猜测目标,并利用结果来更新模型。

他们利用了一种称为成对偏好学习 (Pairwise Preference Learning, PPL) 的技术。 如果模型生成了针对目标 \(t\) 的描述 \(x\),但听话者猜了 \(\hat{t}\) (其中 \(\hat{t} \neq t\)) ,这就是一次失败。 然而,这次失败包含了一个信号: 描述 \(x\) 可能比拟定目标 \(t\) 更适合错误的物体 \(\hat{t}\)。

奖励函数最大化给定听话者选择的物体时的描述概率,并最小化拟定目标的概率 (在失败案例中) 。这迫使模型停止编写那些听起来像是错误物体的描述。

Equation describing the Pairwise Preference Learning reward function.

这有效吗?

结果令人印象深刻。他们仅用了 200 个示例对 LLaVA-1.5 进行了微调——这是一个极小的数据量。

Table 2: Performance of the LLaVA-1.5 speaker before and after training.

查看 表 2 :

  • 预训练的 LLaVA: 58.9% 成功率。
  • GPT-4o: 67.1% 成功率。
  • LLaVA + PPL (人类反馈) : 69.3% 成功率。

通过使用这种基于偏好的学习信号,开放权重的 LLaVA-1.5 模型超越了专有的 GPT-4o 模型。它学会了更加简洁 (平均长度从 61 个 token 降至 15.6,与人类的简洁度相当) 且更有效。

模型学会了不再絮絮叨叨地描述无关的细节,而是专注于从听话者的视角区分目标的独特特征。

结论与启示

论文 “Grounding Language in Multi-Perspective Referential Communication” 凸显了现代 AI 的一个关键缺陷: 能够理解我看到的不是你看到的

通过包含对抗性场景生成和人类基准测试的严谨设置,作者证明了当前的 SOTA 模型缺乏这种“心智理论”。然而,他们提出的解决方案提供了一条充满希望的前进道路。通过从纯粹的静态监督学习转向基于互动的学习——即模型因被理解而获得奖励,而不仅仅是因为正确——我们可以大幅提高沟通能力。

对于 AI 领域的学生和研究人员来说,要点很明确:

  1. 具身很重要: 语言不是存在于真空中的;它扎根于物理空间和视角之中。
  2. 反馈循环很强大: 听话者的困惑比真实标签 (ground-truth label) 是更强的训练信号。
  3. 开源模型能赢: 通过巧妙的训练目标 (如 PPL) ,较小的开源模型可以越级挑战,在特定的推理任务上击败像 GPT-4o 这样的巨头。

这项工作让我们离那些当我们说“不,不是那个——是苹果后面的那个!”时能真正找到钥匙的机器人更近了一步。