想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠?

如果你回答“篮子”,恭喜你——你拥有正常的心智理论 (Theory of Mind, ToM) 。 你理解 Sally 持有错误信念,因为她没有看到交换的过程。你可以将她的心理状态与你对现实的认知区分开来。

虽然这对我们来说似乎很简单,但最先进的大语言模型 (LLM) 往往无法通过这个测试。尽管经过了数万亿词汇的训练,像 GPT-4 这样的模型有时仍会坚持认为 Sally 会去盒子里找 (即弹珠实际所在的地方) ,未能将现实与角色的视角区分开来。

为什么会发生这种情况?是模型对发生的事件视而不见,还是它未能处理它所“看见”的信息?

在论文 “Perceptions to Beliefs” 中,来自 KAIST、亚马逊、华盛顿大学和艾伦人工智能研究所的研究人员深入探讨了这个问题。他们不仅询问模型是否失败,更调查了原因。通过将心智理论分解为其心理学构建模块——感知和信念——他们揭示了 AI 在处理社会推理时的一个关键断层,并提出了一个新的框架 PercepToM 来弥合这一差距。

“看见即知道”的心理学

要理解 LLM 为何失败,我们首先需要看看人类是如何成功的。发展心理学告诉我们,心智理论并非凭空出现。它依赖于先决推理 (precursory inferences)

在一个孩子能够理解错误信念之前,他们必须掌握两个步骤:

  1. 感知推理 (Perception Inference) : 理解另一个人感知到了什么 (例如,“Sally 看到 Anne 移动弹珠了吗?”) 。
  2. 感知到信念的推理 (Perception-to-Belief Inference) : 利用这种感知来推导知识 (例如,“既然 Sally 没看到移动过程,她仍然认为弹珠在篮子里”) 。

AI 的标准基准测试 (如 ToMi 或 FANToM) 直接跳到了最终问题 (“她会去哪里找?”) 。它们将推理过程视为一个黑盒。

图表展示了“现有基准”与“心智理论的先决推理”的对比。它包含三个主要部分: 上下文 (Context) 、心智理论 (Theory of Mind) 和响应 (Response) 。箭头将这些元素连接到两个中心的推理过程圆圈: 感知推理 (‘每个场景中的感知者是谁?’) 和感知到信念的推理 (‘考虑到感知者,Lucas 会去哪里找靴子?’) 。

图 1 所示,研究人员提出了一种新方法。不仅仅是询问最终答案,他们插入了中间步骤来检查模型是否理解谁看到了什么。这使我们能够准确地找出推理链断裂的位置。

构建基准: Percept-ToMi 和 Percept-FANToM

为了测试这些先决条件,作者创建了两个新数据集: Percept-ToMiPercept-FANToM 。 这些数据集建立在现有的著名 ToM 基准之上,但增加了关于角色感知的详细标注。

  • Percept-ToMi: 基于涉及物体在容器间移动的短篇故事。研究人员标注了每一句话,以指出哪些角色在场并目睹了事件。
  • Percept-FANToM: 基于多方对话。在这里,感知是听觉的。如果一个角色离开了聊天,他们就停止“感知”新的消息。

Percept-ToMi 和 Percept-FANToM 中的数据示例。对于每个上下文,每个场景描述或话语的感知者都被自动 (Percept-ToMi) 或手动 (Percept-FANToM) 标注出来。

图 2 展示了这些数据的样子。注意“感知者 (Perceivers) ”一栏。在第一个例子中,只有 Ella 看到自己进入地窖。后来,Ella 和 Lucas 都看到 Lucas 进入。这种细粒度的追踪允许研究人员在问“靴子在哪里?”之前,先问模型: “谁看到了靴子被移动?”

诊断: LLM 出了什么问题?

研究人员在这些新基准上测试了八个最先进的模型,包括 GPT-4、Claude 3 和 Llama-3。他们在三个具体任务上评估了这些模型:

  1. 感知推理: 模型能列出谁看到了每个事件吗?
  2. 感知到信念: 如果我们模型提供谁看到了什么的列表,它能正确回答 ToM 问题吗?
  3. 标准 ToM: 经典测试 (不提供帮助) 。

结果如下所示,令人惊讶。

这个散点图矩阵展示了四个 AI 模型 (GPT-3.5 Turbo, GPT-4o, Claude 3 Sonnet, Llama-3 70B Instruct, Gemini 1.0 Pro, Mixtral 8x22B Instruct) 在两种信念条件 (‘真实信念’和‘错误信念’) 和三个推理阶段 (‘感知’、‘感知到信念’、‘ToM’) 下的性能指标。

图 3 揭示了一个有趣的差异 (请看“False Belief (错误信念) ”列) :

  1. 高感知得分: 模型实际上在感知推理方面表现出色。它们确切地知道谁在房间里,谁看到了物体移动。它们并不是“瞎子”。
  2. 低 ToM 得分: 尽管知道谁看到了什么,它们在最终的 ToM 问题上却失败了。
  3. “桥梁”断了: 即使明确提供了感知数据( 感知到信念任务) ,它们仍然表现挣扎。

这表明问题不在于获取信息,而在于对信息进行推理 。 模型未能应用“看见即知道”这一规则。即使 LLM 知道“Bob 没看到移动过程”,它也很难得出“因此,Bob 认为物体还在原来的位置”的结论。

抑制控制的问题

为什么模型无法完成这个跳跃?研究人员发现缺乏抑制控制 (inhibitory control)

在认知科学中,抑制控制是抑制无关信息的能力。在错误信念测试中,你 (和模型) 知道物体真正在哪里。为了正确回答角色的想法,你必须抑制自己对现实的认知。

实验表明 LLM 是“有漏洞的”。即使被告知角色感知到了什么,模型自己对世界“真实”状态的知识也会渗透到它对角色信念的预测中。

图 4: LLM 的 ToM 性能与感知推理 (左) 和感知到信念推理 (右) 性能的皮尔逊相关性。ToM 性能与感知到信念推理性能呈正相关,但与感知推理性能的相关性很弱或没有相关性。

图 4 进一步支持了这一点。模型追踪感知的程度与其最终 ToM 得分之间几乎没有相关性 (左图) 。这证实了仅仅“看见”事件不足以保证“相信”正确的事情。

解决方案: PercepToM

基于这些发现,作者开发了 PercepToM , 这是一个旨在机械地强制模型使用抑制控制的框架。

既然 LLM 善于追踪感知,但不善于过滤掉它们自己的“上帝视角”知识,PercepToM 自动化了过滤过程。

PercepToM 流程

该方法包括三个步骤:

  1. 感知推理 (LLM 的强项) : 要求模型列出每个事件并标记哪些角色感知到了它。
  2. 视角上下文提取 (机械式修正) : 一个简单的算法对故事进行过滤。如果目标角色 (例如 Lucas) 没有感知到一个事件,那么该句子将从上下文中删除。
  3. 响应生成: LLM 获得这个新的、“过滤后”的故事版本——包含 Lucas 知道的内容——并被问及问题。

此图说明了一个检索增强语言模型 (LLM) 用于根据叙事背景回答问题的三步过程。

图 5 所示,这通过将复杂的“错误信念”任务转化为简单的“真实信念”任务来解决问题。通过物理移除 Lucas 不知道的信息,模型就不再会被现实所困扰。它有效地模拟了正确进行心智理论推理所需的“眼罩”。

实验结果: 巨大的提升

这种简单的过滤有效吗?结果令人信服。

研究人员将 PercepToM 与标准提示 (Vanilla) 、思维链 (CoT) 和 System 2 Attention (S2A) 进行了比较。

表 1: PercepToM 在 ToMi 和 FANToM 的大多数场景中优于基线模型。粗体表示每个语言模型和场景 (真实信念或错误信念) 中的最佳性能。

表 1 展示了性能的提升。请看 False Belief (错误信念) 列 (最难的任务) :

  • GPT-4 Turbo 在 ToMi 上使用 PercepToM 后,得分从 0.780 (Vanilla) 跃升至完美的 1.000
  • GPT-4o 在 FANToM 基准测试中实现了巨大的飞跃,从 0.017 上升到 0.566
  • Llama-3 在 FANToM 错误信念场景中从 0.006 提升到 0.147

该方法显著优于思维链推理。这表明仅仅要求模型“一步步思考”是不够的,因为模型仍然会基于自己的知识产生幻觉。物理移除未知信息 (PercepToM) 要有效得多。

验证“抑制控制”假设

为了再次确认“无关信息”确实是罪魁祸首,作者进行了一项消融实验。他们比较了两种设置:

  1. 感知到信念 (Perception-to-Belief) : 模型拥有完整的故事 + 谁看到了什么的列表。
  2. PercepToM + Oracle: 模型拥有完整的故事 + 谁看到了什么的列表,但角色没看到的文本被删除了。

表 2: LLM 在 PercepToM + Oracle 中的表现显著优于感知到信念推理。

表 2 突出了差异。即使模型非常清楚地知道谁看到了什么 (Oracle) ,如果屏幕上仍然存在无关的文本 (“感知到信念”) ,它的表现也会更差。当这些文本被移除后 (“PercepToM + Oracle”) ,得分飙升。

这提供了强有力的证据,证明 LLM 难以忽略它们已知的信息。它们需要外部架构的帮助——比如 PercepToM 框架——来有效地模拟角色的有限视角。

结论: 弥合差距

“Perceptions to Beliefs”中提出的研究为 AI 发展提供了一个至关重要的路线修正。它让我们不再仅仅追求更高的基准分数,而是转向理解这些模型的认知架构。

关键要点包括:

  • LLM 观察敏锐但存在偏见: 它们可以追踪谁在房间里 (感知) ,但在心理模拟那个人的有限知识 (信念) 方面表现挣扎。
  • 抑制控制是瓶颈: 无法忽略“现实”导致模型无法通过错误信念测试。
  • 结构化推理有帮助: PercepToM 框架证明,我们提升社会推理能力并非通过训练更大的模型,而是通过构建模仿人类发展心理学的推理过程。

通过将心智理论建立在感知基础之上,我们使 AI 离真正理解人类体验更近了一步——不仅仅是观察我们的行为,而是理解这些行为背后的信念。