想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠?
如果你回答“篮子”,恭喜你——你拥有正常的心智理论 (Theory of Mind, ToM) 。 你理解 Sally 持有错误信念,因为她没有看到交换的过程。你可以将她的心理状态与你对现实的认知区分开来。
虽然这对我们来说似乎很简单,但最先进的大语言模型 (LLM) 往往无法通过这个测试。尽管经过了数万亿词汇的训练,像 GPT-4 这样的模型有时仍会坚持认为 Sally 会去盒子里找 (即弹珠实际所在的地方) ,未能将现实与角色的视角区分开来。
为什么会发生这种情况?是模型对发生的事件视而不见,还是它未能处理它所“看见”的信息?
在论文 “Perceptions to Beliefs” 中,来自 KAIST、亚马逊、华盛顿大学和艾伦人工智能研究所的研究人员深入探讨了这个问题。他们不仅询问模型是否失败,更调查了原因。通过将心智理论分解为其心理学构建模块——感知和信念——他们揭示了 AI 在处理社会推理时的一个关键断层,并提出了一个新的框架 PercepToM 来弥合这一差距。
“看见即知道”的心理学
要理解 LLM 为何失败,我们首先需要看看人类是如何成功的。发展心理学告诉我们,心智理论并非凭空出现。它依赖于先决推理 (precursory inferences) 。
在一个孩子能够理解错误信念之前,他们必须掌握两个步骤:
- 感知推理 (Perception Inference) : 理解另一个人感知到了什么 (例如,“Sally 看到 Anne 移动弹珠了吗?”) 。
- 感知到信念的推理 (Perception-to-Belief Inference) : 利用这种感知来推导知识 (例如,“既然 Sally 没看到移动过程,她仍然认为弹珠在篮子里”) 。
AI 的标准基准测试 (如 ToMi 或 FANToM) 直接跳到了最终问题 (“她会去哪里找?”) 。它们将推理过程视为一个黑盒。

如图 1 所示,研究人员提出了一种新方法。不仅仅是询问最终答案,他们插入了中间步骤来检查模型是否理解谁看到了什么。这使我们能够准确地找出推理链断裂的位置。
构建基准: Percept-ToMi 和 Percept-FANToM
为了测试这些先决条件,作者创建了两个新数据集: Percept-ToMi 和 Percept-FANToM 。 这些数据集建立在现有的著名 ToM 基准之上,但增加了关于角色感知的详细标注。
- Percept-ToMi: 基于涉及物体在容器间移动的短篇故事。研究人员标注了每一句话,以指出哪些角色在场并目睹了事件。
- Percept-FANToM: 基于多方对话。在这里,感知是听觉的。如果一个角色离开了聊天,他们就停止“感知”新的消息。

图 2 展示了这些数据的样子。注意“感知者 (Perceivers) ”一栏。在第一个例子中,只有 Ella 看到自己进入地窖。后来,Ella 和 Lucas 都看到 Lucas 进入。这种细粒度的追踪允许研究人员在问“靴子在哪里?”之前,先问模型: “谁看到了靴子被移动?”
诊断: LLM 出了什么问题?
研究人员在这些新基准上测试了八个最先进的模型,包括 GPT-4、Claude 3 和 Llama-3。他们在三个具体任务上评估了这些模型:
- 感知推理: 模型能列出谁看到了每个事件吗?
- 感知到信念: 如果我们给模型提供谁看到了什么的列表,它能正确回答 ToM 问题吗?
- 标准 ToM: 经典测试 (不提供帮助) 。
结果如下所示,令人惊讶。

图 3 揭示了一个有趣的差异 (请看“False Belief (错误信念) ”列) :
- 高感知得分: 模型实际上在感知推理方面表现出色。它们确切地知道谁在房间里,谁看到了物体移动。它们并不是“瞎子”。
- 低 ToM 得分: 尽管知道谁看到了什么,它们在最终的 ToM 问题上却失败了。
- “桥梁”断了: 即使明确提供了感知数据( 感知到信念任务) ,它们仍然表现挣扎。
这表明问题不在于获取信息,而在于对信息进行推理 。 模型未能应用“看见即知道”这一规则。即使 LLM 知道“Bob 没看到移动过程”,它也很难得出“因此,Bob 认为物体还在原来的位置”的结论。
抑制控制的问题
为什么模型无法完成这个跳跃?研究人员发现缺乏抑制控制 (inhibitory control) 。
在认知科学中,抑制控制是抑制无关信息的能力。在错误信念测试中,你 (和模型) 知道物体真正在哪里。为了正确回答角色的想法,你必须抑制自己对现实的认知。
实验表明 LLM 是“有漏洞的”。即使被告知角色感知到了什么,模型自己对世界“真实”状态的知识也会渗透到它对角色信念的预测中。

图 4 进一步支持了这一点。模型追踪感知的程度与其最终 ToM 得分之间几乎没有相关性 (左图) 。这证实了仅仅“看见”事件不足以保证“相信”正确的事情。
解决方案: PercepToM
基于这些发现,作者开发了 PercepToM , 这是一个旨在机械地强制模型使用抑制控制的框架。
既然 LLM 善于追踪感知,但不善于过滤掉它们自己的“上帝视角”知识,PercepToM 自动化了过滤过程。
PercepToM 流程
该方法包括三个步骤:
- 感知推理 (LLM 的强项) : 要求模型列出每个事件并标记哪些角色感知到了它。
- 视角上下文提取 (机械式修正) : 一个简单的算法对故事进行过滤。如果目标角色 (例如 Lucas) 没有感知到一个事件,那么该句子将从上下文中删除。
- 响应生成: LLM 获得这个新的、“过滤后”的故事版本——仅包含 Lucas 知道的内容——并被问及问题。

如图 5 所示,这通过将复杂的“错误信念”任务转化为简单的“真实信念”任务来解决问题。通过物理移除 Lucas 不知道的信息,模型就不再会被现实所困扰。它有效地模拟了正确进行心智理论推理所需的“眼罩”。
实验结果: 巨大的提升
这种简单的过滤有效吗?结果令人信服。
研究人员将 PercepToM 与标准提示 (Vanilla) 、思维链 (CoT) 和 System 2 Attention (S2A) 进行了比较。

表 1 展示了性能的提升。请看 False Belief (错误信念) 列 (最难的任务) :
- GPT-4 Turbo 在 ToMi 上使用 PercepToM 后,得分从 0.780 (Vanilla) 跃升至完美的 1.000 。
- GPT-4o 在 FANToM 基准测试中实现了巨大的飞跃,从 0.017 上升到 0.566 。
- Llama-3 在 FANToM 错误信念场景中从 0.006 提升到 0.147 。
该方法显著优于思维链推理。这表明仅仅要求模型“一步步思考”是不够的,因为模型仍然会基于自己的知识产生幻觉。物理移除未知信息 (PercepToM) 要有效得多。
验证“抑制控制”假设
为了再次确认“无关信息”确实是罪魁祸首,作者进行了一项消融实验。他们比较了两种设置:
- 感知到信念 (Perception-to-Belief) : 模型拥有完整的故事 + 谁看到了什么的列表。
- PercepToM + Oracle: 模型拥有完整的故事 + 谁看到了什么的列表,但角色没看到的文本被删除了。

表 2 突出了差异。即使模型非常清楚地知道谁看到了什么 (Oracle) ,如果屏幕上仍然存在无关的文本 (“感知到信念”) ,它的表现也会更差。当这些文本被移除后 (“PercepToM + Oracle”) ,得分飙升。
这提供了强有力的证据,证明 LLM 难以忽略它们已知的信息。它们需要外部架构的帮助——比如 PercepToM 框架——来有效地模拟角色的有限视角。
结论: 弥合差距
“Perceptions to Beliefs”中提出的研究为 AI 发展提供了一个至关重要的路线修正。它让我们不再仅仅追求更高的基准分数,而是转向理解这些模型的认知架构。
关键要点包括:
- LLM 观察敏锐但存在偏见: 它们可以追踪谁在房间里 (感知) ,但在心理模拟那个人的有限知识 (信念) 方面表现挣扎。
- 抑制控制是瓶颈: 无法忽略“现实”导致模型无法通过错误信念测试。
- 结构化推理有帮助: PercepToM 框架证明,我们提升社会推理能力并非通过训练更大的模型,而是通过构建模仿人类发展心理学的推理过程。
通过将心智理论建立在感知基础之上,我们使 AI 离真正理解人类体验更近了一步——不仅仅是观察我们的行为,而是理解这些行为背后的信念。
](https://deep-paper.org/en/paper/2407.06004/images/cover.png)