从看见到相信：大语言模型为何在心智理论上受挫及解决之道

想象一下，你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里，然后离开房间。在她离开期间，另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时，她会去哪里找她的弹珠？

如果你回答“篮子”，恭喜你——你拥有正常的心智理论 (Theory of Mind, ToM) 。你理解 Sally 持有错误信念，因为她没有看到交换的过程。你可以将她的心理状态与你对现实的认知区分开来。

虽然这对我们来说似乎很简单，但最先进的大语言模型 (LLM) 往往无法通过这个测试。尽管经过了数万亿词汇的训练，像 GPT-4 这样的模型有时仍会坚持认为 Sally 会去盒子里找 (即弹珠实际所在的地方) ，未能将现实与角色的视角区分开来。

为什么会发生这种情况？是模型对发生的事件视而不见，还是它未能处理它所“看见”的信息？

在论文 “Perceptions to Beliefs” 中，来自 KAIST、亚马逊、华盛顿大学和艾伦人工智能研究所的研究人员深入探讨了这个问题。他们不仅询问模型是否失败，更调查了原因。通过将心智理论分解为其心理学构建模块——感知和信念——他们揭示了 AI 在处理社会推理时的一个关键断层，并提出了一个新的框架 PercepToM 来弥合这一差距。

“看见即知道”的心理学

要理解 LLM 为何失败，我们首先需要看看人类是如何成功的。发展心理学告诉我们，心智理论并非凭空出现。它依赖于先决推理 (precursory inferences) 。

在一个孩子能够理解错误信念之前，他们必须掌握两个步骤:

感知推理 (Perception Inference) : 理解另一个人感知到了什么 (例如，“Sally 看到 Anne 移动弹珠了吗？”) 。
感知到信念的推理 (Perception-to-Belief Inference) : 利用这种感知来推导知识 (例如，“既然 Sally 没看到移动过程，她仍然认为弹珠在篮子里”) 。

AI 的标准基准测试 (如 ToMi 或 FANToM) 直接跳到了最终问题 (“她会去哪里找？”) 。它们将推理过程视为一个黑盒。

图表展示了“现有基准”与“心智理论的先决推理”的对比。它包含三个主要部分: 上下文 (Context) 、心智理论 (Theory of Mind) 和响应 (Response) 。箭头将这些元素连接到两个中心的推理过程圆圈: 感知推理 (‘每个场景中的感知者是谁？’) 和感知到信念的推理 (‘考虑到感知者，Lucas 会去哪里找靴子？’) 。

如图 1 所示，研究人员提出了一种新方法。不仅仅是询问最终答案，他们插入了中间步骤来检查模型是否理解谁看到了什么。这使我们能够准确地找出推理链断裂的位置。

构建基准: Percept-ToMi 和 Percept-FANToM

为了测试这些先决条件，作者创建了两个新数据集: Percept-ToMi 和 Percept-FANToM 。这些数据集建立在现有的著名 ToM 基准之上，但增加了关于角色感知的详细标注。

Percept-ToMi: 基于涉及物体在容器间移动的短篇故事。研究人员标注了每一句话，以指出哪些角色在场并目睹了事件。
Percept-FANToM: 基于多方对话。在这里，感知是听觉的。如果一个角色离开了聊天，他们就停止“感知”新的消息。

Percept-ToMi 和 Percept-FANToM 中的数据示例。对于每个上下文，每个场景描述或话语的感知者都被自动 (Percept-ToMi) 或手动 (Percept-FANToM) 标注出来。

图 2 展示了这些数据的样子。注意“感知者 (Perceivers) ”一栏。在第一个例子中，只有 Ella 看到自己进入地窖。后来，Ella 和 Lucas 都看到 Lucas 进入。这种细粒度的追踪允许研究人员在问“靴子在哪里？”之前，先问模型: “谁看到了靴子被移动？”

诊断: LLM 出了什么问题？

研究人员在这些新基准上测试了八个最先进的模型，包括 GPT-4、Claude 3 和 Llama-3。他们在三个具体任务上评估了这些模型:

感知推理: 模型能列出谁看到了每个事件吗？
感知到信念: 如果我们给模型提供谁看到了什么的列表，它能正确回答 ToM 问题吗？
标准 ToM: 经典测试 (不提供帮助) 。

结果如下所示，令人惊讶。

这个散点图矩阵展示了四个 AI 模型 (GPT-3.5 Turbo, GPT-4o, Claude 3 Sonnet, Llama-3 70B Instruct, Gemini 1.0 Pro, Mixtral 8x22B Instruct) 在两种信念条件 (‘真实信念’和‘错误信念’) 和三个推理阶段 (‘感知’、‘感知到信念’、‘ToM’) 下的性能指标。

图 3 揭示了一个有趣的差异 (请看“False Belief (错误信念) ”列) :

高感知得分: 模型实际上在感知推理方面表现出色。它们确切地知道谁在房间里，谁看到了物体移动。它们并不是“瞎子”。
低 ToM 得分: 尽管知道谁看到了什么，它们在最终的 ToM 问题上却失败了。
“桥梁”断了: 即使明确提供了感知数据( 感知到信念任务) ，它们仍然表现挣扎。

这表明问题不在于获取信息，而在于对信息进行推理 。模型未能应用“看见即知道”这一规则。即使 LLM 知道“Bob 没看到移动过程”，它也很难得出“因此，Bob 认为物体还在原来的位置”的结论。

抑制控制的问题

为什么模型无法完成这个跳跃？研究人员发现缺乏抑制控制 (inhibitory control) 。

在认知科学中，抑制控制是抑制无关信息的能力。在错误信念测试中，你 (和模型) 知道物体真正在哪里。为了正确回答角色的想法，你必须抑制自己对现实的认知。

实验表明 LLM 是“有漏洞的”。即使被告知角色感知到了什么，模型自己对世界“真实”状态的知识也会渗透到它对角色信念的预测中。

图 4: LLM 的 ToM 性能与感知推理 (左) 和感知到信念推理 (右) 性能的皮尔逊相关性。ToM 性能与感知到信念推理性能呈正相关，但与感知推理性能的相关性很弱或没有相关性。

图 4 进一步支持了这一点。模型追踪感知的程度与其最终 ToM 得分之间几乎没有相关性 (左图) 。这证实了仅仅“看见”事件不足以保证“相信”正确的事情。

解决方案: PercepToM

基于这些发现，作者开发了 PercepToM , 这是一个旨在机械地强制模型使用抑制控制的框架。

既然 LLM 善于追踪感知，但不善于过滤掉它们自己的“上帝视角”知识，PercepToM 自动化了过滤过程。

PercepToM 流程

该方法包括三个步骤:

感知推理 (LLM 的强项) : 要求模型列出每个事件并标记哪些角色感知到了它。
视角上下文提取 (机械式修正) : 一个简单的算法对故事进行过滤。如果目标角色 (例如 Lucas) 没有感知到一个事件，那么该句子将从上下文中删除。
响应生成: LLM 获得这个新的、“过滤后”的故事版本——仅包含 Lucas 知道的内容——并被问及问题。

此图说明了一个检索增强语言模型 (LLM) 用于根据叙事背景回答问题的三步过程。

如图 5 所示，这通过将复杂的“错误信念”任务转化为简单的“真实信念”任务来解决问题。通过物理移除 Lucas 不知道的信息，模型就不再会被现实所困扰。它有效地模拟了正确进行心智理论推理所需的“眼罩”。

实验结果: 巨大的提升

这种简单的过滤有效吗？结果令人信服。

研究人员将 PercepToM 与标准提示 (Vanilla) 、思维链 (CoT) 和 System 2 Attention (S2A) 进行了比较。

表 1: PercepToM 在 ToMi 和 FANToM 的大多数场景中优于基线模型。粗体表示每个语言模型和场景 (真实信念或错误信念) 中的最佳性能。

表 1 展示了性能的提升。请看 False Belief (错误信念) 列 (最难的任务) :

GPT-4 Turbo 在 ToMi 上使用 PercepToM 后，得分从 0.780 (Vanilla) 跃升至完美的 1.000 。
GPT-4o 在 FANToM 基准测试中实现了巨大的飞跃，从 0.017 上升到 0.566 。
Llama-3 在 FANToM 错误信念场景中从 0.006 提升到 0.147 。

该方法显著优于思维链推理。这表明仅仅要求模型“一步步思考”是不够的，因为模型仍然会基于自己的知识产生幻觉。物理移除未知信息 (PercepToM) 要有效得多。

验证“抑制控制”假设

为了再次确认“无关信息”确实是罪魁祸首，作者进行了一项消融实验。他们比较了两种设置:

感知到信念 (Perception-to-Belief) : 模型拥有完整的故事 + 谁看到了什么的列表。
PercepToM + Oracle: 模型拥有完整的故事 + 谁看到了什么的列表，但角色没看到的文本被删除了。

表 2: LLM 在 PercepToM + Oracle 中的表现显著优于感知到信念推理。

表 2 突出了差异。即使模型非常清楚地知道谁看到了什么 (Oracle) ，如果屏幕上仍然存在无关的文本 (“感知到信念”) ，它的表现也会更差。当这些文本被移除后 (“PercepToM + Oracle”) ，得分飙升。

这提供了强有力的证据，证明 LLM 难以忽略它们已知的信息。它们需要外部架构的帮助——比如 PercepToM 框架——来有效地模拟角色的有限视角。

结论: 弥合差距

“Perceptions to Beliefs”中提出的研究为 AI 发展提供了一个至关重要的路线修正。它让我们不再仅仅追求更高的基准分数，而是转向理解这些模型的认知架构。

关键要点包括:

LLM 观察敏锐但存在偏见: 它们可以追踪谁在房间里 (感知) ，但在心理模拟那个人的有限知识 (信念) 方面表现挣扎。
抑制控制是瓶颈: 无法忽略“现实”导致模型无法通过错误信念测试。
结构化推理有帮助: PercepToM 框架证明，我们提升社会推理能力并非通过训练更大的模型，而是通过构建模仿人类发展心理学的推理过程。

通过将心智理论建立在感知基础之上，我们使 AI 离真正理解人类体验更近了一步——不仅仅是观察我们的行为，而是理解这些行为背后的信念。

“看见即知道”的心理学#

构建基准: Percept-ToMi 和 Percept-FANToM#

诊断: LLM 出了什么问题？#

抑制控制的问题#

解决方案: PercepToM#

PercepToM 流程#

实验结果: 巨大的提升#

验证“抑制控制”假设#

结论: 弥合差距#