当“可能”意味着“为真”：大语言模型如何在心智理论上陷入挣扎

我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时，你输出的并不是一个精确的数学计算，而是在表达一种模糊的信念程度。值得注意的是，尽管缺乏精确性，人类通常能在这一点上达成共识。我们本能地知道，“很可能 (likely) ”代表的概率比“可能 (possible) ”高，但比“几乎确定 (almost certain) ”低。

但是，当我们要求大语言模型 (LLM) 来解释这些词汇时，会发生什么呢？

随着像 GPT-4 和 Llama 3 这样的 LLM 被整合到决策流程中——例如总结医疗报告、分析法律简报或聚合新闻——它们正确解读他人不确定性的能力变得至关重要。如果医生写道某种副作用是“可能的 (possible) ”，AI 必须理解“possible”在数值上意味着什么，以便准确地传达风险。

加州大学尔湾分校最近发表的一篇题为 《Perceptions of Linguistic Uncertainty by Language Models and Humans》 (大语言模型与人类对语言不确定性的感知) 的论文，调查了这一确切能力。研究人员发现了一个有趣且令人担忧的悖论: 虽然 LLM 在真空中将不确定性词汇映射到数字方面表现出色，但当它们对主题拥有“先验知识”时，它们解释这些词汇的能力就会崩溃。实际上，LLM 难以区分它们相信什么和说话者相信什么——这是“心智理论 (Theory of Mind) ”的失败。

在这篇文章中，我们将剖析研究人员是如何衡量这一点的，人类与 AI 感知之间的巨大差异，以及这对 AI 沟通的未来意味着什么。

问题所在: 我的信念 vs. 你的信念

要理解核心问题，我们必须首先定义一个认知科学中的概念，称为心智理论 (Theory of Mind) 。这是一种将心理状态 (信念、意图、欲望) 归因于自己和他人，并理解他人的信念可能与自己不同的能力。

如果我告诉你，“约翰相信地球是平的”，你会明白约翰是错的。然而，如果我让你描述约翰的确定性，你应该能够客观地评估他有多自信，而不管你知道地球是圆的这一事实。

然而，LLM 似乎难以做到这种分离。

看看下面的例子。研究人员提示 ChatGPT 根据一段短文写一个标题。在一个版本中，科学家声称人类活动推动气候变化是“ probable (很可能) ”的。在第二个版本中，科学家声称早期疫苗接种导致自闭症是“ probable (很可能) ”的。

与 ChatGPT 的两次交互，展示了根据上下文不同，针对单词“probable”生成的不同标题。

如图 Figure 1 所示，尽管输入文本在结构上完全相同，并且使用了完全相同的不确定性词汇 (“probable”) ，ChatGPT 对它们的处理却截然不同。对于气候变化 (模型接受的事实) ，标题使用了像“ Conclude (总结/断定) ”这样强烈的词汇。对于疫苗与自闭症的联系 (模型根据科学共识拒绝的事实) ，标题则弱得多，使用了“ Possible Link (可能的联系) ”和“ Suggests (暗示) ”。

模型允许其内部知识影响其对说话者不确定性的解释。它将说话者的“probable”与其自己的“improbable (不太可能) ”混淆了。

建立人类基准

在评判模型之前，研究人员必须建立一个“基本事实 (ground truth) ”。人类是如何解释这些模糊词汇的？

该团队对 94 名人类参与者进行了基准研究。他们向参与者展示了不可验证 (Non-Verifiable, NV) 陈述。在这些陈述中，参与者没有先验知识或上下文来判断事件的真实性，迫使他们完全依赖不确定性词汇进行判断。

例如:

“Catherine believes it is somewhat likely that the defendant will be found guilty.” (凯瑟琳认为被告被判有罪的可能性有点大 。 )

参与者不认识被告，也不了解案件。他们必须纯粹根据“somewhat likely (有点可能) ”这个短语来判断概率。

提供给基准实验中人类参与者的不可验证陈述示例。

研究人员测试了 14 种不同的表达方式，从“almost certain (几乎确定) ”到“highly unlikely (极不可能) ”。参与者被要求给说话者的信念分配一个数值概率 (0% 到 100%) 。

结果如 Figure 3 所示，展示了人类语言中某种优美的一致性。

人类数值反应经验分布的热力图。

虽然存在一些分散——人们并没有就一个精确的数字达成一致——但存在一个清晰的、单调递增的趋势。“Unlikely (不太可能) ”聚集在刻度低端，“Uncertain (不确定) ”徘徊在 50% 左右，而“Almost Certain (几乎确定) ”则推向 100%。这张人类感知的“热力图”成为了测试 AI 模型的参考分布。

方法论: 测试机器

研究人员评估了 10 种流行的 LLM，包括像 GPT-4 和 Gemini 这样的专有模型，以及像 Llama 3 和 Mixtral 这样的开源模型。

目标是看这些模型是否能执行与人类相同的任务: 将包含不确定性表达的句子映射到特定的概率数值 (0-100) 。

为了测试“心智理论”假设，实验被分为两个截然不同的设置:

不可验证 (NV) 设置: 就像人类基准测试一样。陈述涉及未知的人和随机事件 (例如，“玛丽认为她的老板有一只猫”) 。模型对这些事件没有先验知识。
可验证 (V) 设置: 陈述基于常识性事实 (琐事和科学) 。

真实陈述: 例如，“《蒙娜丽莎》是列奥纳多·达·芬奇的一幅著名画作。”
虚假陈述: 例如，“《蒙娜丽莎》是丁托列托的一幅著名画作。”

在可验证设置中，提示可能如下所示:

“John believes it is likely that [True/False Statement].” (约翰认为 [真/假陈述] 是可能的 。 )

如果模型具有强大的心智理论，无论陈述本身是真还是假，它都应该为“likely”分配相同的数值。它应该衡量的是约翰的信念，而不是事实的有效性。

结果 1: LLM 在不确定性表达上很流利

第一个主要发现是积极的。当在不可验证陈述上进行测试时——即模型的自身知识未被触发时——现代 LLM 的表现非常像人类。

研究人员使用了一种称为比例一致性 (Proportional Agreement, PA) 的指标来衡量模型的反应与人类群体的偏好值的一致程度。

GPT-4o 和 OLMo 模型分布与人类数据的对比。

如 Figure 4 所示, GPT-4o 生成的分布与人类热力图非常相似。它理解“highly likely (极有可能) ”意味着非常高的概率，而“doubtful (令人怀疑) ”意味着低概率。

然而，并非所有模型都是生而平等的。 OLMo (7B) 模型 (在 Figure 4 的右侧) 表现非常挣扎，无法有效地区分高确定性和低确定性的表达。但总体而言，较大的、最先进的模型 (GPT-4、Llama 3 70B、Gemini) 在这一中立设置中显示出了“类人”的校准能力。

事实上，从统计上看，顶级模型通常比个体人类之间更符合人类群体的总体表现。

结果 2: 知识偏差

当我们引入可验证陈述时，情况发生了巨大的变化。这才是模型的“心智理论”真正受到考验的地方。

研究人员分析了当相同的确性表达应用于模型明知为真 (True) 与明知为假 (False) 的陈述时，模型是如何解释的。

记住，提示问的是说话者的信念。如果说话者说，“我相信 X 是可能的 (possible) ”，无论 X 是真还是假，分配给“possible”的概率理论上应该是相似的。

然而，结果显示了巨大的偏差。

条形图显示了真陈述与假陈述在平均数值反应上的差异。

Figure 5 清晰地说明了这一现象。

“人类 (Humans) ”柱状图 (最左侧) : 蓝色柱 (真陈述) 和橙色柱 (假陈述) 之间的差异非常小。无论事实的真实性如何，人类通常会对说话者的确定性进行一致的评级。
LLM 柱状图: 看看 GPT-4o、ChatGPT 和 Llama 3 。差距是巨大的。

当陈述为真时，模型赋予不确定性词汇的概率明显更高。当陈述为假时，它们赋予的概率则低得多。

例如，如果模型看到:

“鲍勃认为 [真实事实] 是可能的 (possible) 。 ” -> 模型评级为 ~70% 。
“鲍勃认为 [虚假事实] 是可能的 (possible) 。 ” -> 模型评级为 ~20% 。

单词“possible”正在被模型根据其自身对世界的认识重新定义。模型无法将说话者的不确定性与其自身的确信分离开来。

“Possible”问题

这种偏差并非在所有词汇中均匀分布。在允许解释的“中间立场”词汇中，这种偏差最为严重。

按具体不确定性表达细分的知识偏差。

Figure 6 按具体词汇细分了这一点:

(a) “Possible (可能) ”: 这个词显示出对真实性的极大敏感度。对于 ChatGPT 来说，这种差异是惊人的——如果事实为真，它将“possible”解释为高概率；如果事实为假，则解释为极低概率。
(b) “Uncertain (不确定) ”: 有趣的是，这个词对偏差的抵抗力更强。无论陈述的真实性如何，模型倾向于一致地评级“uncertain”。

这表明，LLM 将像“possible (可能) ”、“likely (很可能) ”或“probable (大概率) ”这样的词视为传达它们自己对真理评估的机制，而不是对说话者心理状态的客观描述。

这只是偶然吗？

为了确保这些结果不仅仅局限于他们选择的特定琐事问题，研究人员使用不同的数据集进行了泛化研究: AI2-ARC 数据集，该数据集由小学科学问题组成。

他们观察到了完全相同的模式。

AI2-ARC 数据集上的泛化结果显示了持续存在的知识偏差。

如 Figure 15 所示，“知识差距”在不同领域持续存在。无论是询问历史、地理还是科学，如果模型知道陈述是假的，它就会系统性地降低不确定性表达的强度。

为什么这很重要

这篇论文强调了当前生成式 AI 中一个微妙但危险的局限性。我们经常将 LLM 视为文本的中立处理者，但它们并非如此。它们是“被知识污染的”。

当 LLM 处理文本时，它不仅仅是分析语法和语义；它还会根据其预训练数据评估内容。

对人机交互的影响

摘要偏差: 如果你使用 AI 来总结一篇新闻文章或一篇提出争议性或“少数派”观点 (与模型的训练数据相矛盾) 的科学论文，AI 可能会微妙地改变语气。它可能会将作者的“probables (很可能) ”降级为“possibles (可能) ”，或者将其“likelies (可能) ”降级为“uncertains (不确定) ”，从而有效地歪曲作者的信心，以符合模型的世界观。
心智理论缺失: 随着我们要构建旨在模拟人类行为或充当谈判中间人的代理 (Agent) ，这种心智理论的缺失是一个障碍。预测法官裁决的 AI 律师，或解释患者模糊症状描述的 AI 医疗助手，需要理解人类的不确定性，而不是用自己的医疗或法律数据库取而代之。
沟通崩溃: 正如引言中气候变化与疫苗的例子所示，这种偏差改变了模型生成的输出。这导致了不一致的沟通标准，即相同的语言标记 (如单词“probable”) 会导致截然不同的下游文本生成。

结论

加州大学尔湾分校的研究人员为我们提供了一个引人注目的视角，让我们得以窥探 LLM 心理学的“黑盒”。好消息是，LLM 已经学会了人类不确定性的“字典”；它们知道“likely” > “possible” > “unlikely”。

坏消息是，它们难以客观地使用这本字典。它们的感知被它们自己的先验知识“毒害”了。与人类不同 (人类可以接受一个他们明知为假的假设性信念) ，LLM 似乎被迫将每一个陈述都拖回它们自己的基本事实中。

正如论文总结的那样，这种敏感性表明，语言模型比人类更容易受到基于其先验知识的偏差的影响。对于使用这些模型的学生和开发人员来说，教训很清楚: 当 LLM 告诉你某件事有多“确定”时，它通常是在告诉你关于它自己的信息，而不是它正在阅读的文本。

问题所在: 我的信念 vs. 你的信念#

建立人类基准#

方法论: 测试机器#

结果 1: LLM 在不确定性表达上很流利#

结果 2: 知识偏差#

“Possible”问题#

这只是偶然吗？#

为什么这很重要#

对人机交互的影响#

结论#