目前,自然语言处理 (NLP) 领域有一个核心问题备受关注: 大型语言模型 (LLM) 仅仅是模仿模式的“随机鹦鹉 (stochastic parrots) ”,还是拥有类似于人类的认知机制?

目前对 LLM 的评估大多集中在最终结果上。如果一个模型能正确回答问题或写出一个连贯的故事,我们就假设它“理解”了。然而,认知合理性 (Cognitive Plausibility) 不仅仅关乎输出,更关乎过程 。 要真正测试 LLM 是否具有认知合理性,我们需要观察它在处理语言时是否进行了与人类相同的独特心理活动。

一项引人入胜的新研究 《利用人类生成-理解的不对称性测试 LLM 的认知合理性》 (Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility) 通过研究人类心理学中一个微妙但稳固的怪现象来探讨这个问题: 我们在生成语言 (说/写) 和理解语言 (听/读) 时的差异。

在这篇深度文章中,我们将探讨 LLM 是否复现了人类在这两种沟通模式之间表现出的“不对称性”。研究结果为我们理解模型架构、提示策略的重要性,以及人工智能与生物智能之间仍然存在的鸿沟提供了细致入微的视角。

认知鸿沟: 生成 vs. 理解

要理解这项实验,我们首先需要了解人脑。历史上,语言学家和神经科学家将语言生成 (Language Production) 和理解 (Interpretation) 视为两个独立的过程。虽然现代理论认为它们紧密相连,但人类在这两种模式下仍然表现出不同的偏好 (Bias) 。

考虑 LLM 的基本单元: 给定上下文后下一个 token 的概率,即 \(P(\text{token}|\text{context})\)。对于 LLM 来说,写句子和理解句子在数学上非常相似——它们都涉及预测下一个词。但对人类来说,这些任务会触发不同的偏好。

测试案例: 隐性因果关系

研究人员利用了一种被称为隐性因果关系 (Implicit Causality, IC) 的语言现象来进行测试。IC 指的是某些动词如何影响我们要在这个句子中提到谁的预期。

看看这两个句子:

  1. John infuriated Bill. (约翰激怒了比尔。)
  2. John praised Bill. (约翰表扬了比尔。)

在句子 (1) 中,动词“infuriated” (激怒) 暗示约翰做了一些具体的事情。约翰是起因。我们将这类动词称为主语偏向型 (IC1) 动词 。 如果你让一个人续写这个故事 (“约翰激怒了比尔……”) ,从统计学上讲,他们更有可能谈论约翰。

在句子 (2) 中,动词“praised” (表扬) 暗示比尔做了一些值得表扬的事情。比尔是起因。我们将这类动词称为宾语偏向型 (IC2) 动词 。 人类更有可能通过谈论比尔来续写句子。

不对称性

有趣的地方来了。我们可以通过两种方式测试这种偏好:

  1. 生成任务 (下文提及偏好) : 我们给参与者句子*“约翰激怒了比尔……”*,并让他们写下接下来发生的事情。他们可能会写: “他不停地大喊大叫。”
  2. 理解任务 (代词消解) : 我们给参与者句子*“约翰激怒了比尔。他……”*,并问他们“他”指的是谁。

从逻辑上讲,你可能认为在两个任务中选择“约翰”的概率应该是一样的。如果“约翰”是最可能的话题,那么他理应就是最可能的话题。

然而,心理语言学研究显示了一种稳固的不对称性 。 人类在理解过程中有一个“主语偏好”加成。当我们遇到像“他”这样的代词时,相比于在自由写作任务中简单地生成关于约翰的句子,我们倾向于将代词解析为主语 (约翰) 。

为什么?因为当人类进行理解时,我们会推断说话者为什么使用代词。我们会计算 \(P(\text{Pronoun}|\text{Subject})\)。我们隐约知道说话者喜欢用代词来指代主要主语。而只会计算“接下来是什么”的 LLM 可能无法自然地捕捉到这种区别。

方法论: 让 LLM 接受测试

研究人员试图回答两个主要问题:

  1. LLM 是否表现出基本的隐性因果效应 (区分“激怒”和“表扬”) ?
  2. LLM 是否表现出类似人类的不对称性 (在理解任务中比生成任务有更强的主语偏好) ?

实验设置

团队构建了一个数据集,使用了 137 个主语偏向 (IC1) 动词和 134 个宾语偏向 (IC2) 动词。他们创建了 541 个条目,涉及不同的男性或女性名字,以确保代词具有歧义 (例如,“John”和“Bill”都是“he”,而“John”和“Mary”则会让代词指代很明显) 。

他们测试了四个主要模型:

  • LLaMA-3.1-Instruct-8B (较小的开源模型)
  • QWen2.5-Instruct-32B (中等规模模型)
  • LLaMA-3.3-Instruct-70B (大型开源模型)
  • GPT-4o (专有的最先进模型)

元语言提示 (Meta-Linguistic Prompting)

由于 LLM 没有可以扫描的“大脑”,研究人员使用了元语言提示 。 他们要求模型使用四种不同的提示风格来执行任务。这至关重要,因为正如我们将看到的,你如何向 LLM 提问会改变它的思考方式。

  1. 二元选择 (Binary Choice) : “谁更有可能是主语?约翰还是比尔?”
  2. 续写 (Continuation) : “请合理地续写这个句子……” (模型写一个句子,研究人员分析它写了谁) 。
  3. 是/否 (Yes/No) : “这个代词是指约翰吗?回答是或否。”
  4. 是/否 概率 (Yes/No Probability) : 与上述相同,但测量模型分配给“是 (Yes) ” token 的数学概率。

数据清洗与有效性

为确保“续写”提示的结果有效,作者手动验证了输出。如果模型生成了无意义的内容、有歧义的文本或使用了复数“他们 (They) ”,则将其排除。

表 1: 续写提示中被排除的回答分布。

如表 1 所示,像 GPT-4o 和 LLaMA-70B 这样的大型模型在遵循指令方面表现得更好,与较小的 LLaMA-8B 相比,它们产生的无意义或复数回答非常少。

实验结果

结果呈现了一幅复杂的机器认知图景。模型的表现并不统一;它们模仿人类偏好的能力随模型大小和使用的具体提示而变化。

整体概况

图 1 (如下) 可视化了所有模型和提示策略的性能。柱状图表示选择主语的比例。

  • 红色柱: 生成任务。
  • 青色柱: 理解任务。
  • 人类行为: 显示在每组的最右侧列。请注意,对于人类来说,IC1 动词的青色柱几乎总是高于红色柱——这就是“主语理解偏好 (Subject Interpretation Bias) ”。

图 1: 按提示策略划分的模型行为 (作为选择主语/是作为先行词的比例) 。

发现 1: IC 偏好存在,但很脆弱

认知合理性的第一个障碍仅仅是识别出“激怒”产生的预期与“表扬”不同。

大多数模型成功捕捉到了这一点。通常,相比于 IC2 动词,它们在 IC1 动词后表现出对主语的更高偏好。然而,这并非普遍现象。例如,Qwen 在大多数提示下的生成任务中都难以预测这种效应。

发现 2: 生成-理解的不对称性很罕见

这是核心问题: LLM 是否复现了人类在解析代词 (理解) 与生成文本 (生成) 时的“主语增强”现象?

在大多数情况下,答案是。LLM 普遍未能捕捉到人类认知中生成与理解之间的明显差距。事实上,一些模型表现出了相反的模式,或者根本没有差异。

然而,也有例外。 是/否提示策略最成功地揭示了这种不对称性。当被明确要求判断指代关系 (“‘他’是指约翰吗?”) 时,LLM 模型和 GPT-4o 开始表现出与人类偏好一致的模式。

发现 3: 规模很关键

模型的大小在认知合理性方面起着重要作用。

让我们看看 LLaMA-3.1-8B (较小的模型) 。当使用 是-否提示 时,统计分析显示了显著的交互效应。

表 6: LLaMA-3.1-8B 模型在是-否提示下的贝叶斯逻辑回归模型摘要。

在表 6 中,verb:task 交互项为负 (-1.99) ,且置信区间不包含零。这表明模型确实区分了任务,但当我们深入研究成对比较 (如下表 7) 时,我们看到了细微的差别。

表 7: LLaMA-3.1-8B 模型使用是-否选择提示在 IC1 和 IC2 动词内的任务效应成对比较。

较小的模型复现了不对称性的方向,但往往弄错了幅度,或者在复杂的提示 (如“续写”,它在这一项上表现不佳) 中翻转了行为。

现在将其与 LLaMA-3.3-70B (较大的模型) 进行比较。

表 14: LLaMA-3.3-70B 模型在是-否提示下的贝叶斯逻辑回归模型摘要。

70B 模型在是/否设置下显示出更清晰的结果 (论文中的表 13,此处由回归摘要表示) 。它比其较小的版本更可靠地捕捉到了 IC 动词效应和生成-理解的不对称性。这表明随着模型规模的扩大,它们可能自然地获得更微妙的“类人”处理特征,或者至少能更好地近似它们。

发现 4: GPT-4o 与“是/否”偏好

GPT-4o 作为目前行业的黄金标准,也表明了提示选择至关重要。

表 23: GPT-4o 在续写提示下的贝叶斯线性回归模型摘要。

续写提示 (表 22) 中,GPT-4o 显示 verb 的估计值为 -3.11。这实际上表明了相反的 IC 动词效应——相比于主语偏向动词,它在宾语偏向动词中更倾向于主语,这在认知上是不合理的。

然而,当切换到 是/否提示 时,GPT-4o 与人类数据的一致性要好得多。这凸显了我们评估模型方式中的一个关键缺陷: 一个模型在一种提示格式 (续写) 下可能看起来“认知异类”,但在另一种格式 (是/否) 下却显得“认知合理”。

讨论: 这对 AI 意味着什么?

这项研究强调,LLM 目前并没有默认复现人类语言的双重过程本质 (生成 vs. 理解) 。

“概率统一性”的问题

人类在说话和倾听时处理语言的方式不同是有生物学原因的。然而,LLM 建立在一个统一的目标之上: 预测下一个 token。它们没有用于“说话”和“理解”的独立模块。

它们居然能复现这种不对称性 (特别是在是/否提示中) 这一事实本身就很令人惊讶。这表明指令微调过程 (模型被训练来遵循聊天指令) 可能正在创造模拟这些人类区别的伪认知模式。

提示设计的重要性

对于学生和研究人员来说,这篇论文最实用的启示之一是元语言提示的敏感性。

  • 续写提示 (要求模型写作) 在捕捉人类认知偏好方面通常表现最差 。 作者认为这是因为模型经过大量微调以成为“乐于助人的助手”,这限制了它们的创造性写作,并使它们偏向于人类所不具备的特定的、安全的回答模式。
  • 是/否提示表现最好。这挑战了先前的假设,即使用原始概率 (token 的对数几率) 总是衡量模型的最佳方式。有时,明确要求模型进行判断会产生更“人性化”的结果。

结论

LLM 具有认知合理性吗?这项研究给出的答案是“有保留的‘可能’”。

它们并不能自然地以人类拥有的那种生成-理解差异来处理语言。人类在理解时会建立说话者的心理模型;LLM 则计算概率。

然而,足够大的模型 (如 LLaMA-70B 和 GPT-4o) ,如果提示得当,可以模拟这种行为。它们告诉我们,AI 中的“理解”是可塑的——它会随着神经网络的大小和问题的具体措辞而变化。

对于 AI 的未来,这表明如果我们希望模型真正自然地与我们互动,我们可能需要超越简单的下一个 token 预测,转而寻求尊重“作为说话者”和“作为倾听者”之间根本差异的架构或训练方法。