LLM 是遵循规则还是仅靠统计？探究二项式排序

你有没有停下来想过，为什么你会说 “bread and butter” (黄油面包) 而不是 “butter and bread”？或者为什么 “ladies and gentlemen” (女士们先生们) 听起来很自然，而 “gentlemen and ladies” 感觉有点刺耳？

在语言学中，这些词对被称为二项式 (binomials) 。它们由两个名词通过连词 (通常是 “and”) 连接而成。虽然 “salt and pepper” (椒盐) 的意思与 “pepper and salt” 完全相同，但以英语为母语的人对这些词的排序有着强烈且往往僵化的偏好。

几十年来，语言学家一直在争论为什么我们偏好某种顺序。共识是，人类的语言处理依赖于两种截然不同的机制: 观察到的偏好 (observed preferences) (我们这样说是因为我们听过一百万次了) 和抽象表征 (abstract representations) (我们遵循不可见的规则，例如短词放在长词前面，或者有生命的物体放在无生命物体前面) 。

随着像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 的迅速崛起，一个新的问题出现了: 这些模型学习语言的方式和我们一样吗? 它们是真的学会了英语的抽象规则，还是仅仅在鹦鹉学舌般复述其海量训练数据集中的频率统计？

加州大学戴维斯分校的研究人员 Zachary Houghton、Kenji Sagae 和 Emily Morgan 最近发表的一篇论文深入探讨了这个问题。通过分析 LLM 如何处理二项式，他们为神经语言处理的“黑盒”提供了引人入胜的见解。他们的发现表明，人类认知与人工智能之间存在根本性的分歧。

人类语境: 规则 vs. 经验

要理解这项研究的重要性，我们首先需要了解人类如何处理这些词对。

当人类遇到像 “fish and chips” (炸鱼薯条) 这样的常用短语时，我们的大脑主要基于观察到的偏好来提取它。我们如此频繁地听到这个特定的序列，以至于它被作为一个语块 (chunk) 存储起来。

然而，人类也是不可思议的泛化机器。如果你面对两个以前从未听过组合在一起的单词——比方说 “alibis” (不在场证明) 和 “excuses” (借口) ——你可能仍然倾向于 “alibis and excuses” 这个顺序。为什么？因为人类利用了抽象排序偏好 。我们隐式地知道一套音韵和语义约束:

长度: 我们倾向于短词在长词之前。
节奏: 我们偏好特定的重音模式。
语义: 我们经常把更“强大”或“有生命”的词放在前面。

心理语言学研究表明，对于低频项 (我们很少听到的短语) ，人类严重依赖这些抽象规则。我们不需要背下短语的统计数据就能知道它应该听起来是什么样的。

本研究的核心问题是 LLM 是否发展出了同样的能力。像 Llama-3 或 GPT-2 这样的模型是否学会了这些抽象约束？还是说，它们对词序的排列能力完全取决于它们在训练数据中看到这些特定单词的频率？

方法论

为了测试这一点，研究人员设计了一个严谨的实验，涉及八种不同的大型语言模型，其规模差异巨大，从较小的 GPT-2 (1.24 亿参数) 到巨大的 Llama-3 (700 亿参数) 。

数据集

他们利用了一个包含 594 个二项式表达的专门语料库。对于每个表达，他们拥有三个关键数据:

观察到的偏好 (Observed Preference) : 字母顺序排列在海量 Google N-gram 语料库中出现的频率 (代表“记忆”因素) 。
抽象排序偏好 (Abstract Ordering Preference) : 一个计算得分 (从 0 到 1) ，基于音韵和语义规则，预测如果人类遵循语言规则 (独立于频率) ，应该如何排序这些单词。
整体频率 (Overall Frequency) : 该短语在通用英语用法中的普遍程度。

计算模型偏好

研究人员并没有简单地问聊天机器人“你更喜欢哪个？”相反，他们查看了模型分配给单词的原始概率。

他们计算了模型生成字母顺序二项式 (单词 A and 单词 B) 的概率。为了确保上下文是中性的，他们使用了前缀 “Next item: “。

字母顺序排列概率公式。

如上式所示，字母形式的概率 (\(P_{alphabetical}\)) 是三个概率的乘积:

前缀之后出现单词 A 的概率。
单词 A 之后出现 “and” 的概率。
“and” 之后出现单词 B 的概率。

然后，他们对非字母顺序 (单词 B and 单词 A) 做了同样的事情:

非字母顺序排列概率公式。

有了这两个概率，他们就可以确定模型的偏好。他们计算了对数几率比 (Log Odds Ratio) , 这是一个单一数值，代表模型偏好字母顺序而非相反顺序的强烈程度。

对数几率比公式。

如果结果为正，则模型偏好字母顺序。如果为负，则偏好非字母顺序。数值的大小表示偏好的强度。

统计模型

这是分析中最巧妙的部分。研究人员不仅仅看准确性；他们想要厘清模型为什么做出这种选择。他们使用了贝叶斯线性回归模型来预测对数几率 (模型的选择) 。

回归模型公式。

让我们分解一下这个公式，它是实验的核心:

LogOdds(AandB): 这是我们要预测的内容 (LLM 的行为) 。
AbsPref: 该变量代表抽象规则 (类人的泛化) 。
ObservedPref: 该变量代表训练数据中的统计信息 (记忆) 。
Freq: 短语的总频率。
Freq : AbsPref & Freq : ObservedPref: 这些是交互项。它们允许研究人员问: “当短语很少见时，模型是否更多地依赖规则？” (这正是人类的做法) 。

如果 LLM 像人类一样，我们会期望看到 AbsPref 有显著的权重，尤其是对于低频项。如果 LLM 只是统计学鹦鹉，我们会期望 ObservedPref 主导这个方程。

实验与结果

结果在测试的所有模型中都惊人地一致，无论其大小或架构如何。

研究人员分析了每个变量的“Beta 系数”。较高的 Beta 系数意味着该变量是模型行为的强预测因子。接近零的系数意味着该变量对模型的决策几乎没有影响。

观察到的偏好占主导地位

结果的视觉总结非常鲜明。在下图中，请看每个模型的点的位置。粉红色的点代表 ObservedPref (观察到的偏好) ，黄色的点代表 AbsPref (抽象偏好) 。

图 1: 各模型每个 Beta 系数估计值的结果。从左到右按模型从小到大排列。X 轴包含每个系数，Y 轴包含相应模型的预测 Beta 系数。误差棒表示 95% 的置信区间。

在每一个子图中——从左边微小的 GPT-2 到右边巨大的 Llama-3 70B——粉红色的点 (ObservedPref) 在 Y 轴上都位于高位 (在 3.0 到 6.0 之间) 。这表明模型极度依赖训练数据中发现的具体排序统计。

相反，看那个黄色的点 (AbsPref) 。它始终徘徊在零线附近。这表明指导人类语言的抽象语言规则对于这些模型如何排列单词几乎没有解释力 。

频率交互

另一个关键发现在于交互项。研究人员发现频率和观察到的偏好之间存在正向交互作用 (ObsPref:Freq) 。

这意味着当项目是高频时，模型更加强烈地依赖观察到的统计数据。这是有道理的: 如果一个模型已经看过 “bread and butter” 数十亿次，统计信号就会非常强。

然而，关键在于，他们发现频率和抽象偏好之间没有交互效应 (AbsPref:Freq) 。回想一下，当短语罕见时，人类更多地依赖抽象规则。模型没有表现出这种行为。即使一个短语是低频的 (意味着模型没有那么强烈地记住它) ，模型仍然没有转而使用抽象规则。它只是总体偏好变弱了而已。

详细数据

下表提供了这些发现的具体数值。

表 1: 各语言模型的结果。Estimate 在 “Est.” 列中给出，后验标准差在 “Err.” 列中给出。标有 2.5 和 97.5 的列代表置信区间的下界和上界。AbsPref 是抽象排序偏好，Observed 是语料库数据中的观察偏好，Freq 是二项式的整体频率。

如果你查看各模型中 AbsPref 的 “Est.” (估计值) 列，你会看到像 -0.52、0.69 或 0.23 这样的值，而且误差棒 (置信区间) 通常跨越零点。这证实了该效应在统计上是可以忽略不计的。

将其与 Observed (观察到的偏好) 进行比较，后者的估计值范围从 3.07 到 5.64，且紧密的误差棒远离零点。统计证据是压倒性的: LLM 是由它们所看到的驱动的，而不是由“什么听起来顺口”的内在规则驱动的。

讨论: 这对 AI 意味着什么

这项研究为大型语言模型中“智能”的本质提供了一个发人深省的审视。

人类与 AI 的分歧

最重要的启示是人类和机器语言处理之间存在质的区别。人类是高效的学习者。我们不需要听到每一个可能的单词组合才知道如何排列它们；我们学习底层的模式 (抽象表征) 并将其应用于新情况。

另一方面，LLM 似乎是暴力学习者 (brute-force learners) 。它们能够产生流畅的、类似人类的输出，不是通过学习“游戏规则”，而是通过记忆游戏的历史。当它们生成 “bread and butter” 时，它们并不是在应用关于短词优先的音韵规则；它们只是在完成基于其处理过的数万亿 token 的统计模式。

“Alibis and Excuses” 问题

作者强调了一个有趣的例子: “alibis and excuses”。这是一个低频二项式。一个典型的大学生年纪的人一生中可能只听过这一短语一两次，但由于抽象偏好，他们可能会同意这种排序。

研究表明，即使对于这些罕见项目，LLM 也完全依赖观察到的偏好。如果训练数据中的特定 N-gram 计数不支持某种顺序，LLM 本质上是在猜测，而人类则会使用直觉 (抽象规则) 。

规模并未解决问题

结果中最令人惊讶的方面也许是规模并不重要 。人们可能会假设抽象推理是一种涌现属性——一旦模型足够大 (像 Llama-3 70B) ，它就会“领悟” (grok) 这些规则。

数据反驳了这一点。Llama-3 70B 模型表现出与微小的 GPT-2 相同的对观察偏好的依赖和对抽象偏好的无视。这表明，简单地增加更多参数和更多数据并不一定会导致类人抽象语言表征的涌现，至少在二项式排序领域是这样。

结论

论文《The Role of Abstract Representations and Observed Preferences in the Ordering of Binomials in Large Language Models》为了解 LLM 的工作原理提供了至关重要的一块拼图。

虽然 LLM 可以生成与人类写作难以区分的文本，但它们得出该文本的过程却截然不同。人类在记忆和规则之间进行权衡。LLM 似乎几乎完全依赖记忆 (观察到的统计数据) 。

这种区别对研究人员和开发人员至关重要。它凸显了当前架构的一个局限性: 无法像人类一样使用抽象规则对新输入进行泛化。虽然 LLM 是令人印象深刻的统计模仿者，但它们尚未掌握支配人类语言的抽象“本能”。

随着我们迈向更大的模型，像这样的研究提醒我们要揭开引擎盖看一看。我们不仅要问模型是否得到了正确答案，还要问它是如何得到的。在 “bread and butter” 的案例中，AI 做对了——但原因完全错了。

LLM 是遵循规则还是仅靠统计？探究二项式排序#

人类语境: 规则 vs. 经验#

方法论#

数据集#

计算模型偏好#

统计模型#

实验与结果#

观察到的偏好占主导地位#

频率交互#

详细数据#

讨论: 这对 AI 意味着什么#

人类与 AI 的分歧#

“Alibis and Excuses” 问题#

规模并未解决问题#

结论#