智能的幻象：解构大型语言模型中的传递性推理

当我们与 GPT-4 或 LLaMA 等大型语言模型 (LLM) 互动时，很容易被它们表面的智能所迷惑。你问一个复杂的多步骤问题，模型就能给出一个连贯、合乎逻辑的答案。这感觉就像是在思考。

但在其内部，模型真的在进行推理吗？还是说，它只是在进行一种复杂形式的模式匹配，拼凑你提示中的线索来幻视出一种逻辑结构？

这正是研究人员 Mehrafarin、Eshghi 和 Konstas 在他们的论文 《Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs》 (推理还是推理的表象？LLM 传递性推理的诊断性研究) 中提出的核心问题。他们剥去炒作的外衣，对模型如何处理传递性推理进行了深度剖析——即如果 \(A\) 蕴含 \(B\)，且 \(B\) 蕴含 \(C\)，那么 \(A\) 必然蕴含 \(C\) 的逻辑链条。

在这篇文章中，我们将拆解他们的诊断性实验。我们会发现，虽然 LLM 可以解决推理难题，但它们解决这些难题的方式往往出人意料地陌生——它们更多地依赖捷径和关键词，而不是我们以为它们正在使用的逻辑推导。

核心问题: 推理 vs. 检索

从高层次来看，推理涉及推导那些没有直接存储在记忆中的新信息。对于 LLM 而言，这区分了“知道”巴黎在法国 (检索) 与推断出如果“爱丽丝在巴黎”且“巴黎在法国”，那么“爱丽丝在法国” (推理) 。

研究人员特别关注传递性推理 。这是受以下规则支配的逻辑基本构件:

A to B, B to C implies A to C.

为了测试这一点，研究人员利用了两个依赖于这种 \(A \to B \to C\) 结构的数据集:

QASC (通过句子组合回答问题) : 一个科学问题数据集，需要结合两个事实来回答。
Bamboogle: 一个旨在测试模型可能未背诵过的问题的数据集，要求它们在两个事实之间“跳转”以找到答案 (例如，查找一个人的出生年份以确定当时谁是总统) 。

目标很简单: 给模型两个事实 (前提) ，让它们推导出答案。然后，以创造性的方式破坏输入 , 看看模型是否会停止工作。如果一个模型真的在推理，将单词打乱成无意义的内容应该会让它崩溃。如果它只是在进行模式匹配，可能就不会。

实验设置: 诊断性提示

研究人员对比了两种主要的架构:

LLaMA 2 (7B 和 13B) : 流行的开源标准，仅解码器 (Decoder-only) 模型。
Flan-T5 (XXL): 编码器-解码器 (Encoder-decoder) 模型，已经过多种任务 (包括推理数据集) 的指令微调。

为了理解这些模型是如何思考的，作者不仅仅看准确率。他们操控了“上下文学习” (ICL) 提示。ICL 提示在询问测试问题之前，为模型提供几个如何解决问题的示例 (演示) 。

下方的图 1 展示了该方法。左侧 (a) 是一个标准的“3-shot”提示，向模型展示如何从两个事实推导出答案。右侧 (b) 展示了诊断性操控——旨在破坏模型推理能力的“压力测试”。

Figure 1: (a) 3-shot In-Context Learning (ICL) prompt for the compositional question answering task… (b) We perform a series of manipulations…

这些操控手段包括:

单词乱序 (Shuffling Words) : 随机打乱事实中的单词顺序 (例如，将“clouds form water”变成“clouds water form”) 。
关键词移除 (Keyword Removal) : 删除事实中与答案重叠的特定单词。
乱码实体 (Gibberish Entities) : 用无意义的字符串替换日期和专有名词，看看模型是否依赖于识别著名实体。

实验 1: 事实真的重要吗？

在试图破坏模型之前，研究人员建立了一个基线。模型真的在使用提供的事实吗，还是仅仅根据预训练记忆来回答？

他们使用几种提示类型测试了模型:

Full (完整) : 标准提示，包含问题 + 事实 + 推导步骤。
QA: 仅问题 (不提供事实) 。
QAF: 问题 + 事实 (但不包含推导步骤) 。

QASC 数据集的结果说明了一切:

QASC Dataset Table comparing accuracy across prompts.

关键结论:

事实至关重要: 看看 QA (凭记忆回答) 和 Full (根据事实回答) 之间的差距。LLaMA 2-13b 从 55% 跃升至 90%。这证明模型确实利用了提供的上下文。
“推导”步骤对 LLaMA 有帮助: 与仅看到事实 (“QAF”) 相比，当 LLaMA 2 看到如何推导的示例 (“Full”提示) 时，表现要好得多。
Flan-T5 表现强悍: 它在 Full 提示下得分为 97%。不过请注意，Flan-T5 在训练期间曾在 QASC 数据集上进行过微调，因此它拥有“主场优势”。

到目前为止一切正常。模型利用事实得出了正确答案。但它们是如何使用这些事实的呢？

实验 2: “词语沙拉”的惊喜

这才是奇怪的地方。如果人类读到句子*“describes generally Climate terms in moisture and temperature of,”* (大致意思是: 描述通常气候术语在湿度和温度的) ，他们很难进行逻辑推导，因为句法是破碎的。语法决定了 \(A\) 和 \(B\) 之间的关系。

研究人员随机打乱了所提供事实中的单词顺序( 乱序事实实验) ，并将其喂给模型。

假设: 性能应该会崩溃。现实: 并没有。

Figure 2: Accuracy of models prompted with the Shuffled Facts and Full diagnostic prompts.

如上图所示，橙色柱 (乱序事实) 几乎与蓝色柱 (语法正确的事实) 一样高。

LLaMA 2-13b 仅从 90% 轻微下降到 86%。
Flan-T5 从 97% 下降到 92%。

这意味着什么: 这个结果意义深远。它表明这些 LLM 对词序不敏感 。它们并没有解析句子结构来理解 \(A\) 导致 \(B\)。相反，它们似乎将句子视为一个“词袋”——一组关键词的集合。如果 Token “Climate” (气候) 、“temperature” (温度) 和 “moisture” (湿度) 彼此相邻出现，模型就会将它们关联起来，而不管句子在语法上是否通顺。

研究人员甚至尝试要求模型对句子进行“反乱序”，看看它们是否在脑海中修正了语法。模型未能做到这一点，证明它们并没有在内部修复句子——它们只是完全忽略了句法。

实验 3: 寻找捷径

如果模型不是通过阅读语法来理解，那它们一定是在寻找特定的线索。研究人员假设模型依赖于Token 重叠——即简单地将问题中的单词与事实中的单词匹配，然后将事实中的单词与答案选项匹配。

为了测试这一点，他们进行了消融实验 (Ablation Studies) , 手术般精准地移除了事实中特定的连接词。

F1Q / F2Q: 移除事实与问题之间重叠的单词。
F1F2A Keyword Ablation (关键词消融) : 移除事实中与答案对应的特定单词。

Table 2: Accuracy of LLaMA 2-13b, LLaMA 2-7b, and Flan-T5 XXL on QASC with different ablation prompts.

结果 (上表 2) 证实了“捷径”理论:

连接词并不重要: 移除事实 1 和事实 2 之间的桥梁词 (F1F2 消融) 几乎没有影响。这对“推理”来说是致命的，因为桥梁对于传递性属性 (\(A \to B \to C\) 中的 \(B\)) 是必不可少的。
答案关键词最重要: 看看最后一行( F1F2A Keyword Ablation )。当事实文本中的答案关键词被移除时，性能显著下降 (例如，LLaMA 2-13b 下降了 15 个百分点) 。

这表明模型很大程度上是在玩匹配游戏。它们寻找在上下文中出现最显著的候选答案。

实验 4: Bamboogle 压力测试

QASC 数据集是多项选择题，允许模型进行猜测。为了严格测试这一点，作者转向了 Bamboogle , 这是一个需要生成自由文本答案的数据集。由于 Flan-T5 发布于 Bamboogle 之前，该数据集也确保了模型没有背下答案。

研究人员引入了一个巧妙的变体，称为 “乱码实体 (Gibberish Entities) ” 。

在传递性推理中，无论名词是什么，逻辑都应该成立。如果 X 发生在 Y 年，而 Y 年 的总统是 Z，那么 X 期间的总统就是 Z。无论年份是“1812”还是“xxxx”，这都是正确的。

研究人员用乱码替换了日期和名字 (例如，将“1812”改为“aavril”) ，看看在没有识别著名日期的语义拐杖的情况下，模型是否仍能追踪逻辑。

Table 4: Rouge-1 for LLaMA 2-13b and Flan-T5 on the Bamboogle Gibberish dataset…

上表比较了“乱码”数据集上的结果:

LLaMA 2-13b (49%): 它非常吃力。这表明 LLaMA 严重依赖命名实体 。它使用日期和名字作为锚点。当“1812”变成“aavril”时，即使逻辑结构完全相同，模型也会迷失方向。
Flan-T5 (97%): 它保持了惊人的稳健性。

讨论: 为什么会有差异？

为什么 Flan-T5 在乱码测试中表现如此出色，而 LLaMA 却失败了？

作者认为秘密在于微调。 Flan-T5 已经在大量推理数据集上进行了指令微调。它似乎已经学会了传递性推理的抽象模式。它明白如果提示说“事件 A 发生在时间 [乱码]”，并且“在时间 [乱码]，人物 B 是有效的”，它就应该输出人物 B。

LLaMA 2 通常缺乏针对推理任务的特定监督微调，更多地依赖于其预训练先验。它寻找熟悉的日期和实体。当这些被移除时，推理的幻象就会破灭。

结论: 推理的表象

这篇论文对 LLM 的能力提供了一个发人深省的观察。

这不是类人的推理: 模型在“词语沙拉” (乱序事实) 上表现良好，证明它们处理信息的方式与人类有着根本的不同。它们不依赖句法或语法逻辑流。
它是脆弱的: 从上下文中移除答案关键词，或者模糊命名实体 (对于未微调的模型) ，性能就会下降。
微调模拟了推理: Flan-T5 的卓越表现表明，我们可以教模型稳健地模仿推理模式，即使其底层机制 (关键词注意力) 仍与人类思维截然不同。

下次当你看到 LLM 解决复杂的谜题时，请记住: 它可能不是在推导答案。它可能只是在关键词拼图中寻找最合适的碎片。结果是正确的，但“思维过程”仅仅是真实事物的表象。

核心问题: 推理 vs. 检索#

实验设置: 诊断性提示#

实验 1: 事实真的重要吗？#

实验 2: “词语沙拉”的惊喜#

实验 3: 寻找捷径#

实验 4: Bamboogle 压力测试#

讨论: 为什么会有差异？#

结论: 推理的表象#