当我们与 GPT-4 或 LLaMA 等大型语言模型 (LLM) 互动时,很容易被它们表面的智能所迷惑。你问一个复杂的多步骤问题,模型就能给出一个连贯、合乎逻辑的答案。这感觉就像是在思考。
但在其内部,模型真的在进行推理吗?还是说,它只是在进行一种复杂形式的模式匹配,拼凑你提示中的线索来幻视出一种逻辑结构?
这正是研究人员 Mehrafarin、Eshghi 和 Konstas 在他们的论文 《Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs》 (推理还是推理的表象?LLM 传递性推理的诊断性研究) 中提出的核心问题。他们剥去炒作的外衣,对模型如何处理传递性推理进行了深度剖析——即如果 \(A\) 蕴含 \(B\),且 \(B\) 蕴含 \(C\),那么 \(A\) 必然蕴含 \(C\) 的逻辑链条。
在这篇文章中,我们将拆解他们的诊断性实验。我们会发现,虽然 LLM 可以解决推理难题,但它们解决这些难题的方式往往出人意料地陌生——它们更多地依赖捷径和关键词,而不是我们以为它们正在使用的逻辑推导。
核心问题: 推理 vs. 检索
从高层次来看,推理涉及推导那些没有直接存储在记忆中的新信息。对于 LLM 而言,这区分了“知道”巴黎在法国 (检索) 与推断出如果“爱丽丝在巴黎”且“巴黎在法国”,那么“爱丽丝在法国” (推理) 。
研究人员特别关注传递性推理 。 这是受以下规则支配的逻辑基本构件:

为了测试这一点,研究人员利用了两个依赖于这种 \(A \to B \to C\) 结构的数据集:
- QASC (通过句子组合回答问题) : 一个科学问题数据集,需要结合两个事实来回答。
- Bamboogle: 一个旨在测试模型可能未背诵过的问题的数据集,要求它们在两个事实之间“跳转”以找到答案 (例如,查找一个人的出生年份以确定当时谁是总统) 。
目标很简单: 给模型两个事实 (前提) ,让它们推导出答案。然后,以创造性的方式破坏输入 , 看看模型是否会停止工作。如果一个模型真的在推理,将单词打乱成无意义的内容应该会让它崩溃。如果它只是在进行模式匹配,可能就不会。
实验设置: 诊断性提示
研究人员对比了两种主要的架构:
- LLaMA 2 (7B 和 13B) : 流行的开源标准,仅解码器 (Decoder-only) 模型。
- Flan-T5 (XXL): 编码器-解码器 (Encoder-decoder) 模型,已经过多种任务 (包括推理数据集) 的指令微调。
为了理解这些模型是如何思考的,作者不仅仅看准确率。他们操控了“上下文学习” (ICL) 提示。ICL 提示在询问测试问题之前,为模型提供几个如何解决问题的示例 (演示) 。
下方的图 1 展示了该方法。左侧 (a) 是一个标准的“3-shot”提示,向模型展示如何从两个事实推导出答案。右侧 (b) 展示了诊断性操控——旨在破坏模型推理能力的“压力测试”。

这些操控手段包括:
- 单词乱序 (Shuffling Words) : 随机打乱事实中的单词顺序 (例如,将“clouds form water”变成“clouds water form”) 。
- 关键词移除 (Keyword Removal) : 删除事实中与答案重叠的特定单词。
- 乱码实体 (Gibberish Entities) : 用无意义的字符串替换日期和专有名词,看看模型是否依赖于识别著名实体。
实验 1: 事实真的重要吗?
在试图破坏模型之前,研究人员建立了一个基线。模型真的在使用提供的事实吗,还是仅仅根据预训练记忆来回答?
他们使用几种提示类型测试了模型:
- Full (完整) : 标准提示,包含问题 + 事实 + 推导步骤。
- QA: 仅问题 (不提供事实) 。
- QAF: 问题 + 事实 (但不包含推导步骤) 。
QASC 数据集的结果说明了一切:

关键结论:
- 事实至关重要: 看看 QA (凭记忆回答) 和 Full (根据事实回答) 之间的差距。LLaMA 2-13b 从 55% 跃升至 90%。这证明模型确实利用了提供的上下文。
- “推导”步骤对 LLaMA 有帮助: 与仅看到事实 (“QAF”) 相比,当 LLaMA 2 看到如何推导的示例 (“Full”提示) 时,表现要好得多。
- Flan-T5 表现强悍: 它在 Full 提示下得分为 97%。不过请注意,Flan-T5 在训练期间曾在 QASC 数据集上进行过微调,因此它拥有“主场优势”。
到目前为止一切正常。模型利用事实得出了正确答案。但它们是如何使用这些事实的呢?
实验 2: “词语沙拉”的惊喜
这才是奇怪的地方。如果人类读到句子*“describes generally Climate terms in moisture and temperature of,”* (大致意思是: 描述通常气候术语在湿度和温度的) ,他们很难进行逻辑推导,因为句法是破碎的。语法决定了 \(A\) 和 \(B\) 之间的关系。
研究人员随机打乱了所提供事实中的单词顺序( 乱序事实实验) ,并将其喂给模型。
假设: 性能应该会崩溃。 现实: 并没有。

如上图所示,橙色柱 (乱序事实) 几乎与蓝色柱 (语法正确的事实) 一样高。
- LLaMA 2-13b 仅从 90% 轻微下降到 86%。
- Flan-T5 从 97% 下降到 92%。
这意味着什么: 这个结果意义深远。它表明这些 LLM 对词序不敏感 。 它们并没有解析句子结构来理解 \(A\) 导致 \(B\)。相反,它们似乎将句子视为一个“词袋”——一组关键词的集合。如果 Token “Climate” (气候) 、“temperature” (温度) 和 “moisture” (湿度) 彼此相邻出现,模型就会将它们关联起来,而不管句子在语法上是否通顺。
研究人员甚至尝试要求模型对句子进行“反乱序”,看看它们是否在脑海中修正了语法。模型未能做到这一点,证明它们并没有在内部修复句子——它们只是完全忽略了句法。
实验 3: 寻找捷径
如果模型不是通过阅读语法来理解,那它们一定是在寻找特定的线索。研究人员假设模型依赖于Token 重叠——即简单地将问题中的单词与事实中的单词匹配,然后将事实中的单词与答案选项匹配。
为了测试这一点,他们进行了消融实验 (Ablation Studies) , 手术般精准地移除了事实中特定的连接词。
- F1Q / F2Q: 移除事实与问题之间重叠的单词。
- F1F2A Keyword Ablation (关键词消融) : 移除事实中与答案对应的特定单词。

结果 (上表 2) 证实了“捷径”理论:
- 连接词并不重要: 移除事实 1 和事实 2 之间的桥梁词 (F1F2 消融) 几乎没有影响。这对“推理”来说是致命的,因为桥梁对于传递性属性 (\(A \to B \to C\) 中的 \(B\)) 是必不可少的。
- 答案关键词最重要: 看看最后一行( F1F2A Keyword Ablation )。当事实文本中的答案关键词被移除时,性能显著下降 (例如,LLaMA 2-13b 下降了 15 个百分点) 。
这表明模型很大程度上是在玩匹配游戏。它们寻找在上下文中出现最显著的候选答案。
实验 4: Bamboogle 压力测试
QASC 数据集是多项选择题,允许模型进行猜测。为了严格测试这一点,作者转向了 Bamboogle , 这是一个需要生成自由文本答案的数据集。由于 Flan-T5 发布于 Bamboogle 之前,该数据集也确保了模型没有背下答案。
研究人员引入了一个巧妙的变体,称为 “乱码实体 (Gibberish Entities) ” 。
在传递性推理中,无论名词是什么,逻辑都应该成立。如果 X 发生在 Y 年,而 Y 年 的总统是 Z,那么 X 期间的总统就是 Z。无论年份是“1812”还是“xxxx”,这都是正确的。
研究人员用乱码替换了日期和名字 (例如,将“1812”改为“aavril”) ,看看在没有识别著名日期的语义拐杖的情况下,模型是否仍能追踪逻辑。

上表比较了“乱码”数据集上的结果:
- LLaMA 2-13b (49%): 它非常吃力。这表明 LLaMA 严重依赖命名实体 。 它使用日期和名字作为锚点。当“1812”变成“aavril”时,即使逻辑结构完全相同,模型也会迷失方向。
- Flan-T5 (97%): 它保持了惊人的稳健性。
讨论: 为什么会有差异?
为什么 Flan-T5 在乱码测试中表现如此出色,而 LLaMA 却失败了?
作者认为秘密在于微调 。 Flan-T5 已经在大量推理数据集上进行了指令微调。它似乎已经学会了传递性推理的抽象模式。它明白如果提示说“事件 A 发生在时间 [乱码]”,并且“在时间 [乱码],人物 B 是有效的”,它就应该输出人物 B。
LLaMA 2 通常缺乏针对推理任务的特定监督微调,更多地依赖于其预训练先验。它寻找熟悉的日期和实体。当这些被移除时,推理的幻象就会破灭。
结论: 推理的表象
这篇论文对 LLM 的能力提供了一个发人深省的观察。
- 这不是类人的推理: 模型在“词语沙拉” (乱序事实) 上表现良好,证明它们处理信息的方式与人类有着根本的不同。它们不依赖句法或语法逻辑流。
- 它是脆弱的: 从上下文中移除答案关键词,或者模糊命名实体 (对于未微调的模型) ,性能就会下降。
- 微调模拟了推理: Flan-T5 的卓越表现表明,我们可以教模型稳健地模仿推理模式,即使其底层机制 (关键词注意力) 仍与人类思维截然不同。
下次当你看到 LLM 解决复杂的谜题时,请记住: 它可能不是在推导答案。它可能只是在关键词拼图中寻找最合适的碎片。结果是正确的,但“思维过程”仅仅是真实事物的表象。
](https://deep-paper.org/en/paper/2410.20200/images/cover.png)