像 GPT-4 和 Llama-2 这样最先进的大语言模型 (LLM) 通常因其推理能力而备受赞誉。我们看到它们通过了律师资格考试,解决了复杂的数学问题,并能生成代码。但在自然语言处理 (NLP) 社区中,一个挥之不去的问题仍然存在: 这些模型究竟是在进行推理,还是仅仅是作为复杂的高级模式匹配器在走捷径?
在较小的微调模型 (如 BERT) 时代,我们知道答案: 它们是走捷径的高手。它们经常忽略句子的逻辑,只是通过匹配关键词来寻找答案。然而,LLM 被认为会更好。因为它们是零样本学习者 (未针对特定基准数据进行微调) ,人们假设它们不会学习这些“廉价”的把戏。
一篇引人入胜的研究论文 《Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers?》 (看似合理的干扰项对多跳推理的影响: 大语言模型是专注的读者吗?) 挑战了这一假设。研究人员开发了一种方法来测试 LLM 是否真的是专注的读者,还是会被“看似合理”但最终不正确的信息所诱惑。结果表明,虽然 LLM 比它们的前辈更聪明,但它们仍然会“被细微差别所蒙蔽”。
多跳推理的挑战
要理解这篇论文的贡献,我们首先需要理解多跳推理 (Multi-Hop Reasoning) 。
简单的问答只需要查找单一事实。例如,“谁执导了《泰坦尼克号》?”只需要找到一份将詹姆斯·卡梅隆与电影联系起来的文件。
多跳推理需要整合来自多个来源的信息才能得出答案。考虑这个问题:
“谁制作了 Bally Midway 开发的 1983 年俯视视角车辆战斗游戏的 2003 年重制版?”
要回答这个问题,模型 (或人类) 必须执行两次“跳跃”:
- 第一跳 (Hop 1) : 确定 Bally Midway 开发的 1983 年游戏 (答案: Spy Hunter) 。
- 第二跳 (Hop 2) : 确定谁制作了 Spy Hunter 的 2003 年重制版 (答案: Adam Dawes) 。
如果模型跳过了第一跳,仅仅根据“2003 年重制版”和“车辆战斗”等关键词进行猜测,它可能会找到完全错误的游戏。
现有基准测试的问题
过去,研究人员注意到模型可以在不实际进行多跳工作的情况下解决这些多跳问题。如果一个段落包含单词“Bally Midway”和“2003”,模型可能只是抓取最近的名字。
为了测试这一点,研究人员以前使用“对抗性攻击”——在文本中添加干扰段落,看看模型是否会感到困惑。传统的攻击 (如 AddDoc) 只是添加具有高词汇重叠 (大量共享单词) 的段落。现代 LLM 通常对这些具有鲁棒性;它们足够聪明,能够意识到仅仅共享关键词的段落不一定是正确答案。
但是,如果干扰不仅仅是随机的关键词呢?如果干扰是一个看似合理的替代推理路径呢?
核心方法: 制造“看似合理的干扰项”
这篇论文的核心贡献是一个生成更难检测的对抗性样本的新框架。研究人员生成的不是混乱的词汇堆砌,而是连贯、合乎逻辑但实际上不正确的推理链——即“看似合理的干扰项”。
以下是研究人员如何构建这些陷阱的:
1. 问题分解
首先,他们取一个多跳问题,并将其分解为组成的子问题。

如图 2 所示,一个关于枪炮与玫瑰乐队 (Guns N’ Roses) 的复杂问题被拆分为两个逻辑步骤。这种分解允许研究人员针对推理链的特定部分进行操作。
2. 识别和修改细节
要制造陷阱,你不能只改变答案;你必须改变上下文,使错误的答案看起来是正确的。系统会识别子问题中的“主要实体”和“可修改细节”。
例如,如果原始问题是关于某支球队进行主场 (home) 比赛的场馆,研究人员可能会将修饰语“ 主场 (home) ”改为“ 季后赛 (playoff) ”。
3. 生成干扰段落
这是利用 LLM 对抗其自身的地方。研究人员将修改后的子问题输入 GPT-4,以生成假的维基百科风格的段落。
如果修改后的问题问的是“季后赛” (而不是主场比赛) ,GPT-4 会生成一个令人信服的段落,说明该球队在“枫叶竞技场” (在此上下文中是一个虚构或无关的细节) 进行了季后赛。
结果是一个测试案例,模型面临:
- 黄金路径 (Gold Path) : 通往真实答案的正确段落。
- 干扰路径 (Distractor Path) : 一个高质量、语义一致的段落,但回答的是一个略有不同的问题 (例如,关于季后赛而不是主场比赛) 。
如果 LLM 是一个“专注的读者”,它会注意到用户问题中的特定约束 (例如“主场比赛”) 并忽略干扰项。如果 LLM 只是略读或依赖一般的语义相似性,它可能会掉进陷阱。
实验: LLM 会走捷径吗?
在发动新的攻击之前,研究人员首先建立了一个基准。他们想看看 LLM 是否像 BERT 等旧模型一样,即使在标准数据上也表现出“推理捷径”。
他们使用了一个名为 SubQA 的数据集,检查模型是否能正确回答子问题以及最终问题。

表 2 揭示了一个差异。Llama-2-13B 在单个子问题上的表现 (F1 ~0.74) 明显优于原始多跳问题 (F1 ~0.42) 。这表明困难在于信息的整合——即“跳跃”本身。
更能说明问题的是表 3 中的一致性分析:

看一看“Correct but sub-questions wrong” (回答正确但子问题错误) 这一行。在 10.7% 的情况下,尽管未能回答必要的子问题,模型还是猜对了最终答案。这是走捷径推理的“确凿证据”——因为错误的理由得出了正确的答案。相反,在 25% 的情况下,模型知道两个单独的事实,但未能将它们结合起来,显示出推理能力的失败。
主要结果: 掉入陷阱
研究人员随后在包含看似合理干扰项的新基准上评估了几个模型 (Llama-2, Mixtral, GPT-3.5) 。
结果非常明显。与 LLM 大多会忽略的传统“词汇”攻击不同,这些“语义”干扰项导致性能大幅下降。

表 4 提供了详细的结果。让我们分解关键结论:
- 全面大幅下降: 看“Llama-2-70b”这一行。在原始数据集 (“ori”) 上,它的得分是 54.1 EM (精确匹配) 。在对抗性数据集 (“adv”) 上,它下降到了 40.4 EM 。 这是可靠性的巨大下降。
- “相关性”因素很重要: “Paragraph Related” (段落相关) 下的列至关重要。当干扰段落形成一个有凝聚力、相关的推理链 (一个完整的假故事) 时,模型的表现比干扰项不相关时更差 (F1 分数更低) 。这证实了 LLM 正被假路径的连贯性所诱惑。
- GPT-3.5 也不免疫: 即使是像 GPT-3.5 这样的专有模型,其 F1 分数也从 63.4 暴跌至 39.9 。
研究人员还测试了 GPT-4 (尽管由于成本原因样本量较小) 。虽然 GPT-4 比其他模型更具鲁棒性,但在面对四个看似合理的干扰段落时,其 F1 分数仍出现了 14% 的相对下降 。 这证明“扩大规模”并不能自动解决推理捷径的问题。
为什么会发生这种情况?
论文认为,LLM 并不一定像人类那样在“阅读”。当人类读到“他们在哪里进行主场比赛?”时,我们会专门寻找单词“主场”并排除“季后赛”。
然而,LLM 基于概率关联运行。一个讨论球队、运动和竞技场的段落具有非常高的概率权重,即使特定的修饰语 (“季后赛”与“主场”) 不匹配。“看似合理的干扰项”利用了这一点,通过创建一个除了那个关键约束外语义完美的段落来欺骗模型。
作者称这种行为为 “被细微差别蒙蔽 (blinded by nuance) ” 。
提示工程能修复它吗?
现代 NLP 中一个常见的反驳观点是: “只要提示得更好就行。”研究人员通过使用思维链 (Chain-of-Thought, CoT) 和自我一致性 (Self-Consistency,即要求模型推理多次并取最常见的答案) 等高级提示技术来测试这一假设。

表 11 显示了结果。虽然自我一致性提供了一定的改进 (将 Llama-2-13B 的对抗性 F1 从 20.4 提高到 23.9) ,但它并没有恢复失去的性能。模型仍然很脆弱。失败似乎源于模型关注信息的方式这一根本问题,而不仅仅是缺乏“思考时间”。
结论: 推理的错觉
这篇论文是一个至关重要的现实检验。我们经常将人类水平的理解力归因于 LLM,因为它们说话如此流畅。然而,它们无法区分正确的推理路径和“看似合理”的替代路径,这表明它们还不是完全专注的读者。
这一影响是巨大的,特别是对于检索增强生成 (RAG) 系统。在 RAG 中,我们获取文档来帮助 LLM 回答问题。如果检索系统引入了一个“看似合理的干扰项”——一个看起来相关但处理略微不同细微差别的文档——这篇论文表明,LLM 极有可能基于该干扰项产生错误的答案 (幻觉) 。
研究人员表明,虽然 LLM 已经超越了简单的关键词匹配,但它们只是升级到了更复杂的走捷径形式。为了构建真正可靠的 AI,我们需要模型不仅能找到最可能的路径,还能严格遵守事实。
](https://deep-paper.org/en/paper/2409.05197/images/cover.png)