像 GPT-4、Gemini 和 LLaMA 这样的大型语言模型 (LLM) 已经席卷全球。我们惊叹于它们编写代码、创作诗歌以及进行复杂逻辑推理的能力。但 AI 研究界一直存在一个挥之不去的问题: 这些模型是真的理解了内容,还是仅仅擅长基于表面模式进行猜测?
想象一下,一个学生历史考试得了高分,不是因为理解了战争的地缘政治起因,而是死记硬背了每当题目中出现“条约”这个词时,答案就是“C”。这对那次特定考试有效,但在现实世界中毫无用处。在机器学习中,这种现象被称为捷径学习 (Shortcut Learning) 。
在这篇文章中,我们将深入探讨一篇题为 “Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models” 的研究论文。研究人员开发了一个名为 Shortcut Suite 的综合测试框架,以揭示最先进 LLM 中这些隐藏的弱点。
读完本文,你将了解什么是捷径学习,研究人员如何抓个现行,以及为什么即使是最强大的模型也会被简单的逻辑谬误所欺骗。
1. 问题所在: 鲁棒性 vs. “作弊”
上下文学习 (ICL) 和思维链 (CoT) 提示等技术的引入彻底改变了自然语言处理 (NLP) 。模型现在可以执行并未经过显式训练的任务。但是,标准基准测试上的“性能”并不总是等同于“鲁棒性”。
如果 LLM 依赖数据集偏差——即捷径——它可能在标准测试数据 (通常具有与训练数据相同的偏差) 上表现完美,但在现实场景或“分布外” (OOD) 测试中惨败。
本文作者旨在回答一个关键问题: 现代 LLM 是否仍然依赖这些捷径?如果是,这如何影响它们的泛化能力?
为了回答这个问题,他们主要关注自然语言推理 (NLI) 任务。在 NLI 中,模型会获得一个*前提 (Premise) 和一个假设 (Hypothesis) *,并必须判断假设是蕴含 (Entailment) (基于前提为真) 、矛盾 (Contradiction) (基于前提为假) ,还是中立 (Neutral) 。 这项任务非常适合测试逻辑,因为它需要理解两个句子之间的关系,而不仅仅是关键词匹配。
2. 介绍 Shortcut Suite
为了系统地测试 LLM,研究人员创建了 Shortcut Suite 。 这不仅仅是一堆随机的刁钻问题;它是一个旨在测试六种特定类型捷径的压力测试。
核心思想是看模型是否会忽略句子的实际含义,转而依赖启发式方法 (经验法则) 。

如上文 表 1 所示,该套件测试了六种截然不同的捷径:
- 词汇重叠 (Lexical Overlap) : 模型假设如果前提和假设包含许多相同的单词,那一定是蕴含关系。
- *陷阱: * “The actor was encouraged by the lawyer” (演员受到了律师的鼓励) vs. “The actor encouraged the lawyer” (演员鼓励了律师) 。单词相同,含义完全不同。
- 子序列 (Subsequence) : 模型假设如果假设是前提中连续出现的短语,那它一定是真的。
- *陷阱: * “The authors in front of the senators contacted…” (参议员前面的作者联系了……) 模型看到“The senators contacted…” (参议员联系了……) 就标记为真,忽略了上下文。
- 成分 (Constituent) : 类似于子序列,但基于语法解析树。
- 否定 (Negation) : 模型假设像“no”或“not”这样的强否定词自动意味着矛盾。
- 位置 (Position) : 这测试模型是关注实际文本还是仅仅关注文本的位置。研究人员注入了同义反复 (像“红就是红”这样无意义的真命题) ,看看模型是否会分心。
- 风格 (Style) : 如果文本以特定风格 (如圣经英语) 书写,模型会困惑吗?
可视化失败案例
当模型失败时是什么样子的?请看下面的 图 1 。

在这个例子中,模型 (Gemini-Pro) 在源文本中看到了“The professor recommended the bankers” (教授推荐了银行家) 这个短语。它忽略了关键的上下文——实际上是教授身边的经理做出了推荐。因为单词匹配了一个子序列,模型走了捷径,自信地回答“蕴含”。这是为了模式匹配而跳过语义分析的典型案例。
3. 超越准确率: 衡量解释质量
该论文的主要贡献之一是它不仅关注模型答案的对错 (准确率) ,还分析了模型提供的推理过程。
当我们要 LLM “一步步思考” (思维链) 时,我们想知道它的推理是否合理。为了衡量这一点,作者引入了新的指标。
语义保真度分数 (Semantic Fidelity Score, SFS)
模型的解释是否实际上与输入文本相关?SFS 测量提示 (\(P\)) 和生成内容 (\(c\)) 的嵌入之间的余弦相似度。

如果模型开始产生幻觉或谈论不相关的话题,SFS 就会下降。
内部一致性分数 (Internal Consistency Score, ICS)
模型是否自相矛盾?产生幻觉的模型通常会在第 1 步说“X 是真的”,在第 3 步说“X 是假的”。研究人员使用一个单独的 NLI 模型来检查生成推理链的不同步骤之间是否存在矛盾。

这里,如果发现矛盾 (概率 \(> 1/3\)) ,\(f(c)\) 返回 0,否则返回 1。该分数是各步骤一致性的平均值。
解释质量分数 (Explanation Quality Score, EQS)
最后,他们将这两者结合起来,以全面了解解释质量。

通过同等权衡保真度和一致性 (\(w_1 = w_2 = 0.5\)) ,他们可以量化模型思维过程的“合理”程度。
4. 实验设置
研究人员进行了大规模测试。他们不仅测试了一个模型,还测试了一系列闭源和开源模型:
- 闭源: GPT-3.5-Turbo, GPT-4, Gemini-Pro。
- 开源: LLaMA-2 (7B, 13B, 70B), Mistral-7B, ChatGLM3。
他们还测试了四种不同的提示策略,看看提问方式是否会改变捷径行为:
- 零样本 (Zero-shot) : 直接提问。
- 少样本 ICL (Few-shot ICL) : 提供几个示例 (上下文学习) 。
- 零样本 CoT (Zero-shot CoT) : 要求模型“一步步思考”。
- 少样本 CoT (Few-shot CoT) : 提供包含推理步骤的示例。
5. 关键结果与分析
实验结果发人深省,证实了捷径学习是一个普遍存在的问题,即使对于最先进的模型也是如此。
5.1 性能下降
最直接的发现是,与标准数据集相比,当模型面对充满捷径的数据集时,准确率大幅下降。

在 表 2 中,请看那片蓝色的高亮区域。“Standard”列显示了模型在正常数据上的表现 (通常 80%+) 。但看看 Constituent (\(\neg E\)) 列或 Negation 列。
- GPT-3.5-Turbo 从标准数据集的 56.7% 降至 Negation 上的 39.8% 。
- Gemini-Pro 从 76.2% 降至 Constituent (\(\neg E\)) 上的 47.2% 。
这证实了模型严重依赖捷径。当捷径 (如单词重叠) 与正确答案 (蕴含) 一致时,准确率很高。但当捷径是陷阱 (非蕴含 \(\neg E\)) 时,性能就会崩溃——通常比随机猜测还差。
5.2 “逆缩放”的意外发现
AI 界的普遍看法是“越大越好”。通常,增加参数 (从 7B 到 70B) 能解决推理问题。
然而,本文发现了一个反直觉的结果,称为逆缩放 (Inverse Scaling) 。 在零样本和少样本设置中, 较大的模型有时比较小的模型更容易陷入捷径。
为什么?因为较大的模型是更好的学习者。它们比小模型更有效地捕捉预训练数据中的虚假相关性。如果训练数据教导“not = 矛盾”,70B 模型会比 7B 模型学得更死。这需要高级提示 (如 CoT) 来解锁大模型的推理能力并克服这一点。
5.3 思维链 (CoT) 的力量
如果你再次仔细观察 表 2 , 比较“Zero-shot”块和“Zero-shot CoT”块。准确率通常显著提高。
- Mistral-7B 在这里表现突出。通过 CoT 提示,它足以与更大的模型匹敌,这表明即使是较小的模型,如果被迫阐述其逻辑,也具有推理能力。
- CoT 迫使模型慢下来。它不再直接跳到捷径结论 (“单词匹配!”) ,而是必须解释关系,这往往能揭示陷阱。
5.4 过度自信
LLM 最危险的一个方面是它们“自信地犯错”。研究人员将模型的置信度分数 (Confidence Scores) (模型声称的确信程度) 与其不仅准确率进行了比较。

图 2 描绘了一幅令人担忧的画面。Y 轴代表置信度。注意箱线图始终很高,通常徘徊在 100% 附近 (图表顶部) 。即使在 Constituent (\(\neg E\)) 数据集 (子图 g) 中,我们知道准确率很糟糕 (有时 <20%) ,模型仍然报告高置信度。
这意味着当 LLM 使用捷径时,它并不“感觉”自己在猜测。它感到确定,因为启发式方法 (例如,“单词重叠意味着真”) 在其内部权重中是一个强信号。
5.5 被“同义反复”分心
在 Position 捷径测试中,研究人员在文本中添加了像“红就是红”或“上就是上”这样无意义的句子。这不应改变段落的逻辑。然而,模型经常分心。

如 图 4 所示,模型 (GPT-3.5) 被重复的“red is red”搞糊涂了。它没有分析传说/英雄的关系,而是因为噪音得出结论说“没有逻辑联系”。
此外, 表 3 (下文) 显示模型受到信息位置的偏差影响。

当干扰文本位于前提的开头时,模型往往表现更差。这表明 LLM 可能过度优先考虑序列的开头,这种行为被称为“首因效应 (primacy effect) ”。
6. 错误类型
作者将推理错误分为三个不同的类别。这有助于我们理解思维过程是如何崩溃的。
1. 分心 (Distraction)
如上所述,模型关注不相关的信息 (同义反复) ,而不是核心语义关系。
2. 伪装理解 (Disguised Comprehension)
这很棘手。模型似乎理解了单词,但它偷换了概念。它可能将“医生相信经理”视为等同于“经理相信医生”。它抓住了实体,但未能跟踪它们之间的方向关系。
3. 逻辑谬误 (Logical Fallacy)
模型试图推理,但使用了有缺陷的逻辑。

在 图 7 中,模型试图将“法官认识律师”与“律师感谢演员”联系起来。它得出结论说法官认识律师。虽然这个特定的输出恰好与假设相符,但推理路径 (第 3 步: “前提暗示法官认识律师”) 通常涉及逻辑跳跃或基于子序列捷径的循环论证。
7. 更广泛的影响 (情感分析与转述)
为了证明这不仅仅是 NLI 问题,研究人员将评估扩展到了情感分析 (SA) 和转述识别 (PI) 。

表 5 显示了相同的模式。当在情感分析中引入否定词时,准确率下降 (蓝色高亮) 。当在转述识别中使用单词乱序 (使两个句子看起来相似但含义不同) 时,像 Gemini-Pro 这样的模型从 75.9% 降至 47.4% 。
图 8 进一步可视化了这一点,显示了标签分布的偏移。

在图表 (b) 中,注意那些巨大的青色条柱了吗?那是 Negation 数据集。模型压倒性地预测“负面 (Negative) ”情感,仅仅是因为它们看到了否定词,即使句子实际上并不是负面的。
8. 结论
论文“Do LLMs Overcome Shortcut Learning?”对大型语言模型的现状进行了令人清醒的审视。虽然这些模型极其强大,但它们远非完美的推理者。
关键要点:
- 捷径无处不在: LLM 严重依赖单词重叠和否定线索等启发式方法,而不是深度理解。
- 规模不能解决一切: 更大的模型可能更容易受到捷径的影响,因为它们更有效地学习了数据集偏差。
- 提示很重要: 思维链 (CoT) 是目前抵御捷径学习的最佳防御措施之一,因为它迫使模型验证其自身的启发式方法。
- 置信度具有欺骗性: 永远不要相信 LLM 的置信度分数;当使用捷径时,它们通常自信地犯错。
这对未来意味着什么? 对于学生和从业者来说,这突显了鲁棒性评估的重要性。在标准数据集上测试模型是不够的。我们需要压力测试——比如 Shortcut Suite——以确保我们的 AI 系统真正理解世界,而不仅仅是死记硬背“作弊码”。随着我们迈向 AGI,克服这些捷径将是需要跨越的最重大障碍之一。
](https://deep-paper.org/en/paper/2410.13343/images/cover.png)