像 GPT-4、Gemini 和 LLaMA 这样的大型语言模型 (LLM) 已经席卷全球。我们惊叹于它们编写代码、创作诗歌以及进行复杂逻辑推理的能力。但 AI 研究界一直存在一个挥之不去的问题: 这些模型是真的理解了内容,还是仅仅擅长基于表面模式进行猜测?

想象一下,一个学生历史考试得了高分,不是因为理解了战争的地缘政治起因,而是死记硬背了每当题目中出现“条约”这个词时,答案就是“C”。这对那次特定考试有效,但在现实世界中毫无用处。在机器学习中,这种现象被称为捷径学习 (Shortcut Learning)

在这篇文章中,我们将深入探讨一篇题为 “Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models” 的研究论文。研究人员开发了一个名为 Shortcut Suite 的综合测试框架,以揭示最先进 LLM 中这些隐藏的弱点。

读完本文,你将了解什么是捷径学习,研究人员如何抓个现行,以及为什么即使是最强大的模型也会被简单的逻辑谬误所欺骗。


1. 问题所在: 鲁棒性 vs. “作弊”

上下文学习 (ICL) 和思维链 (CoT) 提示等技术的引入彻底改变了自然语言处理 (NLP) 。模型现在可以执行并未经过显式训练的任务。但是,标准基准测试上的“性能”并不总是等同于“鲁棒性”。

如果 LLM 依赖数据集偏差——即捷径——它可能在标准测试数据 (通常具有与训练数据相同的偏差) 上表现完美,但在现实场景或“分布外” (OOD) 测试中惨败。

本文作者旨在回答一个关键问题: 现代 LLM 是否仍然依赖这些捷径?如果是,这如何影响它们的泛化能力?

为了回答这个问题,他们主要关注自然语言推理 (NLI) 任务。在 NLI 中,模型会获得一个*前提 (Premise) 和一个假设 (Hypothesis) *,并必须判断假设是蕴含 (Entailment) (基于前提为真) 、矛盾 (Contradiction) (基于前提为假) ,还是中立 (Neutral) 。 这项任务非常适合测试逻辑,因为它需要理解两个句子之间的关系,而不仅仅是关键词匹配。


2. 介绍 Shortcut Suite

为了系统地测试 LLM,研究人员创建了 Shortcut Suite 。 这不仅仅是一堆随机的刁钻问题;它是一个旨在测试六种特定类型捷径的压力测试。

核心思想是看模型是否会忽略句子的实际含义,转而依赖启发式方法 (经验法则) 。

Table 1: Definitions and examples of the shortcuts explored in this paper.

如上文 表 1 所示,该套件测试了六种截然不同的捷径:

  1. 词汇重叠 (Lexical Overlap) : 模型假设如果前提和假设包含许多相同的单词,那一定是蕴含关系。
  • *陷阱: * “The actor was encouraged by the lawyer” (演员受到了律师的鼓励) vs. “The actor encouraged the lawyer” (演员鼓励了律师) 。单词相同,含义完全不同。
  1. 子序列 (Subsequence) : 模型假设如果假设是前提中连续出现的短语,那它一定是真的。
  • *陷阱: * “The authors in front of the senators contacted…” (参议员前面的作者联系了……) 模型看到“The senators contacted…” (参议员联系了……) 就标记为真,忽略了上下文。
  1. 成分 (Constituent) : 类似于子序列,但基于语法解析树。
  2. 否定 (Negation) : 模型假设像“no”或“not”这样的强否定词自动意味着矛盾
  3. 位置 (Position) : 这测试模型是关注实际文本还是仅仅关注文本的位置。研究人员注入了同义反复 (像“红就是红”这样无意义的真命题) ,看看模型是否会分心。
  4. 风格 (Style) : 如果文本以特定风格 (如圣经英语) 书写,模型会困惑吗?

可视化失败案例

当模型失败时是什么样子的?请看下面的 图 1

Figure 1: Shortcut Learning Behavior: The LLM mistakenly infers the premise entails the hypothesis if all subsequences match, skipping deep semantic analysis.

在这个例子中,模型 (Gemini-Pro) 在源文本中看到了“The professor recommended the bankers” (教授推荐了银行家) 这个短语。它忽略了关键的上下文——实际上是教授身边的经理做出了推荐。因为单词匹配了一个子序列,模型走了捷径,自信地回答“蕴含”。这是为了模式匹配而跳过语义分析的典型案例。


3. 超越准确率: 衡量解释质量

该论文的主要贡献之一是它不仅关注模型答案的对错 (准确率) ,还分析了模型提供的推理过程。

当我们要 LLM “一步步思考” (思维链) 时,我们想知道它的推理是否合理。为了衡量这一点,作者引入了新的指标。

语义保真度分数 (Semantic Fidelity Score, SFS)

模型的解释是否实际上与输入文本相关?SFS 测量提示 (\(P\)) 和生成内容 (\(c\)) 的嵌入之间的余弦相似度。

Equation for Semantic Fidelity Score

如果模型开始产生幻觉或谈论不相关的话题,SFS 就会下降。

内部一致性分数 (Internal Consistency Score, ICS)

模型是否自相矛盾?产生幻觉的模型通常会在第 1 步说“X 是真的”,在第 3 步说“X 是假的”。研究人员使用一个单独的 NLI 模型来检查生成推理链的不同步骤之间是否存在矛盾。

Equation for Internal Consistency Score

这里,如果发现矛盾 (概率 \(> 1/3\)) ,\(f(c)\) 返回 0,否则返回 1。该分数是各步骤一致性的平均值。

解释质量分数 (Explanation Quality Score, EQS)

最后,他们将这两者结合起来,以全面了解解释质量。

Equation for Explanation Quality Score

通过同等权衡保真度和一致性 (\(w_1 = w_2 = 0.5\)) ,他们可以量化模型思维过程的“合理”程度。


4. 实验设置

研究人员进行了大规模测试。他们不仅测试了一个模型,还测试了一系列闭源和开源模型:

  • 闭源: GPT-3.5-Turbo, GPT-4, Gemini-Pro。
  • 开源: LLaMA-2 (7B, 13B, 70B), Mistral-7B, ChatGLM3。

他们还测试了四种不同的提示策略,看看提问方式是否会改变捷径行为:

  1. 零样本 (Zero-shot) : 直接提问。
  2. 少样本 ICL (Few-shot ICL) : 提供几个示例 (上下文学习) 。
  3. 零样本 CoT (Zero-shot CoT) : 要求模型“一步步思考”。
  4. 少样本 CoT (Few-shot CoT) : 提供包含推理步骤的示例。

5. 关键结果与分析

实验结果发人深省,证实了捷径学习是一个普遍存在的问题,即使对于最先进的模型也是如此。

5.1 性能下降

最直接的发现是,与标准数据集相比,当模型面对充满捷径的数据集时,准确率大幅下降。

Table 2: Accuracy percentages across all datasets. Blue highlights show decreases compared to standard performance.

表 2 中,请看那片蓝色的高亮区域。“Standard”列显示了模型在正常数据上的表现 (通常 80%+) 。但看看 Constituent (\(\neg E\)) 列或 Negation 列。

  • GPT-3.5-Turbo 从标准数据集的 56.7% 降至 Negation 上的 39.8%
  • Gemini-Pro 从 76.2% 降至 Constituent (\(\neg E\)) 上的 47.2%

这证实了模型严重依赖捷径。当捷径 (如单词重叠) 与正确答案 (蕴含) 一致时,准确率很高。但当捷径是陷阱 (非蕴含 \(\neg E\)) 时,性能就会崩溃——通常比随机猜测还差。

5.2 “逆缩放”的意外发现

AI 界的普遍看法是“越大越好”。通常,增加参数 (从 7B 到 70B) 能解决推理问题。

然而,本文发现了一个反直觉的结果,称为逆缩放 (Inverse Scaling) 。 在零样本和少样本设置中, 较大的模型有时比较小的模型更容易陷入捷径。

为什么?因为较大的模型是更好的学习者。它们比小模型更有效地捕捉预训练数据中的虚假相关性。如果训练数据教导“not = 矛盾”,70B 模型会比 7B 模型学得更死。这需要高级提示 (如 CoT) 来解锁大模型的推理能力并克服这一点。

5.3 思维链 (CoT) 的力量

如果你再次仔细观察 表 2 , 比较“Zero-shot”块和“Zero-shot CoT”块。准确率通常显著提高。

  • Mistral-7B 在这里表现突出。通过 CoT 提示,它足以与更大的模型匹敌,这表明即使是较小的模型,如果被迫阐述其逻辑,也具有推理能力。
  • CoT 迫使模型慢下来。它不再直接跳到捷径结论 (“单词匹配!”) ,而是必须解释关系,这往往能揭示陷阱。

5.4 过度自信

LLM 最危险的一个方面是它们“自信地犯错”。研究人员将模型的置信度分数 (Confidence Scores) (模型声称的确信程度) 与其不仅准确率进行了比较。

Figure 2: Box plots of confidence scores across all datasets.

图 2 描绘了一幅令人担忧的画面。Y 轴代表置信度。注意箱线图始终很高,通常徘徊在 100% 附近 (图表顶部) 。即使在 Constituent (\(\neg E\)) 数据集 (子图 g) 中,我们知道准确率很糟糕 (有时 <20%) ,模型仍然报告高置信度。

这意味着当 LLM 使用捷径时,它并不“感觉”自己在猜测。它感到确定,因为启发式方法 (例如,“单词重叠意味着真”) 在其内部权重中是一个强信号。

5.5 被“同义反复”分心

Position 捷径测试中,研究人员在文本中添加了像“红就是红”或“上就是上”这样无意义的句子。这不应改变段落的逻辑。然而,模型经常分心。

Figure 4: An illustrative example of distraction in LLMs.

图 4 所示,模型 (GPT-3.5) 被重复的“red is red”搞糊涂了。它没有分析传说/英雄的关系,而是因为噪音得出结论说“没有逻辑联系”。

此外, 表 3 (下文) 显示模型受到信息位置的偏差影响。

Table 3: Accuracy Details for Position Shortcut.

当干扰文本位于前提的开头时,模型往往表现更差。这表明 LLM 可能过度优先考虑序列的开头,这种行为被称为“首因效应 (primacy effect) ”。


6. 错误类型

作者将推理错误分为三个不同的类别。这有助于我们理解思维过程是如何崩溃的。

1. 分心 (Distraction)

如上所述,模型关注不相关的信息 (同义反复) ,而不是核心语义关系。

2. 伪装理解 (Disguised Comprehension)

这很棘手。模型似乎理解了单词,但它偷换了概念。它可能将“医生相信经理”视为等同于“经理相信医生”。它抓住了实体,但未能跟踪它们之间的方向关系。

3. 逻辑谬误 (Logical Fallacy)

模型试图推理,但使用了有缺陷的逻辑。

Figure 7: An illustrative example of logical fallacy in LLMs.

图 7 中,模型试图将“法官认识律师”与“律师感谢演员”联系起来。它得出结论说法官认识律师。虽然这个特定的输出恰好与假设相符,但推理路径 (第 3 步: “前提暗示法官认识律师”) 通常涉及逻辑跳跃或基于子序列捷径的循环论证。


7. 更广泛的影响 (情感分析与转述)

为了证明这不仅仅是 NLI 问题,研究人员将评估扩展到了情感分析 (SA)转述识别 (PI)

Table 5: Accuracy of the SA and PI tasks.

表 5 显示了相同的模式。当在情感分析中引入否定词时,准确率下降 (蓝色高亮) 。当在转述识别中使用单词乱序 (使两个句子看起来相似但含义不同) 时,像 Gemini-Pro 这样的模型从 75.9% 降至 47.4%

图 8 进一步可视化了这一点,显示了标签分布的偏移。

Figure 8: Label distribution percentages for SA and PI tasks.

在图表 (b) 中,注意那些巨大的青色条柱了吗?那是 Negation 数据集。模型压倒性地预测“负面 (Negative) ”情感,仅仅是因为它们看到了否定词,即使句子实际上并不是负面的。


8. 结论

论文“Do LLMs Overcome Shortcut Learning?”对大型语言模型的现状进行了令人清醒的审视。虽然这些模型极其强大,但它们远非完美的推理者。

关键要点:

  1. 捷径无处不在: LLM 严重依赖单词重叠和否定线索等启发式方法,而不是深度理解。
  2. 规模不能解决一切: 更大的模型可能更容易受到捷径的影响,因为它们更有效地学习了数据集偏差。
  3. 提示很重要: 思维链 (CoT) 是目前抵御捷径学习的最佳防御措施之一,因为它迫使模型验证其自身的启发式方法。
  4. 置信度具有欺骗性: 永远不要相信 LLM 的置信度分数;当使用捷径时,它们通常自信地犯错。

这对未来意味着什么? 对于学生和从业者来说,这突显了鲁棒性评估的重要性。在标准数据集上测试模型是不够的。我们需要压力测试——比如 Shortcut Suite——以确保我们的 AI 系统真正理解世界,而不仅仅是死记硬背“作弊码”。随着我们迈向 AGI,克服这些捷径将是需要跨越的最重大障碍之一。