大型语言模型 (LLM) ,如 GPT-3、LLaMA、Qwen2 和 GLM,已经彻底改变了人类与技术的交互方式。在它们的众多能力中,情境学习 (In-Context Learning, ICL) 尤为引人注目——它使模型仅通过在提示中观察少量示例就能学习执行新任务,无需再训练。这几乎像魔法一样。但如果这种“魔法”有时隐藏着一个巧妙的幻觉呢?
LLM 常常倾向于走阻力最小的路。它们不会真正掌握我们所期望的推理过程,而是找到一些看似有效但其实并不可靠的简单捷径。这种现象被称为捷径学习 (shortcut learning) ,它揭示了这些模型可能会过度拟合于浅层模式,而非真正的逻辑。这让人想起了聪明的汉斯——那匹被认为懂算术的马,其实只是对驯马师的微妙暗示做出反应。
最近的一篇综述《情境学习中的捷径学习: 一篇综述》 (Shortcut Learning in In-Context Learning: A Survey) ,为我们描绘了迄今为止关于 LLM 中这一问题的最详尽路线图。它解释了这些捷径为何出现、何种形式存在,以及研究人员如何尝试缓解它们。对任何开发或研究 AI 模型的人来说,这都是一份极具价值的指南。让我们来解读它的发现。
问题所在: 当“花”总是意味着“积极”
设想你正在教一个 LLM 对评论进行情感分类——积极或消极。你提供了以下示例:
- 评论: “花儿鲜艳的色彩让我心情愉快。” → 情感: 积极
- 评论: “花儿让我充满喜悦和期待。” → 情感: 积极
现在你给出一条新的评论:
- 评论: “枯萎的花朵让我感到悲伤。” → 情感: ?
人类会将其判断为消极。但 LLM 可能会错误地标记为积极,因为它学到了一个过于简单的关联:** “花 → 积极”**。这个捷径绕过了对情感的真实理解,而只是依赖表层线索。
如图 1 所示,模型在词语和标签之间建立了表浅的联系,这种联系在遇到新的、更微妙的示例时会失效。
这绝非小事。捷径学习削弱了模型的鲁棒性、公平性和泛化能力。它可能导致 LLM 产生幻觉、强化隐藏偏见,并输出过度自信但错误的答案。理解这些捷径——以及如何避免它们——是构建可信 AI 的关键。
理解捷径的路线图
该综述将捷径学习的整体图景进行了系统梳理,构建了一个包含类型、成因、基准和缓解策略的结构化分类体系——鸟瞰图如图 2 所示。
图 2 提供了本文与原论文所涵盖主题的高层次概览。
两种捷径: 本能捷径与习得捷径
该综述区分了两种重要类型:** 本能捷径 (instinctive shortcuts)** ——来自预训练阶段的偏见,以及习得捷径 (acquired shortcuts) ——源自模型对提示中特定示例的解读方式。
1. 本能捷径 —— LLM 的“直觉”
本能捷径是预训练过程中形成的内在偏见。它们在模型看到提示之前就已存在,并会自动地影响模型行为。作者识别了四种主要形式:
图 3 展示了 LLM 的内置偏见如何无论输入内容如何都能扭曲预测结果。
- 原生标签偏见 (Vanilla-label Bias): 模型偏好某些答案词元,仅仅因为它们更常出现。即使是无意义的标签替换也能改变预测结果——“ABC”的表现可能与“@#$”不同——这体现了表层形式竞争。
- 语境标签偏见 (Context-label Bias): LLM 对提示格式极为敏感。修改标点符号或改变演示样本顺序都可能显著影响结果。它们常偏好列表开头或结尾的选项,这属于任意位置依赖。
- 领域标签偏见 (Domain-label Bias): 模型的预训练知识可能干扰新任务。即使上下文明确说明比尔·盖茨只是访问微软,模型仍可能坚持“比尔·盖茨是微软的创始人”。
- 推理标签偏见 (Reasoning-label Bias): 在复杂的多跳推理中,LLM 可能跳过推理步骤,从输入直接跳到一个看似合理的输出,从而丢失关键中间逻辑。它可能以错误的理由得到正确答案,将糟糕的推理掩盖在看似合理的结果中。
图 4 展示了模型如何可能直接从“奥运会”跳到“亚洲”,而绕过通过“日本”的推理过程。
2. 习得捷径 —— 学到了错误的经验
习得捷径源于提示中展示的特定示例。如果这些示例包含隐藏模式或关联,LLM 通常会快速抓住这些表层规律。
图 5 展示了演示中的细微特征——词语、概念、甚至写作风格——如何成为捷径。
- 词汇 (Lexicon): 特定词语与标签之间的简单关联。例如在情感分类任务中,“花”可能总意味着积极。否定词是常见的陷阱: “Not bad” (不坏) 往往被误读为消极,因为包含“bad”。
- 概念 (Concept): 在概念层面形成的关联,比如“城市”常被视为消极情绪,而“乡村”常与积极情绪相关。
- 重叠 (Overlap): 当两个文本共享大量重叠词汇 (如在 NLI 或 QA 任务中) ,LLM 可能仅凭重叠程度而非语义推断关系。
- 位置 (Position): 模型依赖答案所在的位置而非内容。如果所有示例的答案都位于段首,它就会机械地在那里寻找答案。
- 文本风格 (Text Style): 文体特征成为预测线索。如果所有华丽、莎士比亚风格的句子对应同一标签,模型便可能将风格与情感相关联。
- 群体动态 (Group Dynamics): 示例的整体构成会影响预测。如果提示中大多数样本为积极,模型往往过度预测积极。这类似于A-非-B 错误——重复暴露会造成选择偏差。
图 6 阐明了基于位置的偏见与基于语境的偏见之间的区别。
为什么 LLM 会走捷径?
该综述指出了导致捷径学习的三大根源:
LLM 训练阶段:
- *预训练数据: * 海量数据集中存在强烈的共现模式与频率偏差。高频词往往主导预测结果。
- *指令微调: * 微调过程可能在任务指令与目标答案之间形成虚假关联。
偏斜的示例:
提示中失衡或有误的样例会直接导致习得捷径。模型会模仿它看到的任何表层规律。模型规模:
出人意料地,更大的模型可能更容易依赖捷径。因为它们更善于捕捉并过度拟合微小相关性。更大并不一定更聪明。
发现捷径: 基准与评估
研究人员通常通过系统性地扰动输入并测量性能变化来检测捷径学习。许多研究基于现有 NLP 数据集,但在其中注入捷径触发因素——例如添加不相关词元、打乱选项顺序或固定答案位置等。
常见的基准包括:
- Shortcut Maze – 文本分类任务,用于测试词汇和概念类捷径。
- Shortcut Suite – 面向 NLI 的基准集,研究词汇、重叠和位置效应。
- ShortcutQA – 问答基准,通过调整答案位置或实体重叠来评估捷径影响。
图 7 (论文中的表 1) 展示了各类捷径与不同 NLP 任务之间的对应关系。
评估指标不仅考虑准确率,还衡量模型的敏感性:
- 波动率 (Fluctuation Rate): 定量测量扰动后预测结果的变化幅度。
- 冲突率 (Conflict Rate): 评估捷径导致预测冲突的比例。
- 捷径选择率 (Shortcut Selection Ratio): 表明模型在违背正确推理时仍坚持使用捷径的频率。
如何修复捷径学习
如何引导 LLM 实现真正的推理?该综述将缓解策略分为三类互补的方法。
图 8 总结了三大类捷径缓解技术。
1. 以数据为中心的方法
提升数据质量,以减少捷径暴露。常见方法包括:
- 重采样与过滤 (Resampling and Filtering): 移除高共现概率样本,打破虚假模式。
- 反事实增强 (Counterfactual Augmentation): 生成颠倒捷径关系的合成数据,并在平衡样本上重新训练模型。
虽然这些方法有效,但重新训练大型 LLM 成本极高,且存在灾难性遗忘风险,因此更多用于较小模型。
2. 以模型为中心的方法
无需完全重新训练,而通过修改模型或预测分布来去偏。
- 模型剪枝 (Model Pruning): 找出与捷径行为相关的神经元并禁用,促使模型探索更合理的推理路径。
- 校准 (Calibration): 调整预测概率以消除偏差。
- *上下文校准 (Contextual Calibration): * 通过提供“无内容”提示 (如“N/A”) 来检测偏差并校正偏移。
- 高级版本包括 Prototypical、Domain-context、Batch 和 Generative Calibration,均用于重新估计偏差并调整分布。
- NOISYICL 则向模型参数添加受控噪声,以抑制过度自信的预测。
3. 以提示为中心的方法
对日常用户而言最易操作——调整提示编写方式。
- 基于捷径的方法 (Shortcut-based Methods): 掩盖或替换已知的捷径触发器,以逼迫模型进行真实推理。
- 基于指令格式的方法 (Instruction Format-based Methods): 随机化示例顺序与选项位置;采用多数投票或分步推理指令 (思维链,Chain-of-Thought) 。
- 基于提示搜索的方法 (Prompt Search-based Methods): 自动生成并筛选具有稳定、低困惑度预测的提示版本,利用检索增强或基于熵的度量以发现无偏演示。
前路展望: 开放问题与未来方向
作者提出了几个值得关注的研究前沿:
- 更鲁棒的评估基准: 避免数据偏见和任务污染——模型甚至可在测试集里利用捷径。
- 新的捷径相关任务: 将研究扩展到更复杂的场景,如表格问答与序列规划。
- 更高可解释性: 找出捷径在模型推理管道中出现的具体位置和机制。
- 未知捷径发现: 不再只关注已知类型,发展自动检测框架。
- 解耦本能与习得捷径: 弄清预训练偏见与提示诱发偏见的交互。
- 多捷径共存: 理解消除一种捷径可能放大另一种的“打地鼠”困境。
结论
捷径学习不仅是学术上的趣题,它是真正阻碍可靠 AI 推理的核心挑战。赋予情境学习强大灵活性的机制,也让 LLM 易陷入浅层模式匹配。
通过系统分类捷径类型、解析其根源并综述各类缓解策略,《情境学习中的捷径学习: 一篇综述》为应对这一挑战提供了坚实基础。它呼吁 AI 社区不止追求准确率,而要迈向真实、可解释的学习。
下次当你的聊天机器人给出完美答案时,请停下来问一句:** 它真的理解了吗——还是仅仅走了捷径?**