LLM 如何实现“现学现卖”？深入解析上下文学习

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 有一种看似神奇的能力: 在提示中只需展示几个任务范例——比如两个带标签的句子或几段代码——它们就能立即在新的数据上执行该任务。
这种能力被称为 上下文学习 (In-Context Learning，ICL) ，它让模型无需更新任何底层权重，仅凭少量演示就能完成语言翻译、情感分析，甚至算法编写。

但这究竟是如何运作的？模型真的像人类学生一样从这几个例子中学习了一项新技能吗？
还是它只是在识别一个早已在海量预训练中掌握的模式，而这些例子只是起到提示作用？
这个问题是当今人工智能研究中最大的谜团之一。

最近的一篇综述论文《近期理解上下文学习的进展综述》 (A Survey to Recent Progress Towards Understanding In-Context Learning) 为解开这一谜题提供了清晰的路线图。
作者提出了一个统一的 数据生成视角，将近期的研究工作归纳为两种基本能力:** 技能识别 (Skill Recognition)** 和 技能学习 (Skill Learning) 。

在本文中，我们将探讨他们的见解，以更直观地理解当 LLM “现学现卖”时，其黑箱内部究竟发生了什么。

上下文学习究竟是什么？

在我们深入之前，先来明确一下 ICL 的含义。
上下文学习指的是向 LLM 提供一个包含少量范例 (称为演示) 的提示，这些范例展示了某种输入-输出关系。接着，模型利用这些范例来预测一个新查询输入的输出。

情感分析的上下文学习示例，展示了几个带标签的范例 (“Wonderful food!” → “Positive”，“The Beef is overcooked.” → “Negative”) ，以及一个需要模型完成的新查询 (“Fruits taste great.”) 。

图 1. 情感分析的上下文学习示例。上半部分是带标签的演示；最下面一行是需要模型推断情感的新查询。

如上图所示，模型得到了一些输入-输出示例对，并必须为新的评论 “Fruits taste great.” 推断出情感标签。
关键在于: 我们没有对模型进行微调，也没有改变它的参数。这种表观上的“学习”完全是在这单个提示的上下文中发生的。

该论文的核心思想是通过 数据生成 的视角来解释这一现象。
每个任务——无论是情感分类、翻译还是推理——都可以看作遵循一个特定规则或 数据生成函数，该函数将输入映射到输出。
在 预训练 期间，LLM 从数十亿个文本序列中学习了庞大的此类函数库。
在 ICL 推理 阶段，模型利用提示中的演示来判断哪个函数最能解释这些范例，然后将该函数应用到查询上。

ICL 的两面性: 技能识别 vs. 技能学习

从数据生成的角度出发，论文定义了两种互补的能力:

技能识别 —— LLM 像一位专业的档案管理员。它在预训练期间内化了无数的数据生成函数。当给定几个范例时，它识别出哪个已知函数与该模式匹配，并检索相关行为。它不是在学习新知识，而是在识别一个已有并合适的知识。
技能学习 —— 模型表现得像一个速成学生。它利用少量范例构建一个以前从未见过的新函数，并立即应用。演示被视为一个用于即时泛化的小型训练集。

理解 LLM 何时以及如何在这两种模式之间切换，有助于揭示上下文中“学习”的真正含义。

深入探讨 1: 作为贝叶斯推断的技能识别

对技能识别最广为接受的解释是，LLM 在执行 隐式贝叶斯推断。
直觉是: 在预训练中获得了许多可能的假设 (技能或概念) 后，模型必须推断出哪一个最能解释提示中的范例。

数学形式化如下:

\[ p(y|\text{prompt}) = \int_{\text{concept}} p(y|\text{concept, prompt})\,p(\text{concept}|\text{prompt})\,d(\text{concept}) \]

各项含义如下:

$p(y|\text{prompt})$: 在给定提示的情况下生成输出 y 的概率；
concept: 一个潜变量，代表预学到的数据生成函数 (例如，“情感分析”或“翻译”) ；
$p(\text{concept}|\text{prompt})$: 模型认为某个概念可以解释演示的置信度；
$p(y|\text{concept, prompt})$: 在给定该概念时输出 y 的可能性。

在实践中，模型看到类似“评论: … 情感: …”的模式，就会在内部激活“情感分析”这一概念，并应用它在预训练中学到的映射。

研究者使用隐马尔可夫模型 (Hidden Markov Models, HMMs) 或潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA) 主题等工具表示这些潜在概念。
这一贝叶斯视角优雅地解释了 LLM 如何在没有显式参数更新的情况下检索到相关生成函数。
其局限在于，当 ICL 提示的结构化输入-标签格式与模型的预训练数据分布不一致时，表现可能受限——但理论与实验表明，只要范例足够多，模型通常能可靠地找到正确概念。

深入探讨 2: 作为函数学习的技能学习

当任务无法关联到任何已知的预训练概念——也就是说遇到真正新颖的任务时，会发生什么？
这时我们转向 函数学习框架，该框架模拟了 LLM 从零开始形成新的输入-输出关系的能力。

在此设置中，研究者直接在合成数据上训练 Transformer，目标是教模型学习本身，而不仅仅是预测下一个词元。
训练目标可概括为输入序列和目标函数 $f$ 上的期望:

$函数学习框架示意图，展示输入与标签、Transformer 模型，以及衡量模型在给定先前上下文对的情况下预测新输入 \$f(x_i)\$ 表现的损失函数。$

图 2. 函数学习目标: Transformer 学习根据同一提示中先前的输入-输出对来预测新样本的 $f(x_i)$。

简单来说: 针对许多不同的函数 $f$，模型看到多个 $(x, f(x))$ 范例。然后，给定新的 $x_i$，它必须预测 $f(x_i)$。
通过跨多种函数类别 (如线性回归、决策树或小型神经网络) 进行训练，Transformer 逐渐学会了如何学习。

Transformer 真的能学习新函数吗？

令人惊讶的是，答案是肯定的——但存在限制。
实验表明，Transformer 可以从熟悉的函数族中近似出新的函数。
例如，一个在大量线性函数上预训练的模型，仅凭几个上下文示例就能迅速推断出一个新的线性函数。
然而，若给它一个二次映射，它就会失败；这表明学习能力受限于预训练时的函数类别。
因此，ICL 并非随意的魔法，而是植根于先前学到的模式族。

ICL 的内部机制

一次前向传播如何能模拟学习过程？
理论提出 Transformer 的 注意力机制 可能隐式地实现 类梯度下降优化。

在预训练过程中，控制注意力的矩阵——$W_Q$、$W_K$ 和 $W_V$——被塑形为: 当通过它们处理范例时，生成的内部激活等价于权重被更新。
即使没有任何梯度步骤，其计算过程也像是在前向传播中完成了微调。

研究人员已在简化、线性化的 Transformer 模型中从数学上证明了这种对应关系。
随着架构和规模增长，涌现行为出现: 大型模型开始能在一次前向传播中准确近似封闭形式的回归解。
这类研究模糊了推理与学习的边界，暗示 ICL 或许确实是一个隐式运行的、由学习获得的优化器。

LLM 何时“学习”与“识别”？

现实世界中的行为似乎是这两种能力的融合。
哪种机制占主导取决于任务的难度和清晰度。

一个常见测试方法是提供 损坏的演示 ——即带有故意错误标签的范例:

当性能骤降时，说明模型依赖 技能学习；它尝试学习错误映射并失败。
当性能稳定时，说明模型采用 技能识别；它忽略噪声标签，从预训练中回忆真实模式。

实证研究发现，**简单、结构化的任务 **(如算术或基础映射) 倾向于触发技能学习；而 **复杂、抽象的任务 **(如推理或组合) 则更依赖技能识别。

按技能识别 (SR) 或技能学习 (SL) 分类的研究论文汇总表，列出了分析视角、数据生成函数和核心特征。

图 3. 按能力类型、分析框架和研究行为分类的上下文学习代表性工作。

更广阔的前景与未来方向

“识别-学习”框架为许多关于 LLM 的悬而未决问题提供了新视角。

涌现之谜。
技能学习似乎只有当模型规模超过某个阈值 (通常为数百亿参数) 时才会出现。
为什么会发生这种突然的阶段转变？“归纳头” (induction heads) 等结构特征又是如何支持这一变化的？
技能组合。
像 *思维链 *(Chain-of-Thought, CoT) 这样的高级提示技术揭示了第三种能力: 通过中间推理步骤，组合多种已学技能解决复杂问题。
探究技能组合机制可能有助于统一推理、规划与知识综合的研究路径。
桥接理论与实践。
目前的大多数理论分析将 Transformer 简化为线性模型并使用合成数据。
在万亿级词元、真实世界训练场景中验证这些机制，仍是未来研究的重要挑战与机遇。

结论

上下文学习的神秘面纱正逐渐被系统化理解所揭开。
通过 数据生成视角 来分析，并区分 技能识别 与 技能学习，我们获得了一个清晰的框架来理解 LLM 在提示内部的行为。

ICL 并非单一现象，而是动态的相互作用:

有时是对预训练中熟悉结构的识别，
有时是通过隐式优化产生的新映射。

随着研究持续完善这些框架并在大规模模型中验证，我们将更接近设计出学习方式更忠实、更可靠、更透明的 AI 系统——从而弥合“上下文学习”看似神奇的现象与支撑其背后的科学原理之间的鸿沟。

上下文学习究竟是什么？#

ICL 的两面性: 技能识别 vs. 技能学习#

深入探讨 1: 作为贝叶斯推断的技能识别#

深入探讨 2: 作为函数学习的技能学习#

Transformer 真的能学习新函数吗？#

ICL 的内部机制#

LLM 何时“学习”与“识别”？#

更广阔的前景与未来方向#

结论#