](https://deep-paper.org/en/papers/2025-10/2509.10414/images/cover.png)
抛开炒作:LLM 究竟是在学习还是在记忆?深入探讨上下文学习
像 GPT-4 这样的大型语言模型 (LLM) 展现出一种非凡的能力: 它们通常在看到少数几个示例后,就能立即执行新任务。无论是翻译句子、分类客户情绪,还是解决逻辑谜题,你只需提供一些演示,模型就能为新的、未见过的输入生成回应。这种现象被称为 上下文学习 (In-Context Learning, ICL) ——这也是让这些模型显得如此多才多艺的部分原因。 但这背后究竟发生了什么?当一个 LLM 执行 ICL 时,它是在严格的科学意义上 学习 吗?还是说,它只是在进行一种复杂的模式匹配——利用其庞大的预训练知识推断正确答案,而并未真正获得新技能?“上下文学习究竟算不算 学习?” 这个问题对于理解现代人工智能的真实能力与局限性至关重要。 最近的一篇研究论文 《上下文学习是在学习吗?》,通过迄今为止最大规模的 ICL 实证研究之一来探讨这一问题。作者们研究了多个 LLM,涵盖了不同形式化任务,并系统地测试了更改提示、数据分布以及其他因素对性能的影响。 结论是?是的,ICL 确实构成了一种学习——但它与传统机器学习中的学习截然不同。 它既有独特的优势,也存在显著的弱点。下面我们来看看研究人员发现了什么。 我们所说的“学习”是什么意思? 在机器学习理论中,学习 是 泛化 的同义词。如果一个模型在接触了来自数据分布 \(\mathcal{P}\) 的样本后,即使面对来自不同分布 \(\mathcal{Q} \neq \mathcal{P}\) 的新样本依然表现良好,我们就说这个模型“学会”了该任务。 可能近似正确 (PAC) 学习框架对这一点进行了正式描述。在 PAC 学习中,我们衡量学习器 \(f\) 在数据集 \(D\) 上的错误率: 即错误预测所占的比例。 如果一个模型在来自其他分布 \(\mathcal{Q}\) 的新数据集 \(E\) 上,有很高的概率仍能保持较低错误率,那么它就真正学会了。 简而言之,一个好的学习器即使在数据分布发生变化时,也应保持准确。 上下文学习如何融入其中? 传统的机器学习模型在训练中会根据数据更新其内部权重。而在 ICL 中,LLM 的权重保持冻结状态。相反,它们在推理阶段进行“即时”学习。训练数据就是提示中提供的示例。 LLM 的预测取决于整个上下文: 系统提示、示例和新查询。研究人员将 ICL 形式化为: 在给定提示 \(p\)、示例 \(e_i\) 和查询的情况下,找到最可能的标签 \(f(x_k)\): ...