大语言模型能像我们一样持续学习吗？深入探讨情境持续学习

如果你曾尝试教一个神经网络新技巧，你可能遇到过一个令人沮丧的问题: 它常常会忘记旧的。这种现象被称为灾难性遗忘 , 是人工智能发展中的一个根本障碍。当模型学习任务 B 时，它在已掌握的任务 A 上的表现会急剧下滑——就像一个学生考前抱佛脚背历史，结果第二天把所有数学都忘了。

几十年来，研究人员一直在思考这个稳定性–可塑性困境 : 怎样才能让模型既足够稳定以保留旧知识，又足够灵活以获取新技能？多数解决方案依赖于复杂的算法，通过梯度下降不断更新模型的内部参数。

但如果还有另一种方法呢？

大型语言模型 (LLMs) 有一种非凡的能力，叫做情境学习 (In-Context Learning, ICL) 。模型只需在输入提示中看到一些示例，就能学习新任务——无需任何参数更新。这种“仅推理”的学习方式极为强大。过去，ICL 主要被用于一次性、少样本的场景。这引发了一个令人好奇的问题: 我们能否扩展 ICL，让模型像人类一样学习一连串不同任务并把它们都记住？

最近的一篇论文 “In-Context Learning can Perform Continual Learning Like Humans” 正面迎接了这个挑战。它提出了一个全新的范式: 情境持续学习 (In-Context Continual Learning, ICCL) 。研究者认为，持续学习可能根本不需要参数更新——只需通过精心安排和结构化输入提示，LLMs 就能自然展现出这种能力。这些发现揭示了 LLM 的记忆保持与人类记忆之间惊人的相似性，暗示了 AI 持续学习的一种认知启发式的新途径。

背景: 两种学习方式

传统方法 — 基于梯度的持续学习 (GBCL)

在基于梯度的持续学习 (Gradient-Based Continual Learning, GBCL) 中，模型通过更新参数来依次学习不同任务。GBCL 的目标是减少灾难性遗忘，但必须在保留旧知识 (稳定性) 与适应新知识 (可塑性) 之间找到平衡。

GBCL 方法一般分为三类:

基于正则化的方法 (如 EWC) : 惩罚对旧任务至关重要的参数发生较大变化，从而保留先前的知识。
基于重放的方法 (如 ER) : 在学习新任务时存储并重放旧任务的示例。
基于架构的方法: 为新任务扩展或修改网络结构。

虽然这些技术在许多场景下都有效，但往往复杂、占用大量内存，并容易出现不稳定。

现代方法 — 情境学习 (ICL)

情境学习彻底改变了学习范式。你无需重新训练模型，只需在提示中向它展示若干示例。模型会推断出规律并将其直接应用于新输入。所有学习都在前向传播中完成——通过隐藏状态和注意力机制的内部动态实现——无需任何权重更新。

迄今为止，ICL 主要被视作一种快速的、单任务的适应机制。

连接两者 — 情境持续学习 (ICCL)

情境持续学习 (ICCL) 融合了两种范式的优点。ICCL 将 ICL 扩展至多任务的序列场景，只依靠提示上下文和任务排列策略，而非梯度更新或重放缓冲区。在 ICCL 中，所有“学习”都发生在推理阶段。

属性	GBCL	ICL	ICCL
参数更新	是	否	否
更新规则	梯度下降	黑箱计算	黑箱计算
知识载体	参数	上下文 / 隐藏状态	上下文 / 隐藏状态
任务设置	多任务	单任务	多任务

表1. 基于梯度的持续学习 (GBCL)、情境学习 (ICL) 与情境持续学习 (ICCL) 的比较。

核心思想: 通过上下文排列进行学习

ICCL 的秘密不在于新架构，而在于如何组织输入上下文。

假设我们有多个任务 $ \tau_1, \tau_2, \ldots, \tau_N $。每个任务都提供一个包含输入–输出示例的简短经验片段 $ \mathcal{D}^{\tau_i} $。ICCL 将这些示例块按特定顺序连接起来，形成历史上下文 $ \mathcal{C}_t $。

当模型收到一个针对目标任务 $ \tau^* $ 的查询 $ x $ 时，它处理完整上下文并生成预测:

\[ \hat{p}_{\theta}(y|x, \mathcal{C}_t) = \mathcal{F}_{\theta}\left( \bigoplus_{i=1}^{N} \mathcal{D}_{\varphi_i}^{\tau_i}, x \right) \Rightarrow p_{\tau^*}(y|x) \]

示例在提示中的排列方式显著影响模型记住各任务的能力。

为了帮助模型识别上下文中不同任务片段，研究者引入了任务标识符——即简单的标记或标签 (例如 [TASK_A]、[TASK_B]) 置于片段前。这些轻量级提示使模型无需冗长说明即可区分任务。

从人类记忆中汲取灵感

人类认知为 ICCL 提供了启发。心理学一个最可靠的现象是间隔效应——学习分散进行时，比集中突击更能促进长期记忆。

AI 能否展现同样的规律？

研究者为提示中示例的排列设计了三种策略:

单次练习 (SP): 一个简短、连续的目标任务示例块。
集中练习 (MP): 一个较长、连续的目标任务示例块——类似考前突击。
分散练习 (DP): 目标任务与其他任务交替出现——类似间隔复习。

比较 ICCL 练习安排的图示: SP、MP 和 DP。图中用不同颜色的块表示任务标识符 (蓝色) 、目标任务经验 (绿色) 、其他任务 (橙色) 和评估 (红色) 。

图1. 历史上下文序列中不同练习安排——单次练习 (SP)、集中练习 (MP) 和分散练习 (DP)。

建模记忆: ACT-R 框架

为了用数学刻画人类的学习与遗忘过程，认知科学家提出 ACT-R 模型，根据衰减的记忆激活定义保留概率:

\[ \hat{R}(t) = \frac{1}{1 + \exp\left(-\frac{w(t) - \gamma}{s}\right)}, \quad w(t) = \ln \sum_{i=1}^{K\varphi} [\kappa \cdot (t - t_i)]^{-d} \]

其中，$ w(t) $ 表示随时间的记忆激活度，参数 $ d $、$ s $ 和 $ \gamma $ 控制衰减、噪声和提取阈值。当将这些参数与 LLM 连续任务表现拟合时，可刻画模型的“记忆曲线”。

为比较 LLM 与人类的记忆保留特征，研究者提出指标 通过马氏距离的人类记忆相似度 (HRS-MD) 。该指标衡量 LLM 拟合的 ACT-R 参数与人类平均值的接近程度。HRS-MD 越小，模型行为越接近人类记忆。

实验设置: 在“无意义任务”上测试 AI

实验使用了随机生成的马尔可夫链——复杂度可控、与预训练数据几乎无重叠的合成任务。这种设计能够独立评估模型的记忆保持能力，而不依赖已有知识。

研究模型包括:

ICCL 模型: LLaMA3-8B、DeepSeek-R1、MAMBA、RWKV-7
GBCL 基线: SGD、Experience Replay (ER)、Elastic Weight Consolidation (EWC)

提示分为包含与不包含任务标识符两种，任务调度采用 SP、MP、DP 三种模式。

结果: 当 AI 像人类一样学习时

1. 分散练习显著提升记忆保留

在所有 ICCL 模型中, 分散练习 (DP) 的保留能力显著高于 SP 或 MP。如图 2 所示，在 DP 模式下，即使出现干扰任务，模型性能仍保持稳定。而在 MP (集中突击) 模式下，任务切换后性能迅速下降。

折线图显示 DEEPSEEK-R1、LLAMA3-8B、RWKV-7、MAMBA、SGD、EWC 的记忆保留性能。ICCL 模型在 DP (绿色) 下的保留性能高于 SP (蓝色) 或 MP (红色) 。

图2. 不同练习安排下的记忆保留性能。ICCL 从间隔练习 (DP) 中获益，而 GBCL 方法则发生快速遗忘。

Model	Type	ΔRetention over time

$对比表格显示在不同干扰间隔 \$ \\varphi_D \$ 下，ICCL (LLAMA3-8B、MAMBA) 表现优于 GBCL (SGD、ER、EWC) 。$

图2 (续). ICCL 模型即使在长间隔 $ \varphi_D $ 后仍保持记忆，而 GBCL 基线则明显衰退。

2. 任务标识符增强记忆

像 [TASK_A] 这样的简单标签能带来显著提高。如图 3 所示，使用任务标识符在所有模型和设定下都能提升保留率——尤其是在复杂任务和分散间隔时。

条形图展示使用任务标识符带来的性能提升，提升在复杂任务的 DP 条件下最为明显。

图3. 任务标识符的作用。包含标识符的 ICCL 模型在记忆保留上表现更优。

3. “间隔最佳点”

人类实验显示，记忆在适度间隔下最有效——间隔过短或过长都会降低保留。令人惊讶的是，ICCL 模型也呈现出同样规律。当研究者调整目标任务块之间的间隔 ($ \varphi_I $) 时，性能呈钟形曲线: 在 100–400 个 token 的中等间隔下达到最佳。

条形图比较不同间隔下的平均保留性能。ICCL 模型在中等间隔处出现明显峰值；GBCL 表现相对平稳。

图4. 在不同间隔 ($ \varphi_I $) 下，DP 模式的平均记忆保留性能。ICCL 展现出“间隔最佳点”，与人类学习模式一致。

4. 哪些模型的记忆最接近人类？

最后，研究者利用 HRS-MD 指标比较各模型的 ACT-R 参数与人类基准。结果令人意外: 线性注意力模型——MAMBA 和 RWKV-7——与人类记忆最接近，HRS-MD 值最低。Transformer 模型如 LLaMA3 虽整体性能最佳，但其记忆曲线与人类差异更大。

表格展示 ACT-R 参数与 HRS-MD 分数。MAMBA 和 RWKV-7 的 HRS-MD 值最低，表明其记忆曲线最似人类。

表3. 拟合的 ACT-R 参数与 HRS-MD 结果。线性注意力模型呈现最接近人类的记忆特征。

相比之下，GBCL 基线 (SGD、ER、EWC) 具有更高的衰减与阈值参数——反映了快速遗忘及较差的知识提取能力。

核心要点

这项工作重新定义了我们对 LLM 学习的理解:

无需训练的持续学习: ICCL 证明大型语言模型无需参数更新即可学习并保留多任务。
时间安排至关重要: 分散练习 (DP) 显著提升记忆保持，且如人类一样，间隔需适中。
任务标识符简洁而有效: 小结构提示有助于组织和区分情境记忆。
类人记忆动态: 线性注意力模型 (MAMBA、RWKV) 展现与人类相似的记忆模式。
迈向认知对齐: ICCL 是 AI 学习方式向人类认知节奏靠拢的重要一步。

结论: 迈向终身、类人化的 AI 学习

这项研究描绘了 LLM 向终身学习者演化的令人振奋的图景——无需反复训练或参数更新。只要借鉴认知科学原理，合理构建提示与学习安排，就能激活一种模仿人类记忆的学习模式。

事实证明，持续学习可能早已是现代 LLM 的涌现属性——它不藏于模型权重之中，而存在于其上下文里。

下次学习新知识时请记住: 不要死记硬背，分散学习才更有效。这对你有效——如今我们知道，对机器一样有效。

背景: 两种学习方式#

传统方法 — 基于梯度的持续学习 (GBCL)#

现代方法 — 情境学习 (ICL)#

连接两者 — 情境持续学习 (ICCL)#

核心思想: 通过上下文排列进行学习#

从人类记忆中汲取灵感#

建模记忆: ACT-R 框架#

实验设置: 在“无意义任务”上测试 AI#

结果: 当 AI 像人类一样学习时#

1. 分散练习显著提升记忆保留#

2. 任务标识符增强记忆#

3. “间隔最佳点”#

4. 哪些模型的记忆最接近人类？#

核心要点#

结论: 迈向终身、类人化的 AI 学习#