如果你曾尝试教一个神经网络新技巧,你可能遇到过一个令人沮丧的问题: 它常常会忘记旧的。这种现象被称为灾难性遗忘 , 是人工智能发展中的一个根本障碍。当模型学习任务 B 时,它在已掌握的任务 A 上的表现会急剧下滑——就像一个学生考前抱佛脚背历史,结果第二天把所有数学都忘了。

几十年来,研究人员一直在思考这个稳定性–可塑性困境 : 怎样才能让模型既足够稳定以保留旧知识,又足够灵活以获取新技能?多数解决方案依赖于复杂的算法,通过梯度下降不断更新模型的内部参数。

但如果还有另一种方法呢?

大型语言模型 (LLMs) 有一种非凡的能力,叫做情境学习 (In-Context Learning, ICL) 。 模型只需在输入提示中看到一些示例,就能学习新任务——无需任何参数更新。这种“仅推理”的学习方式极为强大。过去,ICL 主要被用于一次性、少样本的场景。这引发了一个令人好奇的问题: 我们能否扩展 ICL,让模型像人类一样学习一连串不同任务并把它们都记住?

最近的一篇论文 “In-Context Learning can Perform Continual Learning Like Humans” 正面迎接了这个挑战。它提出了一个全新的范式: 情境持续学习 (In-Context Continual Learning, ICCL) 。 研究者认为,持续学习可能根本不需要参数更新——只需通过精心安排和结构化输入提示,LLMs 就能自然展现出这种能力。这些发现揭示了 LLM 的记忆保持与人类记忆之间惊人的相似性,暗示了 AI 持续学习的一种认知启发式的新途径。


背景: 两种学习方式

传统方法 — 基于梯度的持续学习 (GBCL)

基于梯度的持续学习 (Gradient-Based Continual Learning, GBCL) 中,模型通过更新参数来依次学习不同任务。GBCL 的目标是减少灾难性遗忘,但必须在保留旧知识 (稳定性) 与适应新知识 (可塑性) 之间找到平衡。

GBCL 方法一般分为三类:

  1. 基于正则化的方法 (如 EWC) : 惩罚对旧任务至关重要的参数发生较大变化,从而保留先前的知识。
  2. 基于重放的方法 (如 ER) : 在学习新任务时存储并重放旧任务的示例。
  3. 基于架构的方法: 为新任务扩展或修改网络结构。

虽然这些技术在许多场景下都有效,但往往复杂、占用大量内存,并容易出现不稳定。

现代方法 — 情境学习 (ICL)

情境学习彻底改变了学习范式。你无需重新训练模型,只需在提示中向它展示若干示例。模型会推断出规律并将其直接应用于新输入。所有学习都在前向传播中完成——通过隐藏状态和注意力机制的内部动态实现——无需任何权重更新。

迄今为止,ICL 主要被视作一种快速的、单任务的适应机制。

连接两者 — 情境持续学习 (ICCL)

情境持续学习 (ICCL) 融合了两种范式的优点。ICCL 将 ICL 扩展至多任务的序列场景,只依靠提示上下文和任务排列策略,而非梯度更新或重放缓冲区。在 ICCL 中,所有“学习”都发生在推理阶段。

属性GBCLICLICCL
参数更新
更新规则梯度下降黑箱计算黑箱计算
知识载体参数上下文 / 隐藏状态上下文 / 隐藏状态
任务设置多任务单任务多任务

表1. 基于梯度的持续学习 (GBCL)、情境学习 (ICL) 与情境持续学习 (ICCL) 的比较。


核心思想: 通过上下文排列进行学习

ICCL 的秘密不在于新架构,而在于如何组织输入上下文。

假设我们有多个任务 \( \tau_1, \tau_2, \ldots, \tau_N \)。每个任务都提供一个包含输入–输出示例的简短经验片段 \( \mathcal{D}^{\tau_i} \)。ICCL 将这些示例块按特定顺序连接起来,形成历史上下文 \( \mathcal{C}_t \)。

当模型收到一个针对目标任务 \( \tau^* \) 的查询 \( x \) 时,它处理完整上下文并生成预测:

\[ \hat{p}_{\theta}(y|x, \mathcal{C}_t) = \mathcal{F}_{\theta}\left( \bigoplus_{i=1}^{N} \mathcal{D}_{\varphi_i}^{\tau_i}, x \right) \Rightarrow p_{\tau^*}(y|x) \]

示例在提示中的排列方式显著影响模型记住各任务的能力。

为了帮助模型识别上下文中不同任务片段,研究者引入了任务标识符——即简单的标记或标签 (例如 [TASK_A][TASK_B]) 置于片段前。这些轻量级提示使模型无需冗长说明即可区分任务。


从人类记忆中汲取灵感

人类认知为 ICCL 提供了启发。心理学一个最可靠的现象是间隔效应——学习分散进行时,比集中突击更能促进长期记忆。

AI 能否展现同样的规律?

研究者为提示中示例的排列设计了三种策略:

  1. 单次练习 (SP): 一个简短、连续的目标任务示例块。
  2. 集中练习 (MP): 一个较长、连续的目标任务示例块——类似考前突击。
  3. 分散练习 (DP): 目标任务与其他任务交替出现——类似间隔复习。

比较 ICCL 练习安排的图示: SP、MP 和 DP。图中用不同颜色的块表示任务标识符 (蓝色) 、目标任务经验 (绿色) 、其他任务 (橙色) 和评估 (红色) 。

图1. 历史上下文序列中不同练习安排——单次练习 (SP)、集中练习 (MP) 和分散练习 (DP)。


建模记忆: ACT-R 框架

为了用数学刻画人类的学习与遗忘过程,认知科学家提出 ACT-R 模型,根据衰减的记忆激活定义保留概率:

\[ \hat{R}(t) = \frac{1}{1 + \exp\left(-\frac{w(t) - \gamma}{s}\right)}, \quad w(t) = \ln \sum_{i=1}^{K\varphi} [\kappa \cdot (t - t_i)]^{-d} \]

其中,\( w(t) \) 表示随时间的记忆激活度,参数 \( d \)、\( s \) 和 \( \gamma \) 控制衰减、噪声和提取阈值。当将这些参数与 LLM 连续任务表现拟合时,可刻画模型的“记忆曲线”。

为比较 LLM 与人类的记忆保留特征,研究者提出指标 通过马氏距离的人类记忆相似度 (HRS-MD) 。 该指标衡量 LLM 拟合的 ACT-R 参数与人类平均值的接近程度。HRS-MD 越小,模型行为越接近人类记忆。


实验设置: 在“无意义任务”上测试 AI

实验使用了随机生成的马尔可夫链——复杂度可控、与预训练数据几乎无重叠的合成任务。这种设计能够独立评估模型的记忆保持能力,而不依赖已有知识。

研究模型包括:

  • ICCL 模型: LLaMA3-8B、DeepSeek-R1、MAMBA、RWKV-7
  • GBCL 基线: SGD、Experience Replay (ER)、Elastic Weight Consolidation (EWC)

提示分为包含与不包含任务标识符两种,任务调度采用 SP、MP、DP 三种模式。


结果: 当 AI 像人类一样学习时

1. 分散练习显著提升记忆保留

在所有 ICCL 模型中, 分散练习 (DP) 的保留能力显著高于 SP 或 MP。如图 2 所示,在 DP 模式下,即使出现干扰任务,模型性能仍保持稳定。而在 MP (集中突击) 模式下,任务切换后性能迅速下降。

折线图显示 DEEPSEEK-R1、LLAMA3-8B、RWKV-7、MAMBA、SGD、EWC 的记忆保留性能。ICCL 模型在 DP (绿色) 下的保留性能高于 SP (蓝色) 或 MP (红色) 。

图2. 不同练习安排下的记忆保留性能。ICCL 从间隔练习 (DP) 中获益,而 GBCL 方法则发生快速遗忘。

ModelTypeΔRetention over time

对比表格显示在不同干扰间隔 \\( \\varphi_D \\) 下,ICCL (LLAMA3-8B、MAMBA) 表现优于 GBCL (SGD、ER、EWC) 。

图2 (续). ICCL 模型即使在长间隔 \( \varphi_D \) 后仍保持记忆,而 GBCL 基线则明显衰退。


2. 任务标识符增强记忆

[TASK_A] 这样的简单标签能带来显著提高。如图 3 所示,使用任务标识符在所有模型和设定下都能提升保留率——尤其是在复杂任务和分散间隔时。

条形图展示使用任务标识符带来的性能提升,提升在复杂任务的 DP 条件下最为明显。

图3. 任务标识符的作用。包含标识符的 ICCL 模型在记忆保留上表现更优。


3. “间隔最佳点”

人类实验显示,记忆在适度间隔下最有效——间隔过短或过长都会降低保留。令人惊讶的是,ICCL 模型也呈现出同样规律。当研究者调整目标任务块之间的间隔 (\( \varphi_I \)) 时,性能呈钟形曲线: 在 100–400 个 token 的中等间隔下达到最佳。

条形图比较不同间隔下的平均保留性能。ICCL 模型在中等间隔处出现明显峰值;GBCL 表现相对平稳。

图4. 在不同间隔 (\( \varphi_I \)) 下,DP 模式的平均记忆保留性能。ICCL 展现出“间隔最佳点”,与人类学习模式一致。


4. 哪些模型的记忆最接近人类?

最后,研究者利用 HRS-MD 指标比较各模型的 ACT-R 参数与人类基准。结果令人意外: 线性注意力模型——MAMBARWKV-7——与人类记忆最接近,HRS-MD 值最低。Transformer 模型如 LLaMA3 虽整体性能最佳,但其记忆曲线与人类差异更大。

表格展示 ACT-R 参数与 HRS-MD 分数。MAMBA 和 RWKV-7 的 HRS-MD 值最低,表明其记忆曲线最似人类。

表3. 拟合的 ACT-R 参数与 HRS-MD 结果。线性注意力模型呈现最接近人类的记忆特征。

相比之下,GBCL 基线 (SGD、ER、EWC) 具有更高的衰减与阈值参数——反映了快速遗忘及较差的知识提取能力。


核心要点

这项工作重新定义了我们对 LLM 学习的理解:

  1. 无需训练的持续学习: ICCL 证明大型语言模型无需参数更新即可学习并保留多任务。
  2. 时间安排至关重要: 分散练习 (DP) 显著提升记忆保持,且如人类一样,间隔需适中。
  3. 任务标识符简洁而有效: 小结构提示有助于组织和区分情境记忆。
  4. 类人记忆动态: 线性注意力模型 (MAMBA、RWKV) 展现与人类相似的记忆模式。
  5. 迈向认知对齐: ICCL 是 AI 学习方式向人类认知节奏靠拢的重要一步。

结论: 迈向终身、类人化的 AI 学习

这项研究描绘了 LLM 向终身学习者演化的令人振奋的图景——无需反复训练或参数更新。只要借鉴认知科学原理,合理构建提示与学习安排,就能激活一种模仿人类记忆的学习模式。

事实证明,持续学习可能早已是现代 LLM 的涌现属性——它不藏于模型权重之中,而存在于其上下文里。

下次学习新知识时请记住: 不要死记硬背,分散学习才更有效。这对你有效——如今我们知道,对机器一样有效。