想象一下教一个学生一系列科目: 先学数学,再学物理,最后学化学。理想情况下,学生会利用数学知识更快地掌握物理,然后再用前两门的知识理解化学。但如果学习化学让他完全忘记了代数公式呢?
这就是机器学习中被称为灾难性遗忘的核心挑战,也是打造真正智能、适应性强的 AI 系统的主要障碍。
这种学习范式——模型按序学习多个任务,而无法访问全部旧数据——被称为持续学习 (Continual Learning, CL) 。 多年来,研究者们提出了各种巧妙的技巧,通过经验实验来缓解灾难性遗忘。然而,对于遗忘为何发生,以及不同因素如何影响遗忘的深层机制,始终缺乏清晰的理论解释。
最近的一篇论文 《持续学习中的遗忘与泛化理论》 (Theory on Forgetting and Generalization of Continual Learning),在建立这一理论基础方面迈出了重要一步。研究者们深入探讨了 CL 的数学原理,首次推导出了两个关键指标的显式公式: 遗忘和泛化误差 。 通过分析这些公式,他们揭示了模型规模、任务相似性甚至任务顺序对持续学习性能的影响。
在这篇文章中,我们将解析他们的框架,剖析核心数学结果,并讨论这些发现对深度学习实践的意义。无论你是学生还是研究者,这项工作都提供了一个理解 AI 持续学习挑战的新视角。
背景介绍: 持续学习的全景
在进入理论之前,让我们简要回顾基础。持续学习的目标是在一系列任务 \(T = \{1, 2, ..., T\}\) 上训练同一个模型。一个成功的持续学习智能体应当:
- 有效地学习新任务
- 避免灾难性遗忘旧任务
- 实现知识迁移 , 即利用过往任务促进未来学习 (前向迁移) ,甚至用新知识改进旧任务 (后向迁移)
常见方法主要分为三类:
- 基于正则化的方法: 惩罚对旧任务关键权重的变化。
- 参数隔离的方法: 为不同任务分配网络的不同部分,常通过冻结旧权重或扩展模型容量实现。
- 基于记忆的方法: 存储旧任务的样本或梯度,用于重放或投影训练,避免遗忘。
尽管这些方法有效,但更像是在给漏水的堤坝补缝。我们真正缺少的是一个能解释漏水源头的理论。
作者通过在简化的线性设置下分析 CL 取得了进展——这种方法常用于提炼可推广到深度神经网络 (DNN) 的普适性见解。他们还将分析与现代机器学习中的良性过拟合现象联系: 即使模型参数远多于样本 (高度过参数化) ,它仍能在完美记忆数据的同时实现良好泛化。本研究将该问题从单任务扩展到了顺序任务的持续学习情境。
理论试验场: 线性模型中的持续学习
为了建立严谨的理论,作者使用了过参数化线性模型——一种简单而强大的系统,它能反映大型神经网络的数学行为。
真实情况
每个任务 \(t\) 的输入特征 \(\boldsymbol{x}_t\) 与输出 \(y_t\) 之间存在线性关系,并带有随机噪声 \(z_t\):

每个任务都有一个线性“真实模型”,由特征映射和真实权重向量 \(\boldsymbol{w}_t^*\) 定义。
这里,\(\boldsymbol{w}_t^*\) 表示真实权重,\(p\) 是模型的总参数数。
学习过程
模型按顺序学习各个任务——从 \(\boldsymbol{w}_0 = \boldsymbol{0}\) 开始。学习任务 1 得到 \(\boldsymbol{w}_1\),再用它初始化任务 2,以此类推。这种顺序更新方式自然地模拟了持续学习。
在过参数化场景 (\(p > n\),即参数多于样本) 下,存在无限多个能完美拟合数据的解。模型选择那个与前一个解距离最近的解 , 即在确保零误差的同时最小化权重变化:

在每个任务中,模型寻找变化最小的完美拟合解——与随机梯度下降 (SGD) 的隐式动态一致。
这一最小 \(\ell_2\) 范数解体现了 SGD 的隐式偏置,确保理论与实际神经训练相符。
性能评估
衡量模型学习质量的两个关键指标是:
- 遗忘 (\(F_T\)) ——在学习完所有 \(T\) 个任务后,早期任务性能下降的幅度。

遗忘衡量的是完成所有任务后旧任务测试误差的增加量。
- 总体泛化误差 (\(G_T\)) ——最终模型在所有任务上的平均表现。

泛化误差衡量最终模型与各任务真实模型间的差距。
测试误差 \(\mathcal{L}_i(\boldsymbol{w}) = \|\boldsymbol{w} - \boldsymbol{w}_i^*\|^2\) 提供了一个一致的性能度量,无论任务间是否相关或差异明显。
核心成果: 遗忘与泛化的显式公式
建立模型设定后,作者推导出了核心结果——两种指标的闭式期望公式。
定义过参数化比率为 \(r = 1 - \frac{n}{p}\)。当 \(p > n\) 时,\(r\) 取值在 0 到 1 之间,表示模型过参数化的程度。
他们得到如下理论公式:

期望遗忘 \(\mathbb{E}[F_T]\) 由模型容量、任务相似度和噪声三部分共同决定。

期望泛化误差 \(\mathbb{E}[G_T]\) 分解为任务相关性效应与由过参数化比率加权的噪声项之和。
这些公式表明,性能取决于:
- 过参数化程度 (\(r\)): 决定了旧知识的保留程度。
- 任务相似度 (\(\|\boldsymbol{w}_i^* - \boldsymbol{w}_j^*\|^2\)): 任务真实模型之间的差距。
- 噪声 (\(\sigma^2\)): 引入不确定性并扩大误差。
- 任务顺序索引 (\(i, j, T\)): 影响遗忘与泛化的任务学习次序因素。
作者通过理论曲线与模拟结果对比验证了其精确性。

图 1: 理论预测 (线条) 与模拟结果 (点) 高度吻合,在不同模型规模和噪声水平下均表现出优异的一致性。
在两个任务的情况下,公式可进一步简化:

当 \(T=2\) 时,公式化简后更加直观,展示了其对噪声、相似度及模型规模的依赖关系。
当任务差异较大且数据噪声较强时,遗忘随之增长,而更大的模型则能有效抵消这些影响。
数学启示: 三大关键洞见
显式公式让理论转化为洞见。数学分析揭示了以下三点重要结论。
洞见 1: 过参数化是一把双刃剑
增加参数数量 \(p\) 对持续学习影响深远:
- 更多参数可减轻遗忘。 随着 \(p \to \infty\) (即 \(r \to 1\)) ,期望遗忘 \(\mathbb{E}[F_T]\) 趋近于零。大型模型能在非重叠的特征子空间中分配知识,更好地保存记忆。
- 持续学习中出现良性过拟合。 类似于标准训练中的“双下降”曲线,图 1(d) 显示泛化误差在 \(p \approx n\) 附近上升,在过参数化区域又下降。过拟合变得良性,尤其在噪声大或任务差异显著的情形下。
- 出现下降平台。 当任务高度相似且噪声较小时,增加参数带来的收益趋于饱和。部分误差项会随 \(p\) 增大而增加,形成平滑的性能“平台”。
洞见 2: 任务相似性的微妙作用
学习相似任务一定更容易吗?答案是否定的。
- 对于泛化 , 是的——任务越相似,误差越小。
- 对于遗忘 , 则未必——在多任务序列 (\(T>2\)) 中,该趋势被打破。
作者发现,当早期任务不那么相似时,反而能减少遗忘。原因在于: 学习不相似任务会促使模型探索更广的特征空间,为后续任务提供更稳健的基础,从而避免覆盖旧知识。
洞见 3: 任务排序的学问
任务的学习顺序会显著影响表现。
- 减少遗忘: 模型应在早期阶段学习相邻的、不相似的任务。遗忘公式中的系数表明,早期的多样化任务间干扰更弱。
- 交替式课程: 当任务属于不同类别 (如 \(C_1, C_2\)) ,最优顺序是交替进行: \((C_1, C_2, C_1, C_2, ...)\)。这种多样性有助于保留共享特征。
- 权衡关系: 降低遗忘的最佳顺序未必最利于总体泛化。有时先学习最具特色的任务有助于泛化,而交替式任务训练则更有利于记忆保持。
从理论到实践: 深度网络验证
这些理论洞见在现实中是否成立?作者通过深度神经网络在真实数据集上进行了验证。
他们在 MNIST 数据集上实验,用数字类别子集定义任务 (如分类 {0,1,2} 与 {3,4,5}) ,类别重叠程度用于控制任务相似性。

图 2: 理论模式在实践中得到验证。(a) 两任务时,相似度越高遗忘越少。(b) 四任务时,相似度反而增加遗忘。(c, d) 早期多样化与交替排序可最小化遗忘。
主要发现:
- 两任务时,相似度增加减少遗忘——与理论一致。
- 四任务时,早期任务相似度增加反而加重遗忘——符合非单调预测。
- 若一系列相似任务中存在一个“特殊”任务,提前训练它可最小化遗忘。
- 与分组任务相比,交替任务顺序始终带来更低的遗忘。
将理论转化为算法: 强化最新知识
好的理论应能启发更好的算法设计。 作者指出,较新任务对前向迁移的贡献更大。基于此,他们提出了 TRGP+ , 这是 TRGP 持续学习算法的一个改进版本,通过更高权重强调最近任务。
修改虽简单却有效——旧任务影响减弱,新任务影响增强。

表 1: TRGP+ 实现更高准确率与更低遗忘 (以 BWT 衡量) 。为近期的相关任务赋予更高权重,可提升前向与后向知识迁移。
| 方法 | PMNIST 准确率(%) | PMNIST BWT(%) | Split CIFAR-100 准确率(%) | Split CIFAR-100 BWT(%) |
|---|---|---|---|---|
| TRGP | 96.34 | -0.8 | 74.46 | -0.9 |
| TRGP+ | 96.75 | -0.46 | 75.31 | 0.13 |
这一简单调整——对近期相关任务给予更多关注——直接源于理论分析,展现了数学洞察如何驱动现实性能的提升。
结论: 终身学习的新基础
*《持续学习中的遗忘与泛化理论》*为理解并改进 AI 中的终身学习奠定了关键的理论基础。
主要结论:
- 过参数化有助而无害: 更大的模型遗忘更少。
- 任务相似度并非总是优势: 虽对泛化有利,但中等相似度可能加剧遗忘。
- 任务顺序至关重要: 早期安排不相似任务、交替学习不同类别可减少干扰。
- 理论指导实践: 从 TRGP+ 的设计到更广泛的 CL 策略,显式公式为算法提供科学依据。
最终,这项研究将持续学习从试错式工程转变为有数学根基的学科。它生动展示了基础理论如何直接催生更智能、更具适应力、能够终身学习并记忆的 AI 系统。
](https://deep-paper.org/en/paper/2302.05836/images/cover.png)