想象一辆自动驾驶汽车学习如何在你所在城市的街道上行驶。它掌握了交通信号灯、停车标志和人行横道。现在,它被部署到一个拥有不同路口和陌生标志的新城市。它该如何学习这些新规则,同时不完全忘掉从家乡学到的一切?这正是持续学习 (Continual Learning, CL) 的核心——一个致力于构建能像人类一样,从不断变化的数据流中顺序学习的人工智能分支。
这个故事中最大的反派是灾难性遗忘 。 当一个典型的神经网络学习新任务时,它会覆盖之前获得的知识,导致它在曾经完全掌握的任务上性能急剧下降。多年来,研究人员提出了许多解决方案,包括基于正则化、基于记忆回放及基于贝叶斯的方法。每种方法都有效,但它们往往像是零散的技巧,而非统一理论的一部分——各自基于不同的理念,并使用不一致的术语。
最近的一篇研究论文《一个统一且通用的持续学习框架》 (“A Unified and General Framework for Continual Learning”) 正面解决了这一问题。它有两项突破性的贡献:
- 提出了一个单一、优雅的数学框架,统一了现有的 CL 方法,揭示它们都是一个通用优化目标的特例。
- 受神经科学启发,引入了刷新学习 (Refresh Learning) ——一种插件式策略,主张有计划的、受控的遗忘可以帮助模型更有效地保留和泛化知识。
本文将解析该统一框架,探讨刷新学习背后的反直觉理念,并回顾其实验结果以展示其影响。
背景: 持续学习的全景
在深入了解新框架之前,让我们先设定场景。
在 CL 中,模型在一系列任务上进行训练—— \(\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_N\)。 目标是在当前任务 \(\mathcal{D}_k\) 上表现出色,同时保持对先前任务 \(\mathcal{D}_1, \dots, \mathcal{D}_{k-1}\) 的掌握。
持续学习研究主要由三大类方法主导:
基于正则化的方法: 添加惩罚项以抑制对过去任务关键参数的剧烈变化。可将其想象为在重要权重上设置软性护栏。经典例子是弹性权重巩固 (Elastic Weight Consolidation, EWC) 。
基于记忆回放的方法: 将部分旧样本存储在一个小型缓冲区中,在新训练时重新利用它们。这就像在学习新知识时复习旧的抽认卡。经验回放 (Experience Replay, ER) 和暗经验回放 (Dark Experience Replay, DER) 是其中代表。
基于贝叶斯的方法: 将模型参数表示为分布,而非固定值,并更新它们以与既有知识保持一致。变分持续学习 (Variational Continual Learning, VCL) 就是这样的例子。
尽管这些方法出发点不同,但它们都追求相同的目标——平衡学习新信息与保留旧知识。作者通过布雷格曼散度 (Bregman divergence) 在数学上统一了这一平衡。
布雷格曼散度快速入门
本质上,布雷格曼散度衡量两个点在凸函数 \(\Phi\) 下表现的差异。它类似于一种灵活的“距离”——虽然不一定对称,却在比较分布或参数状态时非常有用。

图 1: 布雷格曼散度的数学定义。它捕捉凸函数在一点的值与其在另一点的切线近似值之间的差异。
不同的凸函数 \(\Phi\) 选择会产生不同的散度:
- 若 \(\Phi(p) = \sum p_i \log p_i\) (负熵) ,它变成用于比较概率分布的 KL 散度 。
- 若 \(\Phi(p) = ||p||^2\),则简化为平方欧几里得距离 。
这种灵活性构成了统一框架的基石。
一个框架统领全局
作者提出,几乎所有的 CL 方法本质上都在最小化如下通用形式的损失函数:

图 2: 统一的持续学习优化目标,结合了平衡学习与记忆保持的三种成分。
让我们分解这些组成部分:
- \(\mathcal{L}_{CE}(\boldsymbol{x}, y)\) — 新任务的标准交叉熵损失,用于驱动新知识学习。
- \(\alpha D_{\Phi}(h_{\theta}(\boldsymbol{x}), \boldsymbol{z})\) — 输出空间正则化,保持对先前数据的预测结果接近原始值。
- \(\beta D_{\Psi}(\boldsymbol{\theta}, \boldsymbol{\theta}_{old})\) — 权重空间正则化,防止对旧任务关键参数的剧烈调整。
通过调节 \(\alpha\)、\(\beta\) 以及散度函数 \(\Phi, \Psi\),许多经典 CL 技术都可作为该框架的特例。

图 3: 该统一框架表明,流行的 CL 方法——贝叶斯、正则化和记忆回放——均可由这一通用目标推导而来。
重建经典 CL 方法
- 弹性权重巩固 (EWC) : 设置 \(\alpha = 0\),选择 \(\Psi(\theta) = \tfrac{1}{2} \theta^T F \theta\),其中 \(F\) 为费雪信息矩阵 (Fisher Information Matrix) 。 相应的布雷格曼散度 \(D_{\Psi}(\theta, \theta_{old})\) 与 EWC 的二次惩罚项一致。

图 4: EWC 为与原有知识相关的参数变化施加加权惩罚项。
- 经验回放 (ER) : 设置 \(\beta = 0\),使用 \(\Phi(p) = \sum p_i \log p_i\)。 散度变为 KL 散度,损失函数即新数据与重放缓冲区中过往数据的交叉熵之和。

图 5: ER 通过同时训练新样本和旧样本来避免遗忘。
- 暗经验回放 (DER) : 设置 \(\beta = 0\),使用 \(\Phi(x) = ||x||^2\)。 这使散度项转化为当前 logits 与缓冲区中存储的 logits 之间的平方 L2 距离。

图 6: DER 在 logit 层面施加 L2 约束,以维持先前任务的表示。
这些例子揭示了看似不同方法背后的深层结构统一性。更重要的是,它们也暴露出共同的局限——所有方法主要关注于防止遗忘。
刷新学习: 遗忘的力量
人类记忆通过选择性遗忘来运作。我们舍弃不相关或过时的细节,从而释放认知空间以学习新知识。遗忘不是失败——它增强了适应性与泛化能力。你不会记得每个应用程序工具栏按钮的确切位置,但你记得其概念,以便界面变化时能迅速调整。
受此启发,作者提出了刷新学习 (Refresh Learning) , 一种在持续学习中引入受控“反学习 (unlearning) ”的插件机制。其过程包含两步:
- 反学习 (Unlearn) : 暂时增加损失,从当前批次中去除过度记忆的细节。
- 再学习 (Relearn) : 再次最小化损失,以更清晰的视角重新提炼知识。

图 7: 刷新学习优化示意图: 由“反学习”和“再学习”组成的双步循环。
为什么反学习有效
“反学习”步骤将模型从尖锐的局部极小值中推出——这些区域代表了过拟合的解。当模型随后进行“再学习”时,它往往会趋稳于更平坦、更宽广的极小值,这类区域具有更好的泛化性。平坦的极小值意味着模型更加稳定与鲁棒,从而更能抵抗新任务带来的灾难性干扰。
刷新学习背后的数学原理
为了在实践中实现“反学习”,作者利用了受概率论和偏微分方程启发的动力学机制。他们基于福克–普朗克方程 (Fokker–Planck equation) 推导出更新规则,从而得到直观的“反学习”更新公式:

图 8: 在刷新学习中,参数沿梯度方向移动以暂时增加损失,并由费雪信息矩阵的逆和随机噪声调节。
具体来说:
- \(+ \gamma F^{-1}\nabla \mathcal{L}^{CL}\): 向梯度方向移动 (即增加损失) 而非逆向,构成“反学习”。
- \(F^{-1}\): 按参数重要性反向缩放更新;重要参数变化缓慢,次要参数遗忘更快。
- \(\mathcal{N}(0, 2\gamma F^{-1})\): 注入受控随机性,帮助逃离尖锐极小值并促进探索。
经过若干次 “反学习” 迭代后,再执行正常的梯度下降步骤——即再学习阶段。
理论洞见
作者证明,“反学习–再学习”过程近似于最小化以下目标:

图 9: 刷新学习的理论基础——通过惩罚费雪信息矩阵加权的梯度范数以促进更平坦的极小值。
该附加项鼓励更平坦的损失景观,而平坦区域通常对应更好的泛化能力。换言之,刷新学习主动重塑训练过程,以寻找既能平稳吸收新信息、又能稳健保留旧知识的解。
实验: 验证刷新学习效果
理论令人信服,结果更说明问题。作者将刷新学习作为插件,结合多个 CL 基线模型,在 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上进行了测试,涵盖任务增量学习 (Task-IL) 和类别增量学习 (Class-IL) 两种设定。

图 10: 在不同数据集与方法上,加入 Refresh 插件后准确率均显著提升。
结果令人瞩目:
- 稳定提升: 无论是基于正则化 (EWC、CPR) 还是基于回放 (ER、DER++) 的方法,添加 Refresh 插件后均获得可观增益。
- 显著提升: 在强基线 DER++ 上,CIFAR-100 Class-IL 准确率从 36.37% 升至 38.49%,Tiny-ImageNet Class-IL 从 19.38% 升至 20.81%。
- 更好的记忆保持: 反向迁移 (Backward Transfer, BWT) 指标在各方法中都有所提升。刷新学习带来了有益的遗忘,最终有助于更长久地保留知识。
在计算成本仅略微增加的前提下,性能提升显著。
结论: 学习与遗忘的新视角
该研究贡献了两项关键思想:
统一的 CL 框架: 通过基于布雷格曼散度的元目标整合现有方法,揭示贝叶斯、正则化和记忆回放技术之间的结构共性。这种清晰的框架为更系统的算法设计提供了指导。
刷新学习——有益遗忘的艺术: 刷新学习表明,与其执着保留每一份旧数据,不如通过策略性遗忘来增强泛化与平衡记忆保持。其“反学习–再学习”节奏呼应了认知系统自然的优先与适应过程。
这些见解开启了令人兴奋的新方向: 动态遗忘能否改进迁移学习或持续强化学习?“反学习”调度能否模拟认知老化或睡眠周期?本文提出的工具为此类探索奠定了基础。
在打造终身学习型人工智能的征途上,这篇论文提供了理论与实践兼备的双重贡献——一个统一学习的框架,以及一个刷新知识的机制。
](https://deep-paper.org/en/paper/2403.13249/images/cover.png)