一个框架统领全局：统一持续学习并引入‘刷新学习’

想象一辆自动驾驶汽车学习如何在你所在城市的街道上行驶。它掌握了交通信号灯、停车标志和人行横道。现在，它被部署到一个拥有不同路口和陌生标志的新城市。它该如何学习这些新规则，同时不完全忘掉从家乡学到的一切？这正是持续学习 (Continual Learning, CL) 的核心——一个致力于构建能像人类一样，从不断变化的数据流中顺序学习的人工智能分支。

这个故事中最大的反派是灾难性遗忘 。当一个典型的神经网络学习新任务时，它会覆盖之前获得的知识，导致它在曾经完全掌握的任务上性能急剧下降。多年来，研究人员提出了许多解决方案，包括基于正则化、基于记忆回放及基于贝叶斯的方法。每种方法都有效，但它们往往像是零散的技巧，而非统一理论的一部分——各自基于不同的理念，并使用不一致的术语。

最近的一篇研究论文《一个统一且通用的持续学习框架》 (“A Unified and General Framework for Continual Learning”) 正面解决了这一问题。它有两项突破性的贡献:

提出了一个单一、优雅的数学框架，统一了现有的 CL 方法，揭示它们都是一个通用优化目标的特例。
受神经科学启发，引入了刷新学习 (Refresh Learning) ——一种插件式策略，主张有计划的、受控的遗忘可以帮助模型更有效地保留和泛化知识。

本文将解析该统一框架，探讨刷新学习背后的反直觉理念，并回顾其实验结果以展示其影响。

背景: 持续学习的全景

在深入了解新框架之前，让我们先设定场景。

在 CL 中，模型在一系列任务上进行训练—— \(\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_N\)。目标是在当前任务 \(\mathcal{D}_k\) 上表现出色，同时保持对先前任务 \(\mathcal{D}_1, \dots, \mathcal{D}_{k-1}\) 的掌握。

持续学习研究主要由三大类方法主导:

基于正则化的方法: 添加惩罚项以抑制对过去任务关键参数的剧烈变化。可将其想象为在重要权重上设置软性护栏。经典例子是弹性权重巩固 (Elastic Weight Consolidation, EWC) 。
基于记忆回放的方法: 将部分旧样本存储在一个小型缓冲区中，在新训练时重新利用它们。这就像在学习新知识时复习旧的抽认卡。经验回放 (Experience Replay, ER) 和暗经验回放 (Dark Experience Replay, DER) 是其中代表。
基于贝叶斯的方法: 将模型参数表示为分布，而非固定值，并更新它们以与既有知识保持一致。变分持续学习 (Variational Continual Learning, VCL) 就是这样的例子。

尽管这些方法出发点不同，但它们都追求相同的目标——平衡学习新信息与保留旧知识。作者通过布雷格曼散度 (Bregman divergence) 在数学上统一了这一平衡。

布雷格曼散度快速入门

本质上，布雷格曼散度衡量两个点在凸函数 \(\Phi\) 下表现的差异。它类似于一种灵活的“距离”——虽然不一定对称，却在比较分布或参数状态时非常有用。

The formula for Bregman Divergence. It measures the difference between a function’s value at a point p and its first-order Taylor approximation at a point q.

图 1: 布雷格曼散度的数学定义。它捕捉凸函数在一点的值与其在另一点的切线近似值之间的差异。

不同的凸函数 \(\Phi\) 选择会产生不同的散度:

若 \(\Phi(p) = \sum p_i \log p_i\) (负熵) ，它变成用于比较概率分布的 KL 散度 。
若 \(\Phi(p) = ||p||^2\)，则简化为平方欧几里得距离 。

这种灵活性构成了统一框架的基石。

一个框架统领全局

作者提出，几乎所有的 CL 方法本质上都在最小化如下通用形式的损失函数:

The generalized Continual Learning optimization objective. It consists of three parts: the loss on the new task, an output space regularization term, and a weight space regularization term.

图 2: 统一的持续学习优化目标，结合了平衡学习与记忆保持的三种成分。

让我们分解这些组成部分:

\(\mathcal{L}_{CE}(\boldsymbol{x}, y)\) — 新任务的标准交叉熵损失，用于驱动新知识学习。
\(\alpha D_{\Phi}(h_{\theta}(\boldsymbol{x}), \boldsymbol{z})\) — 输出空间正则化，保持对先前数据的预测结果接近原始值。
\(\beta D_{\Psi}(\boldsymbol{\theta}, \boldsymbol{\theta}_{old})\) — 权重空间正则化，防止对旧任务关键参数的剧烈调整。

通过调节 \(\alpha\)、\(\beta\) 以及散度函数 \(\Phi, \Psi\)，许多经典 CL 技术都可作为该框架的特例。

Table 1 from the paper, showing how different categories of Continual Learning methods can be recovered as special instances of the unified optimization objective.

图 3: 该统一框架表明，流行的 CL 方法——贝叶斯、正则化和记忆回放——均可由这一通用目标推导而来。

重建经典 CL 方法

弹性权重巩固 (EWC) : 设置 \(\alpha = 0\)，选择 \(\Psi(\theta) = \tfrac{1}{2} \theta^T F \theta\)，其中 \(F\) 为费雪信息矩阵 (Fisher Information Matrix) 。相应的布雷格曼散度 \(D_{\Psi}(\theta, \theta_{old})\) 与 EWC 的二次惩罚项一致。

The loss function for Elastic Weight Consolidation (EWC). It adds a quadratic penalty to changes in weights, weighted by the Fisher Information Matrix F.

图 4: EWC 为与原有知识相关的参数变化施加加权惩罚项。

经验回放 (ER) : 设置 \(\beta = 0\)，使用 \(\Phi(p) = \sum p_i \log p_i\)。散度变为 KL 散度，损失函数即新数据与重放缓冲区中过往数据的交叉熵之和。

The loss function for Experience Replay (ER). It combines the cross-entropy loss on new data with that on stored past data.

图 5: ER 通过同时训练新样本和旧样本来避免遗忘。

暗经验回放 (DER) : 设置 \(\beta = 0\)，使用 \(\Phi(x) = ||x||^2\)。这使散度项转化为当前 logits 与缓冲区中存储的 logits 之间的平方 L2 距离。

The loss function for Dark Experience Replay (DER). It penalizes the distance between the current model’s logits and the stored logits for replay-buffer samples.

图 6: DER 在 logit 层面施加 L2 约束，以维持先前任务的表示。

这些例子揭示了看似不同方法背后的深层结构统一性。更重要的是，它们也暴露出共同的局限——所有方法主要关注于防止遗忘。

刷新学习: 遗忘的力量

人类记忆通过选择性遗忘来运作。我们舍弃不相关或过时的细节，从而释放认知空间以学习新知识。遗忘不是失败——它增强了适应性与泛化能力。你不会记得每个应用程序工具栏按钮的确切位置，但你记得其概念，以便界面变化时能迅速调整。

受此启发，作者提出了刷新学习 (Refresh Learning) , 一种在持续学习中引入受控“反学习 (unlearning) ”的插件机制。其过程包含两步:

反学习 (Unlearn) : 暂时增加损失，从当前批次中去除过度记忆的细节。
再学习 (Relearn) : 再次最小化损失，以更清晰的视角重新提炼知识。

The high-level optimization problem for Refresh Learning. The relearn step minimizes the expected CL loss over an optimal parameter distribution found through the unlearn step.

图 7: 刷新学习优化示意图: 由“反学习”和“再学习”组成的双步循环。

为什么反学习有效

“反学习”步骤将模型从尖锐的局部极小值中推出——这些区域代表了过拟合的解。当模型随后进行“再学习”时，它往往会趋稳于更平坦、更宽广的极小值，这类区域具有更好的泛化性。平坦的极小值意味着模型更加稳定与鲁棒，从而更能抵抗新任务带来的灾难性干扰。

刷新学习背后的数学原理

为了在实践中实现“反学习”，作者利用了受概率论和偏微分方程启发的动力学机制。他们基于福克–普朗克方程 (Fokker–Planck equation) 推导出更新规则，从而得到直观的“反学习”更新公式:

The parameter update equation for the unlearning step in Refresh Learning. It moves parameters in the gradient direction, scaled by the inverse Fisher Information Matrix, plus a random noise term.

图 8: 在刷新学习中，参数沿梯度方向移动以暂时增加损失，并由费雪信息矩阵的逆和随机噪声调节。

具体来说:

\(+ \gamma F^{-1}\nabla \mathcal{L}^{CL}\): 向梯度方向移动 (即增加损失) 而非逆向，构成“反学习”。
\(F^{-1}\): 按参数重要性反向缩放更新；重要参数变化缓慢，次要参数遗忘更快。
\(\mathcal{N}(0, 2\gamma F^{-1})\): 注入受控随机性，帮助逃离尖锐极小值并促进探索。

经过若干次 “反学习” 迭代后，再执行正常的梯度下降步骤——即再学习阶段。

理论洞见

作者证明，“反学习–再学习”过程近似于最小化以下目标:

The theoretical optimization objective that Refresh Learning approximately solves. It minimizes the standard CL loss plus a term penalizing the Fisher Information Matrix weighted gradient norm.

图 9: 刷新学习的理论基础——通过惩罚费雪信息矩阵加权的梯度范数以促进更平坦的极小值。

该附加项鼓励更平坦的损失景观，而平坦区域通常对应更好的泛化能力。换言之，刷新学习主动重塑训练过程，以寻找既能平稳吸收新信息、又能稳健保留旧知识的解。

实验: 验证刷新学习效果

理论令人信服，结果更说明问题。作者将刷新学习作为插件，结合多个 CL 基线模型，在 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上进行了测试，涵盖任务增量学习 (Task-IL) 和类别增量学习 (Class-IL) 两种设定。

Table 2 from the paper showing the overall accuracy on CIFAR-10, CIFAR-100, and Tiny-ImageNet for various CL methods with and without Refresh Learning.

图 10: 在不同数据集与方法上，加入 Refresh 插件后准确率均显著提升。

结果令人瞩目:

稳定提升: 无论是基于正则化 (EWC、CPR) 还是基于回放 (ER、DER++) 的方法，添加 Refresh 插件后均获得可观增益。
显著提升: 在强基线 DER++ 上，CIFAR-100 Class-IL 准确率从 36.37% 升至 38.49%，Tiny-ImageNet Class-IL 从 19.38% 升至 20.81%。
更好的记忆保持: 反向迁移 (Backward Transfer, BWT) 指标在各方法中都有所提升。刷新学习带来了有益的遗忘，最终有助于更长久地保留知识。

在计算成本仅略微增加的前提下，性能提升显著。

结论: 学习与遗忘的新视角

该研究贡献了两项关键思想:

统一的 CL 框架: 通过基于布雷格曼散度的元目标整合现有方法，揭示贝叶斯、正则化和记忆回放技术之间的结构共性。这种清晰的框架为更系统的算法设计提供了指导。
刷新学习——有益遗忘的艺术: 刷新学习表明，与其执着保留每一份旧数据，不如通过策略性遗忘来增强泛化与平衡记忆保持。其“反学习–再学习”节奏呼应了认知系统自然的优先与适应过程。

这些见解开启了令人兴奋的新方向: 动态遗忘能否改进迁移学习或持续强化学习？“反学习”调度能否模拟认知老化或睡眠周期？本文提出的工具为此类探索奠定了基础。

背景: 持续学习的全景#

布雷格曼散度快速入门#

一个框架统领全局#

重建经典 CL 方法#

刷新学习: 遗忘的力量#

为什么反学习有效#

刷新学习背后的数学原理#

理论洞见#

实验: 验证刷新学习效果#

结论: 学习与遗忘的新视角#