想象一下,你正在学习一门新语言,但每当你掌握一组单词时,你就会立刻忘记之前学过的。这很令人沮丧,对吧?神经网络也面临着一个类似的问题,称为灾难性遗忘 (catastrophic forgetting) ——当学习新任务时,它们常常会覆盖从早期任务中获得的知识,导致性能急剧下降。
这个挑战是持续学习 (Continual Learning) 领域的核心。该研究方向致力于构建能够像人类一样顺序学习并保留先前知识的 AI 系统。关键在于平衡可塑性 (对新信息的适应能力) 和稳定性 (对已有知识的保持能力) 。
研究人员提出了多种技术来应对这一问题,其中两种最有影响力的方法尤为突出: 变分持续学习 (VCL) 和弹性权重巩固 (EWC) 。 它们各自具有独特优势,但也存在一定局限。如果我们能将它们的优点融合到一个更强大的框架中,会怎么样呢?
这正是论文 “Elastic Variational Continual Learning with Weight Consolidation” 所提出的理念。该混合模型 EVCL 将 VCL 的概率推理与 EWC 的稳定性驱动正则化相结合。其结果是一种强大的方法,既能缓解遗忘,又能实现高效的持续学习。
在这篇文章中,我们将深入解析 EVCL 背后的原理,探讨其工作机制,并分析实验结果,看看这种混合方法如何推动持续学习的前沿。
背景: 持续学习的两大基础
在深入讨论混合模型 EVCL 之前,先了解它的两大基础组成: VCL 与 EWC 。
变分持续学习 (VCL) : 一种用于记忆的贝叶斯框架
变分持续学习采用一种贝叶斯方法。与其为每个神经网络权重存储一个固定值 (点估计) ,VCL 更是为每个权重学习一个分布 , 以表示权重最优值的不确定性。
可以这样理解: VCL 不会说“这个权重正好是 0.5”,而是表达为“这个权重大约是 0.5,但也可能接近 0.4 或 0.6”。每个分布都像一个知识记忆体,记录模型所学到的内容以及其对该学习的可信度。
当模型从任务 1 转到任务 2 时,任务 1 的后验分布将成为任务 2 的先验分布。这种顺序更新帮助模型传递知识并持续适应。
VCL 的学习目标基于证据下界 (ELBO) , 该目标平衡两个相互竞争的成分:
- 期望对数似然: 鼓励模型在当前任务数据上的预测准确性。
- KL 散度: 充当记忆项,惩罚对先前后验分布的偏离,从而保留旧知识。

图 1. VCL 通过概率正则化平衡了新学习与旧记忆的保持。
局限性: 由于 VCL 依赖近似后验分布,微小误差会在每次任务更新中积累,随着任务序列增长而引起“误差漂移”,导致逐步遗忘与性能下降。VCL 常需要使用核心集 (coreset) ——存储先前任务样本以辅助训练,这增加了内存开销,限制了可扩展性。
弹性权重巩固 (EWC) : 守护关键参数
弹性权重巩固采取不同的路径。它不对权重进行概率建模,而是根据权重的重要性进行正则化。在完成任务 1 后,EWC 识别哪些权重对该任务的性能至关重要,并在后续任务训练中保护这些权重。
具体通过在标准损失函数中加入一个二次惩罚项实现:
\[ \mathcal{L}_{\text{EWC}}(\theta) = \sum_i \frac{\lambda}{2} F_i^{t-1} (\theta_i - \theta_{t-1,i}^*)^2 \]其中:
- \(F_i^{t-1}\): 权重 \(i\) 的费雪信息矩阵 (FIM) 条目,表示其重要性;
- \(\theta_{t-1,i}^*\): 前一任务的最优权重;
- \(\lambda\): 控制旧知识保护力度的系数。
FIM 衡量模型输出对权重变化的敏感度。费雪信息值高的参数意味着其对预测至关重要,必须加以保留。
局限性: EWC 使用拉普拉斯近似 (一种局部二次估计) ,可能低估某些参数的重要性,从而保护不足并产生残留遗忘。同时,它并不显式地建模权重的不确定性。
EVCL 方法: 融合记忆与稳定性
鉴于两种方法的互补优势,作者提出了弹性变分持续学习 (EVCL) ——一种将VCL 的贝叶斯推断与EWC 的正则化相结合的混合模型。
EVCL 保留了 VCL 的贝叶斯框架,但在其损失函数中加入了 EWC 惩罚项,以保护那些对先前任务至关重要的参数。关键思想是: 锚定的不是权重本身,而是描述这些权重的分布 。
统一的目标函数为:
\[ \mathcal{L}_{\text{EVCL}}^{t}(q_t(\theta)) = \mathcal{L}_{\text{VCL}}^{t}(q_t(\theta)) + \sum_i \frac{\lambda}{2} F_i^{t-1} \left[(\mu_{t,i} - \mu_{t-1,i})^2 + (\sigma_{t,i}^2 - \sigma_{t-1,i}^2)^2\right] \]
图 2. EVCL 将 EWC 的正则化项直接融入 VCL 的概率框架中,从而稳定已学习的分布。
这里,\( \mu_{t,i} \) 和 \( \sigma_{t,i}^2 \) 分别表示当前任务中参数 \( \theta_i \) 的变分后验的均值与方差,而 \( \mu_{t-1,i} \)、\( \sigma_{t-1,i}^2 \) 则来自前一任务。费雪矩阵 \( F_i^{t-1} \) 根据参数重要性加权惩罚,系数 \( \lambda \) 决定旧知识保留的强度。
为什么这种方法有效
- VCL 的不确定性建模: 模型继续以概率方式表示参数,捕捉任务特定的细微差异。
- EWC 的参数保护: 对关键参数施加正则化,降低漂移并维持先前任务性能。
- 内存高效性: EVCL 不需要核心集或重放缓冲区,知识通过分布直接巩固。
- 可塑性与稳定性的权衡控制: 超参数 \( \lambda \) 调节新知识学习与旧知识保持之间的平衡。
简而言之,EVCL 在保持 EWC 稳定性的同时,避免了 VCL 的后验分布逐步失准问题——并将所有这一切融入一个可扩展的概率框架。
实验: EVCL 的实际表现
作者在五个基准数据集上评估了 EVCL 的效果,以检验其对抗灾难性遗忘的能力。每项测试均记录迄今所有已学习任务的平均准确率——下降越小,代表记忆保留越好。
1. PermutedMNIST (领域增量学习)
在该设置中,每个任务都使用 MNIST 数字的随机像素排列。标签保持不变,但视觉域发生变化,迫使模型不断适应。

图 3. 在五个任务中,EVCL 的准确率曲线最为平缓,显示其在领域变化下的卓越稳定性。
EVCL 始终优于所有基线模型。完成 5 个任务后,EVCL 达到 93.5% 准确率 , 超过 VCL( 91.5% )与 EWC( 65% )。其平滑的性能曲线展示了强抗遗忘能力。
2. SplitMNIST (任务增量学习)
此时,模型需解决五个二元数字分类任务 (0/1、2/3、…、8/9) 。每个任务拥有自己的输出头,用于测试模型保留不同任务边界的能力。

图 4. EVCL 在多个二元数字识别任务中保持了近乎完美的准确率。
EVCL 达到 98.4% 准确率 , 优于 VCL( 94% )与 EWC( 88% )。极小的准确率下降凸显其卓越的知识保持能力。
3. SplitNotMNIST
NotMNIST 数据集包含字母 A–J 的不同字体图像。模型学习五个二元字母识别任务 (A/F、B/G 等) ,这是对 SplitMNIST 的更复杂变体。

图 5. EVCL 在跨字体字母识别中保持更高性能,显示出强泛化能力。
EVCL 达到 91.7% 准确率 , 超越 VCL( 89.7% )与 EWC( 62.9% )。这一差距证明 EVCL 缓解了纯变分模型中常见的近似误差漂移。
4. SplitFashionMNIST
FashionMNIST 包含不同类型服装图像 (如上衣、裤子、连衣裙等) 。模型学习五个二元分类任务,用于区分物品类型。

图 6. EVCL 在各个服装类别间保持强泛化能力,显著超越所有基线模型。
EVCL 的平均准确率最高达 96.2% , 而 VCL 在 86–90% 之间,EWC 降至 74% 。 随着视觉复杂度上升,EVCL 的强大知识巩固能力更加凸显。
5. SplitCIFAR-10
最具挑战性的测试为 SplitCIFAR-10,包含实际场景图像,被划分为五个二元任务 (如飞机/汽车、鸟/猫) 。

图 7. 在复杂高方差的自然图像中,该混合模型保持了最高的准确率曲线。
尽管所有方法性能均有所下降,EVCL 仍达 74% 准确率 , 略高于 VCL( 72% ),且远超 EWC( 59% )。其在高多样性视觉类别中的稳健表现,证明了该混合框架在真实世界任务中的可扩展性。
结论: 迈向终身学习系统
在涵盖数字、字符、服装与自然图像的五个基准测试中,EVCL 的表现始终优于以往方法。通过将 EWC 的权重保护机制嵌入 VCL 的贝叶斯框架,该模型实现了兼具适应性与稳健性的持续学习。
本质上,EVCL 通过保留任务关键的分布来减少灾难性遗忘,为持续学习提供了一种内存高效且数学优雅的解决方案。
未来展望
作者提出以下潜在研究方向:
- 更丰富的费雪信息建模: 使用自然梯度类算法 (如 K-FAC 或在线自然梯度下降) 更好地近似参数空间曲率。
- 扩展至生成与强化学习模型: 将 EVCL 应用于动态、无监督的场景。
- 结合重放与稀疏编码: 将 EVCL 的稳定性与情景重放或内存高效微调策略整合。
更深远的启示是: 持续学习的关键并非在灵活性与稳定性之间取舍,而是在两者间达成平衡。EVCL 示范了如何通过融合概率推理与针对性正则化,使 AI 系统更接近人类那种能够长期学习而不遗忘的能力。
在一个数据不断演化的世界中,EVCL 向我们展示: 变分推断与弹性正则化这两种互补策略,能够携手铺就真正的终身学习之路。
](https://deep-paper.org/en/paper/2406.15972/images/cover.png)