对抗 AI 遗忘症：EVCL 如何结合贝叶斯推断与正则化来掌控持续学习

想象一下，你正在学习一门新语言，但每当你掌握一组单词时，你就会立刻忘记之前学过的。这很令人沮丧，对吧？神经网络也面临着一个类似的问题，称为灾难性遗忘 (catastrophic forgetting) ——当学习新任务时，它们常常会覆盖从早期任务中获得的知识，导致性能急剧下降。

这个挑战是持续学习 (Continual Learning) 领域的核心。该研究方向致力于构建能够像人类一样顺序学习并保留先前知识的 AI 系统。关键在于平衡可塑性 (对新信息的适应能力) 和稳定性 (对已有知识的保持能力) 。

研究人员提出了多种技术来应对这一问题，其中两种最有影响力的方法尤为突出: 变分持续学习 (VCL) 和弹性权重巩固 (EWC) 。它们各自具有独特优势，但也存在一定局限。如果我们能将它们的优点融合到一个更强大的框架中，会怎么样呢？

这正是论文 “Elastic Variational Continual Learning with Weight Consolidation” 所提出的理念。该混合模型 EVCL 将 VCL 的概率推理与 EWC 的稳定性驱动正则化相结合。其结果是一种强大的方法，既能缓解遗忘，又能实现高效的持续学习。

在这篇文章中，我们将深入解析 EVCL 背后的原理，探讨其工作机制，并分析实验结果，看看这种混合方法如何推动持续学习的前沿。

背景: 持续学习的两大基础

在深入讨论混合模型 EVCL 之前，先了解它的两大基础组成: VCL 与 EWC 。

变分持续学习 (VCL) : 一种用于记忆的贝叶斯框架

变分持续学习采用一种贝叶斯方法。与其为每个神经网络权重存储一个固定值 (点估计) ，VCL 更是为每个权重学习一个分布 , 以表示权重最优值的不确定性。

可以这样理解: VCL 不会说“这个权重正好是 0.5”，而是表达为“这个权重大约是 0.5，但也可能接近 0.4 或 0.6”。每个分布都像一个知识记忆体，记录模型所学到的内容以及其对该学习的可信度。

当模型从任务 1 转到任务 2 时，任务 1 的后验分布将成为任务 2 的先验分布。这种顺序更新帮助模型传递知识并持续适应。

VCL 的学习目标基于证据下界 (ELBO) , 该目标平衡两个相互竞争的成分:

期望对数似然: 鼓励模型在当前任务数据上的预测准确性。
KL 散度: 充当记忆项，惩罚对先前后验分布的偏离，从而保留旧知识。

VCL 损失函数。第一项最大化模型在新任务上的表现，而第二项 (KL 散度) 确保模型不会遗忘之前的任务。

图 1. VCL 通过概率正则化平衡了新学习与旧记忆的保持。

局限性: 由于 VCL 依赖近似后验分布，微小误差会在每次任务更新中积累，随着任务序列增长而引起“误差漂移”，导致逐步遗忘与性能下降。VCL 常需要使用核心集 (coreset) ——存储先前任务样本以辅助训练，这增加了内存开销，限制了可扩展性。

弹性权重巩固 (EWC) : 守护关键参数

弹性权重巩固采取不同的路径。它不对权重进行概率建模，而是根据权重的重要性进行正则化。在完成任务 1 后，EWC 识别哪些权重对该任务的性能至关重要，并在后续任务训练中保护这些权重。

具体通过在标准损失函数中加入一个二次惩罚项实现:

\[ \mathcal{L}_{\text{EWC}}(\theta) = \sum_i \frac{\lambda}{2} F_i^{t-1} (\theta_i - \theta_{t-1,i}^*)^2 \]

其中:

\(F_i^{t-1}\): 权重 \(i\) 的费雪信息矩阵 (FIM) 条目，表示其重要性；
\(\theta_{t-1,i}^*\): 前一任务的最优权重；
\(\lambda\): 控制旧知识保护力度的系数。

FIM 衡量模型输出对权重变化的敏感度。费雪信息值高的参数意味着其对预测至关重要，必须加以保留。

局限性: EWC 使用拉普拉斯近似 (一种局部二次估计) ，可能低估某些参数的重要性，从而保护不足并产生残留遗忘。同时，它并不显式地建模权重的不确定性。

EVCL 方法: 融合记忆与稳定性

鉴于两种方法的互补优势，作者提出了弹性变分持续学习 (EVCL) ——一种将VCL 的贝叶斯推断与EWC 的正则化相结合的混合模型。

EVCL 保留了 VCL 的贝叶斯框架，但在其损失函数中加入了 EWC 惩罚项，以保护那些对先前任务至关重要的参数。关键思想是: 锚定的不是权重本身，而是描述这些权重的分布。

统一的目标函数为:

\[ \mathcal{L}_{\text{EVCL}}^{t}(q_t(\theta)) = \mathcal{L}_{\text{VCL}}^{t}(q_t(\theta)) + \sum_i \frac{\lambda}{2} F_i^{t-1} \left[(\mu_{t,i} - \mu_{t-1,i})^2 + (\sigma_{t,i}^2 - \sigma_{t-1,i}^2)^2\right] \]

EVCL 损失函数。它将 VCL 损失与 EWC 惩罚项相结合，对权重分布的均值 (μ) 和方差 (σ²) 进行正则化。

图 2. EVCL 将 EWC 的正则化项直接融入 VCL 的概率框架中，从而稳定已学习的分布。

这里，\( \mu_{t,i} \) 和 \( \sigma_{t,i}^2 \) 分别表示当前任务中参数 \( \theta_i \) 的变分后验的均值与方差，而 \( \mu_{t-1,i} \)、\( \sigma_{t-1,i}^2 \) 则来自前一任务。费雪矩阵 \( F_i^{t-1} \) 根据参数重要性加权惩罚，系数 \( \lambda \) 决定旧知识保留的强度。

为什么这种方法有效

VCL 的不确定性建模: 模型继续以概率方式表示参数，捕捉任务特定的细微差异。
EWC 的参数保护: 对关键参数施加正则化，降低漂移并维持先前任务性能。
内存高效性: EVCL 不需要核心集或重放缓冲区，知识通过分布直接巩固。
可塑性与稳定性的权衡控制: 超参数 \( \lambda \) 调节新知识学习与旧知识保持之间的平衡。

简而言之，EVCL 在保持 EWC 稳定性的同时，避免了 VCL 的后验分布逐步失准问题——并将所有这一切融入一个可扩展的概率框架。

实验: EVCL 的实际表现

作者在五个基准数据集上评估了 EVCL 的效果，以检验其对抗灾难性遗忘的能力。每项测试均记录迄今所有已学习任务的平均准确率——下降越小，代表记忆保留越好。

1. PermutedMNIST (领域增量学习)

在该设置中，每个任务都使用 MNIST 数字的随机像素排列。标签保持不变，但视觉域发生变化，迫使模型不断适应。

图 3: PermutedMNIST 测试集的平均准确率。EVCL (蓝线) 保持最高准确率，遗忘显著少于其他方法。

图 3. 在五个任务中，EVCL 的准确率曲线最为平缓，显示其在领域变化下的卓越稳定性。

EVCL 始终优于所有基线模型。完成 5 个任务后，EVCL 达到 93.5% 准确率 , 超过 VCL( 91.5% )与 EWC( 65% )。其平滑的性能曲线展示了强抗遗忘能力。

2. SplitMNIST (任务增量学习)

此时，模型需解决五个二元数字分类任务 (0/1、2/3、…、8/9) 。每个任务拥有自己的输出头，用于测试模型保留不同任务边界的能力。

图 4: SplitMNIST 测试集的平均准确率。EVCL 展现几乎完美的记忆保持，在 5 个任务后仍维持 98.4% 的准确率。

图 4. EVCL 在多个二元数字识别任务中保持了近乎完美的准确率。

EVCL 达到 98.4% 准确率 , 优于 VCL( 94% )与 EWC( 88% )。极小的准确率下降凸显其卓越的知识保持能力。

3. SplitNotMNIST

NotMNIST 数据集包含字母 A–J 的不同字体图像。模型学习五个二元字母识别任务 (A/F、B/G 等) ，这是对 SplitMNIST 的更复杂变体。

图 5: SplitNotMNIST 测试集平均准确率。EVCL 表现最佳，达 91.7%，显著高于 VCL (89.7%) 和 EWC (62.9%)。

图 5. EVCL 在跨字体字母识别中保持更高性能，显示出强泛化能力。

EVCL 达到 91.7% 准确率 , 超越 VCL( 89.7% )与 EWC( 62.9% )。这一差距证明 EVCL 缓解了纯变分模型中常见的近似误差漂移。

4. SplitFashionMNIST

FashionMNIST 包含不同类型服装图像 (如上衣、裤子、连衣裙等) 。模型学习五个二元分类任务，用于区分物品类型。

图 6: SplitFashionMNIST 测试集平均准确率。EVCL 显示出显著稳定性，最终达到 96.2% 准确率，而其他方法下降幅度更大。

图 6. EVCL 在各个服装类别间保持强泛化能力，显著超越所有基线模型。

EVCL 的平均准确率最高达 96.2% , 而 VCL 在 86–90% 之间，EWC 降至 74% 。随着视觉复杂度上升，EVCL 的强大知识巩固能力更加凸显。

5. SplitCIFAR-10

最具挑战性的测试为 SplitCIFAR-10，包含实际场景图像，被划分为五个二元任务 (如飞机/汽车、鸟/猫) 。

图 7: SplitCIFAR-10 测试集平均准确率。即使在复杂数据集上，EVCL (74%) 仍优于 VCL (72%) 和 EWC (59%)。

图 7. 在复杂高方差的自然图像中，该混合模型保持了最高的准确率曲线。

尽管所有方法性能均有所下降，EVCL 仍达 74% 准确率 , 略高于 VCL( 72% )，且远超 EWC( 59% )。其在高多样性视觉类别中的稳健表现，证明了该混合框架在真实世界任务中的可扩展性。

结论: 迈向终身学习系统

在涵盖数字、字符、服装与自然图像的五个基准测试中，EVCL 的表现始终优于以往方法。通过将 EWC 的权重保护机制嵌入 VCL 的贝叶斯框架，该模型实现了兼具适应性与稳健性的持续学习。

本质上，EVCL 通过保留任务关键的分布来减少灾难性遗忘，为持续学习提供了一种内存高效且数学优雅的解决方案。

未来展望

作者提出以下潜在研究方向:

更丰富的费雪信息建模: 使用自然梯度类算法 (如 K-FAC 或在线自然梯度下降) 更好地近似参数空间曲率。
扩展至生成与强化学习模型: 将 EVCL 应用于动态、无监督的场景。
结合重放与稀疏编码: 将 EVCL 的稳定性与情景重放或内存高效微调策略整合。

更深远的启示是: 持续学习的关键并非在灵活性与稳定性之间取舍，而是在两者间达成平衡。EVCL 示范了如何通过融合概率推理与针对性正则化，使 AI 系统更接近人类那种能够长期学习而不遗忘的能力。

在一个数据不断演化的世界中，EVCL 向我们展示: 变分推断与弹性正则化这两种互补策略，能够携手铺就真正的终身学习之路。

背景: 持续学习的两大基础#

变分持续学习 (VCL) : 一种用于记忆的贝叶斯框架#

弹性权重巩固 (EWC) : 守护关键参数#

EVCL 方法: 融合记忆与稳定性#

为什么这种方法有效#

实验: EVCL 的实际表现#

1. PermutedMNIST (领域增量学习)#

2. SplitMNIST (任务增量学习)#

3. SplitNotMNIST#

4. SplitFashionMNIST#

5. SplitCIFAR-10#

结论: 迈向终身学习系统#

未来展望#