想象一下,你正在教一个 AI 识别不同的动物。你首先给它看成千上万张猫的图片,它在识别猫方面变得非常出色。接着,你教它识别狗。但当你再让它识别猫时,它却犯了难。似乎在学习狗的过程中,它忘记了猫的样子。这种现象被称为 灾难性遗忘 , 是构建真正智能、自适应 AI 系统的最大障碍之一。

传统的深度学习模型是在离线环境中训练的,假设所有数据一次性可用。但在现实世界中,信息往往是以连续数据流的形式到达的。AI 系统必须在不覆盖旧知识的情况下,以增量方式学习新概念——这就是 持续学习 (Continual Learning, CL) 的目标。

一个常见且有效的解决灾难性遗忘的策略是 经验回放 (Experience Replay, ER) 。 其核心思想很简单: 将过去任务中的少量样本存储在记忆缓冲区中,并在训练时与新数据一同“回放”。虽然 ER 能帮助保留以往的知识,但在记忆缓冲区非常小时,它容易出现问题。在这种情况下,模型可能对少数回放样本过拟合,难以泛化,从而再次发生遗忘。

Zhuo 等人的论文 “Continual Learning with Strong Experience Replay” 在此基础上提出了一种更有力的替代方案: 强经验回放 (Strong Experience Replay, SER) 。 通过加入两个互补的 一致性损失,SER 帮助模型在紧张的内存限制下更有效地保留过去的知识。

让我们来看它是如何工作的。


稳定性–可塑性困境

持续学习的核心是一个根本性的权衡——稳定性–可塑性困境

  • 可塑性 指模型学习新信息、适应新任务的能力。
  • 稳定性 指模型保留先前任务知识的能力,避免已学特征被覆盖。

理想的持续学习模型必须在两者之间取得平衡。过度的可塑性会导致灾难性遗忘,而过度的稳定性则使模型僵化,无法适应新任务。

经验回放通过结合当前数据的分类损失 (促进可塑性) 与回放记忆数据的分类损失 (促进稳定性) 来应对这种张力。形式上,对于任务 \(t\):

\[ \mathcal{L} = \mathcal{L}_{cls}^t + \mathcal{L}_{cls}^m \]

这一基线方法虽然有效,但也存在局限: 它只依靠存储标签来保持稳定性。那么,如果我们还能保留前一个模型的 预测行为 呢?


核心思想: 强经验回放 (SER)

作者提出了超越仅依赖回放数据标签的新方法——通过对齐新旧模型的预测分布来实现。在模型参数从 \(\theta_{t-1}\) 更新到 \(\theta_t\) 时,SER 保证新模型的预测结果与旧模型保持一致。这一机制通过两种互补策略实现: 后向一致性前向一致性

后向一致性与前向一致性示意图。后向一致性使用记忆缓冲区对过去的数据施加强制一致,而前向一致性则利用当前训练数据来确保与旧模型对“未来”预测保持一致。

图 1: 后向一致性与前向一致性的概念性比较。后向一致性使用存储在记忆中的过去数据,而前向一致性则利用整个当前数据集来正则化训练。

1. 后向一致性——蒸馏过去的经验

后向一致性保证对于存储在记忆缓冲区 \(\mathcal{M}\) 中的样本,更新后的模型输出与旧模型输出保持相似。这本质上是一种 知识蒸馏 , 使学到的表示在时间上得以延续。

\[ \mathcal{L}_{bc}^{m} = \mathbb{E}_{x \sim \mathcal{M}}[\|f(x; \theta_t) - f(x; \theta_{t-1})\|^2] \]

在实际中,旧模型的 logits 会与样本和标签一同存储在记忆缓冲区中,以避免重复计算。该损失有助于保留早期的“经验”,防止表示出现严重漂移。

2. 前向一致性——关键创新

虽然后向一致性有助于保留旧知识,但它完全依赖于缓冲区中的少量样本。当缓冲区有限时,容易过拟合。

为突破这一瓶颈,SER 引入了 前向一致性——一种在当前训练数据上强制新模型与旧模型对齐的创新概念:

\[ \mathcal{L}_{fc}^{t} = \mathbb{E}_{x \sim \mathcal{D}_t}[\|f(x; \theta_t) - f(x; \theta_{t-1})\|^2] \]

之所以称为“前向一致性”,是因为从旧模型的角度来看,当前数据 \(\mathcal{D}_t\) 代表其“未来经验”。旧网络被冻结,起到稳定的锚点作用。通过在未来输入上保持输出一致,SER 能避免剧烈变化,提升对新旧任务的总体泛化。

前向一致性最突出的特征在于: 它利用了 全部当前训练数据 , 不仅限于缓冲区样本——因此提供了更强、更广的正则化信号。


3. SER 的完整目标函数

综合上述思想,SER 的整体训练目标集成了四个损失:

  1. 当前数据的分类损失 (\(\mathcal{L}_{cls}^t\)) – 学习新任务。
  2. 记忆数据的分类损失 (\(\mathcal{L}_{cls}^m\)) – 强化旧知识。
  3. 后向一致性损失 (\(\mathcal{L}_{bc}^m\)) – 保留已学习的表示。
  4. 前向一致性损失 (\(\mathcal{L}_{fc}^t\)) – 通过旧模型的知识正则化新任务学习。

整体公式如下:

\[ \mathcal{L} = \mathcal{L}_{cls}^t + \mathcal{L}_{cls}^m + \alpha \mathcal{L}_{bc}^m + \beta \mathcal{L}_{fc}^t \]

其中 \(\alpha\) 与 \(\beta\) 用于平衡一致性项。

强经验回放 (SER) 方法示意图,展示了如何使用来自记忆缓冲区 (M) 和当前任务 (D_t) 的数据计算四个不同的损失项。

图 2: SER 框架架构。四个损失分量共同促进了可塑性 (学习新任务) 与稳定性 (保持旧知识) 。


训练过程

SER 的实现简洁高效。每次训练迭代包括以下步骤:

  1. 从当前任务数据 \(\mathcal{D}_t\) 中采样一个批次。
  2. 从记忆缓冲区 \(\mathcal{M}\) 中采样一个批次。
  3. 计算两个批次的分类损失。
  4. 计算记忆数据的后向一致性损失。
  5. 使用冻结的参数 \(\theta_{t-1}\) 计算当前数据上的前向一致性损失。
  6. 使用随机梯度下降 (SGD) 更新 \(\theta_t\)。
  7. 采用储层采样刷新记忆缓冲区,以保持样本分布均衡。

SER 算法图,概述跨多个任务的训练步骤。

算法 1: 强经验回放的训练步骤。

SER 避免了大量计算开销: 每个批次只需通过冻结模型进行一次额外的前向传播。不同于 CLS-ER 等需要同时训练多个模型的复杂架构,SER 训练高效,几乎没有额外负担。


实验: SER 实力检验

论文在五个基准数据集上评估了 SER——CIFAR-10、CIFAR-100、TinyImageNet、Permuted MNIST、Rotated MNIST,并在三种持续学习设置下进行:

  • 类增量学习 (Class-IL) : 随时间学习互不重叠的类别集合,测试时不提供任务标识。
  • 任务增量学习 (Task-IL) : 推理时任务标识已知,场景较简单。
  • 域增量学习 (Domain-IL) : 类别相同,但输入分布变化。

性能通过两个指标衡量:

  • 平均准确率: 所有任务训练完成后的总体准确率。
  • 平均遗忘率: 学习新任务后旧任务准确率的下降幅度。

不言自明的结果

CIFAR-100: 明显胜利

在 CIFAR-100 数据集上,将其划分为 20 个任务,并使用仅包含 200 个样本 (约每类两个) 的微型缓冲区时,SER 在充满挑战的 Class-IL 设置下实现了 24.35% 的准确率 , 远高于 DER++ 的 15.16%——提升超过 60%

各种持续学习方法在 CIFAR-100 数据集上的结果表。SER 在不同任务划分和缓冲区大小下持续优于其他方法。

表 1: CIFAR-100 分类结果。SER 始终优于以往方法,尤其在低内存场景中表现突出。

为了展示学习阶段的提升,下面的图展示了任务数量增加时的平均准确率变化:

折线图显示 CIFAR-100 (10 个任务) 的平均准确率。SER (红色三角形) 保持的准确率远高于 DER++ (橙色圆圈) 和 ER (蓝色菱形) 。

图 3: CIFAR-100 (10 个任务,记忆大小 200) 上的平均准确率。SER 在各阶段都保持领先。

折线图显示 CIFAR-100 (20 个任务) 的平均准确率。随着任务增多,SER 与其他方法的差距进一步扩大。

图 4: 20 个任务的准确率。SER 的优势随任务增长而增强,展现了长期稳定性提升。


TinyImageNet: 终极挑战

TinyImageNet 拥有 200 个类别。当缓冲区大小为 200 时,每类仅一个样本。多数方法在此条件下都会崩溃;而 SER 实现了 28.50% 的 Class-IL 准确率 , 显著超越 DER++ 的 10.96%

多个标准 CL 基准测试的结果表。SER 在 TinyImageNet 上表现出显著优势。

表 2: 跨多个基准的性能比较。前向一致性损失在极少数据条件下尤为关键。


遗忘分析

SER 在所有比较方法中实现了 最低的遗忘率 , 表明其更高准确率源自更好的知识保持。

表显示 ER、DER++ 和 SER 的平均遗忘率。SER 的遗忘值最低,稳定性最佳。

表 3: CIFAR-10 与 CIFAR-100 的平均遗忘率。值越低越好——SER 在两者上均表现卓越。


消融研究: 理解性能提升

为深入分析各组件的贡献,作者进行了消融实验,逐一调整训练中的损失项。

消融研究结果,显示各损失组件对 SER 最终性能的贡献。

表 4: 各组件对整体准确率的影响。添加前向一致性带来最大提升。

值得注意的是,仅将 ER 与 前向一致性损失 (\(\mathcal{L}_{fc}^t\)) 结合时,其在 CIFAR-10 上的表现就已超越 DER++。这证实了前向一致性机制是 SER 提升效果的核心——通过使用完整的当前数据集进行正则化,比仅依赖记忆的方法更有效。


可视化稳定性与可塑性

下列热力图展示了各方法在任务间知识保留的效果。每个单元格表示训练至任务 i 后在任务 j 上的准确率。明亮的对角线及列说明知识保留良好。

ER、DER++、CLS-ER 和 SER 的逐任务准确率热力图。SER 图中列的亮度衰减更少,说明对旧任务的保留更好。

图 5: CIFAR-10 顺序学习后的逐任务准确率。SER 在早期任务上保持高准确率,验证其更强的稳定性。

SER 的结果矩阵在早期任务 (T1–T2) 保持更亮的列,即使学习了后续任务,性能也几乎不下降——直观地体现了其稳定性与可塑性的良好平衡。


计算效率

尽管增加了额外损失项,SER 仍保持出色的计算效率。它仅使用一个模型和一个冻结副本进行一致性检查,不像 CLS-ER 那样训练双网络。此外,其批次采样策略与 DER++ 完全一致,没有额外的存储或采样开销。


结语

强经验回放框架以简洁优雅的方式将基于回放的学习与一致性正则化结合。通过引入 前向一致性 , 它增强了稳定性–可塑性的平衡,在回放内存稀缺时仍能显著减少遗忘。

核心要点:

  1. 前向一致性是突破关键: 在当前任务数据上强制预测对齐,能显著提升泛化与记忆保持。
  2. 简单而强大: SER 几乎不增加计算成本,却带来显著的准确率提升。
  3. 迈向终身学习的一步: 通过缓解灾难性遗忘,SER 为持续适应且不丢失旧知识的 AI 系统铺平道路。

本质上,SER 展示了如何教模型 学习新事物 而不遗忘已掌握的知识——让我们更接近在人工智能中实现真正的终身学习能力。