引言: 当 AI 开始遗忘
想象一下,你正在教一个智能 AI 识别动物。首先,你给它看了成千上万张猫的图片——它成了猫专家。接着,你用狗的图片训练它,它很快就学会了。但当你再次给它看猫的图片时,AI 却一脸困惑。不知为何,它忘记了猫长什么样。
这种令人沮丧的现象被称为 灾难性遗忘 (catastrophic forgetting) , 是构建像人类一样能持续学习的自适应 AI 的最大障碍之一。人类可以在不抹去旧技能的情况下学习新技能,而神经网络在学习序列任务时,却倾向于覆盖过去的知识。
持续学习 (Continual Learning, CL) 领域致力于解决这一问题,通过开发能够从持续信息流中不断学习的模型来实现类似人类的能力。其中最具潜力的方法之一是 记忆回放 (memory replay) , 灵感来源于人脑巩固记忆的机制。其核心思想很简单: 在记忆缓冲区中保存一小部分过去的训练样本,在学习新任务时重新回放,以提醒模型此前学到的知识。
然而,简单地回放旧数据也有不足。它可能导致模型在有限的记忆样本上过拟合,并且无法保证模型对未来任务的泛化能力。
这就是新研究论文 《MGSER-SAM: 结合记忆引导软经验回放与锐度感知优化的增强持续学习》 的切入点。作者提出了一种新颖的算法,帮助模型不仅能保留已学知识,还能发展出更具 泛化性 的表示。该方法将 记忆回放 与一种先进的优化算法 锐度感知最小化 (Sharpness-Aware Minimization, SAM) 相结合,并有效解决了学习新知识与保持旧记忆之间的冲突。
本文将带你深入了解 MGSER-SAM 算法背后的核心理念——从持续学习的基本原理,到其强大的“双梯度”机制如何缓解遗忘问题。
挑战: 稳定性与可塑性
在持续学习中,核心挑战是 稳定性–可塑性困境 (stability–plasticity dilemma) 。 模型必须在两种相互冲突的特性之间取得平衡:
- 可塑性 (Plasticity): 快速适应新信息的能力。
- 稳定性 (Stability): 保留先前知识的能力。
如果模型过于可塑,它会覆盖旧信息;如果过于稳定,它就难以学习新任务。
为了衡量持续学习方法应对此困境的能力,研究人员设计了以下三种基准场景。

图 1: 持续学习场景——类别增量、任务增量和领域增量——展示了模型如何在不同的任务序列中接受测试。
- 任务增量学习 (Task-Incremental Learning, Task-IL): 模型知道测试样本属于哪个任务 (例如,“在任务 1 中,这是狗还是鸟?”) 。
- 领域增量学习 (Domain-Incremental Learning, Domain-IL): 任务包含相同类别,但来自不同领域 (例如,真实狗图像 vs. 卡通狗图片) 。
- 类别增量学习 (Class-Incremental Learning, Class-IL): 模型必须在不知道输入属于哪个任务的情况下,对所有已见类别进行分类——这是最具挑战的设置。
在各种方法中——正则化、架构适应和回放——本文聚焦于 记忆回放 , 这是控制灾难性遗忘最简单且最有效的一类方法。
基于经验回放的构建
最基础的回放方法是 经验回放 (Experience Replay, ER) , 模型在训练时会同时使用当前任务的数据和从记忆缓冲区中采样的一批旧数据,其总损失为两者之和:
\[ \mathcal{L}_{total} = \mathbb{E}_{(\mathbf{x},y)\sim\mathcal{D}_t}[l(f_{\theta}(\mathbf{x}), y)] + \mathbb{E}_{(\mathbf{x},y)\sim\mathcal{B}}[l(f_{\theta}(\mathbf{x}), y)] \]虽然 ER 简单且有效,但直接最小化这个经验损失可能会让模型陷入 尖锐最小值 (sharp minima)——即损失面上那些对参数微小变化极度敏感的点,导致性能剧烈波动。相比之下,位于宽谷底部的 平坦最小值 (flat minima) 则能带来更好的泛化和稳定性。而平滑损失曲面正是 锐度感知最小化 (SAM) 的优势所在。
第一步: 使用 ER-SAM 平滑损失曲面
论文提出的第一个改进版本是 ER-SAM , 它将 SAM 算法直接集成到经验回放中。
SAM 不仅最小化当前权重 \( \theta \) 下的损失,还最小化在其邻域内的最坏情况损失,即通过以下最小–最大优化实现:
\[ \min_{\boldsymbol{\theta}} \max_{\|\boldsymbol{\delta}\|_2 \le \rho} L_{total}(\boldsymbol{\theta} + \boldsymbol{\delta}) \]其中,\( \rho \) 定义邻域半径,\( \delta \) 是在该邻域内使损失最大化的对抗扰动。

SAM 优化器识别局部邻域中导致损失最大的方向,引导模型朝更平坦的最小值移动。
当找到 \( \delta^* \) 后,SAM 会在扰动权重 \( \theta + \delta^* \) 处计算梯度,并更新模型参数:

权重更新同时结合损失最小化与锐度感知,从而提升泛化能力。
这一过程引导模型进入参数空间中,即使在小幅扰动 (例如学习新任务) 发生时也能保持稳定性能的区域。
ER-SAM 成为一个灵活的组件,可嵌入现有的回放方法中以增强鲁棒性和泛化性。
第二步: 使用 MGSER-SAM 解决冲突
将 SAM 应用于持续学习带来了新的复杂性: 总损失包含两个来源——
- \( \mathcal{L}_t \): 当前任务的损失。
- \( \mathcal{L}_s \): 记忆中旧任务的损失。
如果这两部分的优化方向冲突,SAM 的扰动可能会变得不稳定——改善当前任务同时破坏旧任务的性能。为此,作者提出了 记忆引导的软经验回放与锐度感知最小化 (Memory-Guided Soft Experience Replay with Sharpness-Aware Minimization, MGSER-SAM) 。
MGSER-SAM 引入了两个关键的正则化理念:
1. 更深层次记忆的软 Logits
与仅存储图像和标签不同,MGSER-SAM 还保存每个记忆样本的 logits——即 softmax 之前的原始模型输出。这些 logits 能捕捉模型的不确定性和内部表征,从而记录更丰富的知识。
在回放一个记忆样本 \((\mathbf{x}', \mathbf{z}')\) 时,模型不仅最小化标准损失,还最小化当前与存储 logits 的差异:
\[ \hat{\mathcal{L}}_s = \mathbb{E}_{(\mathbf{x},y)\sim\mathcal{B}}[l(f_{\theta}(\mathbf{x}),y)] + \mathbb{E}_{(\mathbf{x}',\mathbf{z}')\sim\mathcal{B}}[\|h_{\theta}(\mathbf{x}') - \mathbf{z}'\|_2] \]
引入软 logits 通过匹配旧模型的内部表征,实现了对已学模式的更深层保留。
通过这种蒸馏过程,新模型能够重现旧任务的类似推理模式,从而在不僵化权重的前提下提升知识保留能力。
2. 记忆引导的梯度对齐
MGSER-SAM 对 SAM 的更新步骤进行了改进。SAM 旨在优化平坦度,而记忆模块则用于保护旧知识。为了同时实现这两个目标,MGSER-SAM 采用了两种梯度的融合:
- SAM 梯度 : 在权重 \( \theta + \delta^* \) 处基于总损失 (\( \mathcal{L}_t + \hat{\mathcal{L}}_s \)) 计算。
- 记忆引导梯度 : 在原始权重 \( \theta \) 处,仅基于记忆部分损失计算。

双梯度更新同时平衡了对新知识的获取与旧知识的保持,解决内部冲突。
这种双梯度机制让模型在探索更平滑解以提升泛化能力的同时,仍能从记忆缓冲区获得稳定的方向指导,从而在“学新”与“记旧”之间实现理想的平衡。
MGSER-SAM 的实证检验
为验证该方法,作者在三种持续学习场景下,使用多个基准数据集评估了 MGSER-SAM 及其基于 SAM 的变体。

表 1: 基准测试涵盖了 Task-IL、Class-IL 和 Domain-IL 场景,使用了 S-MNIST、S-CIFAR10 和 P-MNIST 等数据集。
在这些任务中,MGSER-SAM 在准确率和遗忘度两个指标上均显著优于 ER 和 DER++ 等主流基线方法。

表 2: MGSER-SAM 在不同记忆大小和学习设置下均显著优于先前方法,在 Class-IL 准确率上实现重大突破。
结果亮点:
- 准确率显著提升: 在 S-CIFAR10 (Class-IL) 数据集上,MGSER-SAM 达到 78.51% 准确率,比 ER 提高 24.4% 。
- 跨场景稳定泛化: 在 Task-IL、Domain-IL 和 Class-IL 中均保持一致的性能优势。
- 梯度冲突解决至关重要: 单纯引入 SAM (如 DER++-SAM) 能改进结果,但完整的 MGSER-SAM 实现了最稳健的平衡。
性能的可视化洞察

图 2: MGSER-SAM 在主要基准测试中实现了最高的准确率 (ACC) 和最低的遗忘度。

图 3: 随着任务增加,MGSER-SAM 在第一个任务上保持更高准确率,显示出强抗遗忘能力。

图 4: 在 P-MNIST 和 S-TinyImageNet 上,MGSER-SAM 的平均准确率始终领先。

图 5: MGSER-SAM 随记忆容量增长表现出优越的可扩展性,即使在大缓冲区下也能保持领先性能。
结论: 迈向终身学习机器
灾难性遗忘依然是人工智能最具挑战的难题之一。MGSER-SAM 框架通过重新思考记忆回放与优化过程之间的互动,迈出了关键一步。
主要结论:
- 通过平坦最小值实现泛化: SAM 的锐度感知优化帮助模型获得稳定平坦的解,从而缓解遗忘。
- 记忆引导带来稳定性: 持续学习不仅需要解的平坦度,还需要方向引导;MGSER-SAM 通过对齐记忆梯度与新任务梯度实现这一点。
- 双梯度机制的协同作用: SAM 泛化能力与软 logits 正则化的结合,使 MGSER-SAM 成为一种通用且可扩展的终身学习方案。
通过将记忆回放与几何及梯度感知优化融合,MGSER-SAM 为构建能够 持续学习、灵活适应、智能记忆 的 AI 系统树立了新标准——让我们距离真正的终身学习机器更近一步。
](https://deep-paper.org/en/paper/2405.09492/images/cover.png)