人类是卓越的终身学习者。从出生起,我们不断获取新技能——走路、说话、骑自行车、学习新语言——而不会突然忘记之前学过的内容。这种从源源不断、动态变化的体验中无缝学习的能力,是我们视为理所当然的天赋。
然而,对于人工神经网络而言,这却极其困难。深度神经网络 (DNN) 功能强大,但它们存在一个众所周知的缺陷,称为灾难性遗忘 。 当网络学习新的任务时,它往往会覆盖掉先前任务中学到的知识。想象一个模型先学会识别猫,然后再学习识别狗,结果突然忘记了猫的样子。这种现象限制了 DNN 执行持续学习 (Continual Learning, CL) 的能力——也就是从不断变化的数据流中按顺序学习多个任务。
在任务之间的边界上,比如从识别数字切换到识别时尚单品时,网络的内部表征可能会发生剧烈漂移,导致之前习得的知识被抹去。
为解决这一问题,一组研究人员将目光投向了最成功的终身学习者——人类大脑 。 在他们的论文《*基于误差敏感度调制的经验回放 (ESMER) *》中,提出了一个受神经科学启发的模型。神经科学表明,大脑从微小而持续的错误中学习得比从巨大、突然的错误中更多 。 ESMER 利用这一原则创建了一个持续学习框架,不仅减缓灾难性遗忘,还能以惊人的韧性处理带噪声和不完美的数据。
让我们一步步了解它的工作原理。
为什么神经网络会遗忘
要理解 ESMER,首先需要弄清楚为何持续学习对神经网络如此困难。
DNN 通常在批量学习 (batch learning) 模式下训练——即一次性看到所有类别的全部数据。它们通过调整权重以降低一个衡量预测误差的损失函数来学习。在持续学习中,数据按任务逐步到达。当模型开始新任务时,新的样本来自未见过的类别,误差会急剧上升。这些巨大的误差主导了梯度更新,迫使权重发生剧烈变化,从而扭曲网络现有的表征。这种表征漂移 (representation drift) 导致旧任务被遗忘。
一种常见的缓解策略是采用基于重演的方法 (rehearsal-based methods) ,如经验回放 (Experience Replay, ER) 。 这些方法在训练中重放先前任务的一小部分样本——形成一个情景记忆 (episodic memory) 。通过将过去的样本与新样本混合训练,模型能够“回忆”之前的知识,从而减少漂移。
但当缓冲区较小时,新任务中大量高误差样本的影响力会压过重放样本。模型在每个新任务初期仍会产生剧烈更新,且可能无法恢复。这揭示了更深层次的缺陷: 学习机制本身对所有误差一视同仁。
像大脑一样学习: ESMER 的核心思想
神经科学表明,人类学习遵循不同的规律。大脑并不会根据误差大小线性调整学习强度。相反,它会降低大误差的权重——通常视这些误差为噪声或意外情境——而更多地从那些微小、持续且具有规律性的错误中学习。
这种机制要求维护一种“误差记忆”,以区分持续性的错误和偶发的错误。ESMER 在一个双重记忆架构中实现了该理念: 一个快速学习的工作模型与一个缓慢巩固的稳定模型相互作用,同时结合情景记忆与误差记忆。

图 1: ESMER 的架构包括一个快速学习的“工作模型”、一个缓慢巩固的“稳定模型”、一个回放缓冲区 (“情景记忆”) 以及一个用于调节学习强度的创新“误差记忆”。
组件 1: 调制误差敏感度
ESMER 的核心是误差敏感度调制 , 它确保系统更多地从微小误差中学习,而非被突兀的大误差所主导。当新数据到来时,ESMER 使用稳定模型而不是工作模型来计算每个样本的损失。这避免了偏差,并提供了一个一致的参考框架。

每个样本的损失 \(l_s^i\) 会与一个误差记忆——即近期损失的动量平均值 \( \mu_{\ell} \)——相比较。系统随后计算每个样本的权重 \( \lambda^i \):

若样本的损失低于阈值 (在边距 \( \beta \) 以内) ,则视为“低损失”样本,系统会充分学习。高损失样本权重则被削减,防止它们主导梯度。因此,在面对新类别时,模型会渐进式学习,而非产生剧烈更新。
为保持误差记忆的稳定,ESMER 在更新 \( \mu_{\ell} \) 前会过滤异常值,并在任务切换阶段短暂暂停更新:

此机制保持了“正常”误差的可靠指标,从而促进稳健而平滑的适应,而非突发的纠正。
组件 2: 用于平衡学习的双重记忆系统
ESMER 还借鉴了大脑的快速与慢速学习路径,采用两个互补的记忆系统。
稳定模型 (语义记忆)
稳定模型模拟长期记忆。它通过指数移动平均 (EMA) 从工作模型中逐步整合知识:

这种渐进更新有助于防止不稳定,同时确保旧信息随时间巩固。推理阶段使用稳定模型,因为它能跨任务保持一致的表征并具有更强的泛化能力。
误差敏感的水塘抽样 (情景记忆)
情景记忆存储过去任务的样本以供重放,但 ESMER改进了其采样机制。在执行水塘抽样 (reservoir sampling) 前,它会优先筛选低损失样本作为候选:

这种选择性采样使缓冲区更具代表性,包含那些已充分学习、稳定一致的样本,从而排除噪声和异常。
在回放过程中,模型会计算情景样本的综合损失——结合分类损失与一个语义一致性损失 , 该损失鼓励工作模型与稳定模型输出保持一致:

这种耦合机制减少了新旧表征之间的漂移,使系统在学习新任务的同时保留旧知识。
结果: ESMER 的实际表现
研究人员在多种持续学习场景下验证了 ESMER:
- 类增量学习 (Class-IL) : 每个任务新增类别,模型需区分所有已见类别。
- 广义类增量学习 (GCIL) : 任务类别数量和数据分布不均,更贴近真实环境。
- 带噪声的类增量学习 (Noisy-Class-IL) : 加入标签噪声以测试鲁棒性。

表 1: 在 Seq-CIFAR10、Seq-CIFAR100 和 GCIL 等数据集上,ESMER 实现了最高准确率。优势在内存受限的环境中更加显著。
ESMER 始终优于各类基线方法,即使与采用双重记忆的方案相比也表现出色。在如 Seq-CIFAR100 这类复杂数据集上,它在严格的内存限制下仍表现卓越——这一情境下灾难性遗忘往往无法避免。

表 2: 即使内存极为有限、任务序列很长,ESMER 仍保持卓越性能。
它还展现出对噪声数据的惊人鲁棒性:

表 3: 在 50% 标签噪声下,ESMER 的准确率比基准 ER 方法高出超过 116%,能高效学习带噪声的数据流。
通过学习低损失样本,模型自然过滤掉了错误标签,而误差敏感采样保证了回放缓冲区的纯净。
为什么 ESMER 成效显著
研究者通过分析性实验揭示了 ESMER 的优势来源。
1. 互补组件
消融实验表明,每个部分——误差调制、稳定模型与采样策略——都起着关键作用。去除任意一部分,性能都会显著下降。

表 4: 每个核心组件都对性能做出重要贡献。三者结合使 ESMER 在准确性与鲁棒性方面达到最佳表现。
2. 缓解表征漂移
在学习第二任务时追踪第一个任务的表现,可直观看到 ESMER 如何避免性能骤降:

图 2: (a) 相较标准 ER,ESMER 的工作模型 (WM) 漂移极小且能迅速恢复,稳定模型 (SM) 保持稳定。(b) ESMER 同时降低近期偏见,在任务间保持预测平衡。
3. 抗噪声能力
在使用含噪数据训练时,ESMER 记忆的错误标签显著少于 ER,缓冲区纯度更高。

图 3: (a) ESMER 能避免记忆错误标签,保持清晰的学习过程。(b) 误差敏感采样使缓冲区中错误样本数量更少——这一点对稳定重放至关重要。
4. 稳定性与可塑性的平衡
在长期任务序列中,ESMER 在记忆旧任务 (稳定性) 和学习新任务 (可塑性) 之间实现了理想平衡。

图 4: 在多任务后,ESMER 对早期任务的准确率保持高于对比方法,展现了稳健的稳定性–可塑性平衡。
结论
ESMER 提供了一个强大的、受生物启发的解决方案来应对灾难性遗忘。通过借鉴人脑的关键学习机制——我们从微小而一致的错误中学习最有效——它使神经网络能够:
- 平稳适应新任务 , 而不覆盖已有知识,
- 在标签噪声和数据不平衡下保持稳健性能 , 以及
- 减少近期偏见 , 实现跨任务的均匀学习。
其双重记忆结构与误差敏感调制机制让人工系统更接近于大脑式学习动态。ESMER 表明,人工智能的未来或许不在于“更多数据”或“更大模型”,而在于更聪明的学习——倾听那些安静、持续的信号,而非被突兀的噪声所扰。
](https://deep-paper.org/en/paper/2302.11344/images/cover.png)