稳定性–可塑性困境: 持续学习研究导览

现代神经网络的能力非凡——但仅限于它们所处的世界是静态的。一旦你按顺序喂给它一系列不同的任务,它们通常会忘记之前学过的内容。这种灾难性遗忘是持续学习 (Continual Learning, CL) 领域试图解决的核心挑战: 模型如何在保持足够可塑性以学习新任务的同时,又足够稳定以保留已掌握的知识?

2021年,De Lange 等人发表了一篇针对分类任务的极为详尽的研究: 该论文包含综述、分类体系以及一个大型实证研究,比较了11种最先进的持续学习方法在多个数据集和模型配置下的表现。他们还提出了一个实用框架,用于在不违背持续学习前提 (即验证期间不得访问以往任务数据) 的情况下调整关键的“稳定性–可塑性”超参数。

本文以通俗易懂的方式提炼了该论文的主要思想和实验见解。如果你想了解持续学习的全貌 (有哪些方法、它们如何工作、以及何时成功或失败) ,这篇导览将带你一探究竟。


我们研究的是何种“设定”?

该论文聚焦于任务增量分类 (Task-Incremental Classification) 设定:

  • 任务按顺序到来: 你接收任务 T1,训练至收敛,然后任务 T2 到来,依此类推。
  • 在训练任务 T_t 时,你只能访问该任务的训练数据 (无法访问之前任务的数据) 。
  • 测试时,模型会被告知使用哪个任务或头 (多头设置) 。相较于更困难的类增量单头设定,这种方式简化了评估。

理想目标是最小化所有已见任务的累积风险。如果 f(·; θ) 是模型 (参数为 θ) ,ℓ 为损失函数,那么在 T 个任务之后的目标为:

\[ \sum_{t=1}^T \mathbb{E}_{(x,y)\sim D^{(t)}} \left[ \ell(f(x; \theta), y) \right]. \]

挑战在于: 为新任务优化时,θ 的变化可能会损害模型在先前任务上的性能——这就是灾难性遗忘。


一个清晰的方法分类体系

理解持续学习方法的一个有效方式是看它们如何保留过去的信息。作者将这些方法分为三大类:

  1. 回放方法 (Replay methods) ——记住旧样本 (或生成伪样本) ,并在训练新任务时复习。
  2. 基于正则化的方法 (Regularization-based methods) ——添加惩罚项,抑制对过去任务重要参数的修改。
  3. 参数隔离方法 (Parameter isolation methods) ——为不同任务分配独立的参数或掩码化的参数子集。

每类方法都有其权衡: 回放方法效果强,但需要存储数据 (隐私问题) ;正则化方法占用内存少,但对超参数敏感;参数隔离方法可实现近乎零遗忘,但受限于固定容量,或测试时必须知道任务标签。

持续学习方法的分类体系

图1: 持续学习方法的分类体系。三大主类 (回放、正则化、参数隔离) 分别包含具体子类别与代表性算法。


核心思想 (简述)

  • 回放方法:
  • 复习 (存储样本) : iCaRL 是一个典型例子,它为每个类别保存样本并在训练新任务时使用。
  • 伪复习 (生成式回放) : 训练一个生成器以产生来自过去任务的样本。
  • 约束优化 (梯度投影) : GEM 及其变体在更新过程中加入约束,确保不会增加旧任务样本的损失。
  • 基于正则化的方法:
  • 数据导向 (蒸馏) : LwF 将旧模型作为教师,迫使新模型在当前任务输入上匹配旧模型的输出。
  • 先验导向 (参数重要性) : EWC 使用费雪信息估计参数重要性,SI 沿训练轨迹累积重要性,MAS 通过输出对参数的敏感度估计重要性 (支持无监督的重要性估计) 。
  • 参数隔离:
  • 固定容量掩码: PackNet 对每个任务剪枝并固定参数;HAT 为每个任务学习注意力掩码以门控单元。
  • 动态扩展: Progressive Neural Networks 为每个任务增加新的模块。

这些方法在内存、隐私、计算和灵活性上各有取舍。


一个关键的方法论问题: 如何公平地调整超参数?

许多持续学习方法依赖于稳定性–可塑性超参数: 例如 EWC 中的参数惩罚强度 λ,LwF 中的蒸馏损失权重,或回放方法中的样本内存预算。过去的研究常通过在所有任务上的验证性能搜索来调这些参数——这会泄露信息 (验证时使用旧任务数据) ,而这在持续学习设定中被禁止。

为解决这一问题,论文提出了持续超参数选择框架 (Continual Hyperparameter Selection Framework) : 一个两阶段、逐任务流程,仅使用当前任务数据进行超参数选择。

  • 最大可塑性搜索: 首先微调当前模型的副本,仅在新任务上达到最佳准确率 (称为 A*) ,以估计忽略遗忘时的性能上限。
  • 稳定性衰减: 从极稳定的超参数设置开始 (偏向不遗忘) ,训练方法;若当前任务准确率显著低于 A* (例如低于 (1−p)A*) ,则降低稳定性 (衰减超参数) 并重复,直到达到可接受的准确率。

这种方案提供了一种现实、可辩护且不需存储旧数据的超参数选择策略,非常适合实际部署。


实验竞技场

作者进行了广泛的实证比较,包括:

  • 数据集:
  • Tiny ImageNet (平衡,10个任务,每个20类) ——受控基准。
  • iNaturalist (10个大类,高度不平衡) ——更真实的大规模设定。
  • RecogSeq (包含8个不同识别数据集的序列: 花卉、场景、鸟类、汽车、飞机、动作、字母、数字) ——严苛的域迁移压力测试。
  • 模型:
  • Tiny ImageNet 使用 VGG 风格骨干,四种容量变体 (SMALL、BASE、WIDE、DEEP) 。
  • 大型数据集 使用在 ImageNet 上预训练的 AlexNet。
  • 方法:
  • 三类方法的代表算法 (iCaRL、GEM、LwF、EBLL、EWC、SI、MAS、mean-/mode-IMM、PackNet、HAT) ,以及基线 (微调与联合训练) 。
  • 指标:
  • 各任务随时间的准确率、最终平均准确率、遗忘度量 (某任务从刚学完到学完后续任务后准确率的下降) 。

关键实验设计包括: (1) 回放方法使用合理的样本内存预算 (与模型大小相当) ; (2) 采用持续超参数框架调节遗忘相关超参数而不泄露旧数据; (3) 测试模型容量、正则化 (dropout/权重衰减) 和任务顺序的效应。


竞赛结果如何? (高层总结)

下面总结不同数据集与模型配置下的主要发现。

Tiny ImageNet——一个“净化室”基准

  • 微调 (每次新任务朴素训练) 会灾难性遗忘旧任务——这是要超越的最低基线。
  • PackNet (基于剪枝的参数隔离) 在 Tiny ImageNet 上取得最高平均准确率,压缩后几乎零遗忘;它通过冻结参数保留旧任务知识。
  • 回放方法 (iCaRL) 和稳健的正则化方法 (MAS) 与 PackNet 竞争。增大样本库能提升 iCaRL 性能。
  • EWC 与 SI 对超参数和模型容量敏感;在持续超参数框架下 MAS 稳定性优于 EWC/SI。
  • 更深模型 (DEEP) 并未带来改进——反而常逊于更宽浅模型。过拟合与过深架构不利于持续学习。

详细的 Tiny ImageNet 训练曲线 (逐任务) 体现这些趋势: PackNet 与 HAT 曲线平坦 (零遗忘) ,回放和强正则化方法次之,微调性能迅速下降。

Tiny ImageNet: 各任务评估曲线与方法比较。

图2: Tiny ImageNet 上各方法 (BASE 模型) 的跨任务评估。图例显示平均准确率与平均遗忘率。平坦曲线表示遗忘极少或无遗忘。

模型容量重要——但不总符合预期

  • 小模型容量不足会导致更多遗忘。
  • 过深模型易在单任务训练过拟合,累积任务时表现不佳。
  • WIDE (每层更多卷积核) 变体通常优于深层变体。“更宽而非更深”常在任务增量分类中取胜。

正则化 (Dropout、权重衰减) ——有益但依赖方法

  • Dropout 对易过拟合的方法 (如 SI、微调) 有益,通常提高最终准确率,虽可能略增遗忘度。
  • 权重衰减效果各异: 有时有益于宽模型,但常与基于重要性的正则方法 (EWC、MAS) 冲突,因为 L2 惩罚可能削弱应保留参数。
  • 持续学习特定惩罚与常规正则的交互复杂,方法相关——不存在通用配方。

在野外: iNaturalist 与 RecogSeq (不平衡、高异质)

  • 任务越不平衡、异质性越高,方法间差异越明显。
  • PackNet 的零遗忘特性使其在剧烈域迁移下极稳健——常接近甚至略超联合训练。
  • 当新任务分布差异极大时 (蒸馏目标失效) ,如 LwF 这类数据导向蒸馏方法会崩溃。
  • 先验导向方法 (MAS、EWC、SI) 降幅较小但仍逊于参数隔离。
  • 总体而言: 硬性保护旧知识的方法在极端域迁移下更稳,但容量饱和后缺乏可塑性。

下图展示 RecogSeq (八个差异极大的任务) 结果: 参数隔离方法保留旧知识,其他方法退化明显。

RecogSeq: 在8个不同任务 (从花卉到数字) 上比较各种方法。

图3: RecogSeq 累积任务评估结果。PackNet 与部分 IMM 变体在各任务表现相对更高;微调与 LwF 遗忘较严重。

任务顺序——影响意外地小

作者假设课程式排序 (从易到难) 可能改善终身学习。Tiny ImageNet 与 iNaturalist 实验表明,任务顺序 (随机、易→难、难→易、相关/不相关) 影响微弱。部分方法稍受排序影响,但无普遍规律。

在 iNaturalist 上,作者基于相关性 (通过专家门控自编码器度量) 探索排序。PackNet 与 mode-IMM 对顺序最稳健。

iNaturalist: 三种任务顺序 (随机/相关/不相关) 的比较。

图4: iNaturalist 三种任务顺序下的评估。总体趋势保持一致: PackNet 依旧强劲,部分正则化方法对顺序更敏感。

定性权衡: 计算、内存、隐私、任务不可知性

作者还用一个定性表格总结:

  • 训练与推理的 GPU 内存与计算开销。
  • 额外存储需求 (如回放样本、PackNet 掩码、IMM 参数) 。
  • 是否需测试时提供任务标签 (多数参数隔离方法需要) 。
  • 隐私影响 (存储原始图像的回放方法无法保护隐私) 。

这些权衡在实践中意义重大: PackNet 掩码紧凑但需任务 ID;回放方法强大但存储用户数据。


深度剖析: 几个启发性实验

重点回顾论文中的三个更深入研究。

  1. GEM vs. iCaRL 的 Epoch 敏感性 GEM 最初为单 epoch 的在线设置设计,给太多 epoch 时性能下降。作者发现限制每任务约5个 epoch 时 GEM 表现最佳,符合其原始在线假设。这提醒我们算法性能依赖操作假设 (在线vs离线) 。

  2. HAT 的容量分配与失败模式 HAT 为每任务学习注意力掩码。实际中,掩码常在各层间分配不均: 浅层易饱和,深层剩余容量。小型同质任务 (Tiny ImageNet) 上效果好,但在大规模异质任务 (iNaturalist、RecogSeq) 上不均分配导致后续任务无法获取低层特征,性能受损。相比之下,PackNet 的剪枝分配更均衡。

逐层使用可视化清晰揭示此不对称: HAT 可早早饱和 Conv0 层,后续学习几乎不可能,除非大幅调整超参数——但这又导致遗忘。

HAT 逐层权重使用情况: DEEP 模型 (饱和) 与 SMALL 模型 (更均衡) 。

图5: HAT 在不同任务中每层累积权重使用情况。DEEP 模型早期层迅速饱和,而 SMALL 模型分配更渐进。

  1. 长序列 Tiny ImageNet (40任务) 与饱和后的可塑性 PackNet 等参数隔离方法通过冻结参数避免遗忘。那么当容量耗尽后会如何?在40任务的扩展实验中,PackNet 起初领先,但随任务增加,iCaRL (回放方法) 最终超越它,因为 PackNet 固定掩码限制了学习新分布。此外,若在饱和后引入新任务 (如 SVHN 数字识别) ,PackNet 几乎无法学习,而有一定可塑性的方案 (衰减惩罚) 仍能适应。

这凸显了核心权衡: 参数隔离确保稳定,但在饱和后牺牲可塑性,除非扩容模型。

长序列 Tiny ImageNet (40个任务) : 各方法性能及 PackNet/HAT 的逐层使用情况。

图6: 长序列 Tiny ImageNet (40任务) 评估。PackNet、iCaRL 等方法比较。PackNet 实现零遗忘,但饱和后失去可塑性。下方显示 PackNet (上) 与 HAT (下) 逐层容量使用。


实践指南 (应尝试什么?)

基于实验与整体分析,对希望在分类管线 (任务增量、多头) 中部署持续学习的实践者建议如下:

  • 若测试时可提供任务标签且容量充足, PackNet 是可靠默认选项: 防遗忘能力强且常获得最高准确率。
  • 若可存原始数据 (隐私限制宽松) 并能分配适度内存预算, iCaRL 式回放是强大且简便的基线。扩大样本库有益。
  • 若不能存数据且需轻量方案, MAS (无监督重要性估计) 通常稳健且优于 EWC/SI (在公平调参下) 。
  • 避免使用未经慎重正则化的深模型——在任务增量设定中“加宽”比“加深”更优。
  • 对易过拟合方法使用 dropout 缓解过拟合,但警惕其可能干扰部分重要性估计。
  • 若需任务不可知推理 (测试时无任务标签) ,务必注意许多参数隔离方法需任务 ID,这在部分应用中不可行。
  • 调节遗忘相关超参数时仅使用当前任务数据 (采用持续超参数框架) 。避免在所有任务上验证的非现实做法。

未来方向: 通用持续学习的理想目标

任务增量、多头分类设定虽重要方便,但研究社区应朝更现实的目标前进:

  • 恒定内存占用 (不随任务数增长) 。
  • 无任务边界 (训练/测试时任务标签未知) 。
  • 在线学习 (单遍或低延迟更新) 。
  • 前向迁移与零样本学习 (利用旧知识加速新任务学习) 。
  • 后向迁移 (学习新任务时改善旧任务性能) 。
  • 任务不可知推理 (无需测试时“神谕”提供任务标签) 。
  • 优雅、选择性遗忘——释放不重要知识的内存。

这些方法在部分目标上已有进展,但尚无同时满足所有条件的方案。在真实在线环境中设计稳健、可扩展、任务不可知的持续学习方法仍然是开放挑战。

下面的示意图将持续学习与相关领域 (多任务、迁移、元学习、域自适应、在线学习) 进行比较,以帮助定位开放问题:

持续学习与多任务学习、迁移学习、元学习等相关范式的区别。

图7: 持续学习强调无遗忘的顺序自适应,而相关领域侧重并行训练、离线迁移或情境式适应。


结语

De Lange 等人的这篇综述是一个极佳的资源: 集合了清晰的分类体系、实用的超参数调整框架以及大规模、精心控制的实证比较,揭示了现有方法的现实优势与局限性。论文呈现两个核心主题:

  1. 方法性能强烈依赖任务特性 (平衡性、同质性、域迁移) 、模型容量及现实的超参数选择。不现实的验证方案可能误导结果。
  2. 尚无万能解: 参数隔离方法稳定性强,回放方法灵活实用,基于重要性的正则方法内存高效但敏感。选择取决于应用约束 (隐私、内存、任务标签需求、预期域迁移) 。

如果你研究持续学习,这篇论文是必读之作: 它提供了坚实实验基线、严谨评估协议和实用指导,可助你构建更可靠的终身学习系统。


进一步阅读: 请参阅完整综述以了解实现细节、各方法的超参数设置及附录实验 (如 HAT 容量分析、IMM 变体、长序列 PackNet 行为) 。若计划基准新算法或实际部署持续学习系统,文中经验结果与持续超参数框架尤其值得参考。