稳定性–可塑性困境: 持续学习研究导览

现代神经网络的能力非凡——但仅限于它们所处的世界是静态的。一旦你按顺序喂给它一系列不同的任务，它们通常会忘记之前学过的内容。这种灾难性遗忘是持续学习 (Continual Learning, CL) 领域试图解决的核心挑战: 模型如何在保持足够可塑性以学习新任务的同时，又足够稳定以保留已掌握的知识？

2021年，De Lange 等人发表了一篇针对分类任务的极为详尽的研究: 该论文包含综述、分类体系以及一个大型实证研究，比较了11种最先进的持续学习方法在多个数据集和模型配置下的表现。他们还提出了一个实用框架，用于在不违背持续学习前提 (即验证期间不得访问以往任务数据) 的情况下调整关键的“稳定性–可塑性”超参数。

本文以通俗易懂的方式提炼了该论文的主要思想和实验见解。如果你想了解持续学习的全貌 (有哪些方法、它们如何工作、以及何时成功或失败) ，这篇导览将带你一探究竟。

我们研究的是何种“设定”？

该论文聚焦于任务增量分类 (Task-Incremental Classification) 设定:

任务按顺序到来: 你接收任务 T1，训练至收敛，然后任务 T2 到来，依此类推。
在训练任务 T_t 时，你只能访问该任务的训练数据 (无法访问之前任务的数据) 。
测试时，模型会被告知使用哪个任务或头 (多头设置) 。相较于更困难的类增量单头设定，这种方式简化了评估。

理想目标是最小化所有已见任务的累积风险。如果 f(·; θ) 是模型 (参数为 θ) ，ℓ 为损失函数，那么在 T 个任务之后的目标为:

\[ \sum_{t=1}^T \mathbb{E}_{(x,y)\sim D^{(t)}} \left[ \ell(f(x; \theta), y) \right]. \]

挑战在于: 为新任务优化时，θ 的变化可能会损害模型在先前任务上的性能——这就是灾难性遗忘。

一个清晰的方法分类体系

理解持续学习方法的一个有效方式是看它们如何保留过去的信息。作者将这些方法分为三大类:

回放方法 (Replay methods) ——记住旧样本 (或生成伪样本) ，并在训练新任务时复习。
基于正则化的方法 (Regularization-based methods) ——添加惩罚项，抑制对过去任务重要参数的修改。
参数隔离方法 (Parameter isolation methods) ——为不同任务分配独立的参数或掩码化的参数子集。

每类方法都有其权衡: 回放方法效果强，但需要存储数据 (隐私问题) ；正则化方法占用内存少，但对超参数敏感；参数隔离方法可实现近乎零遗忘，但受限于固定容量，或测试时必须知道任务标签。

持续学习方法的分类体系

图1: 持续学习方法的分类体系。三大主类 (回放、正则化、参数隔离) 分别包含具体子类别与代表性算法。

核心思想 (简述)

回放方法:
复习 (存储样本) : iCaRL 是一个典型例子，它为每个类别保存样本并在训练新任务时使用。
伪复习 (生成式回放) : 训练一个生成器以产生来自过去任务的样本。
约束优化 (梯度投影) : GEM 及其变体在更新过程中加入约束，确保不会增加旧任务样本的损失。
基于正则化的方法:
数据导向 (蒸馏) : LwF 将旧模型作为教师，迫使新模型在当前任务输入上匹配旧模型的输出。
先验导向 (参数重要性) : EWC 使用费雪信息估计参数重要性，SI 沿训练轨迹累积重要性，MAS 通过输出对参数的敏感度估计重要性 (支持无监督的重要性估计) 。
参数隔离:
固定容量掩码: PackNet 对每个任务剪枝并固定参数；HAT 为每个任务学习注意力掩码以门控单元。
动态扩展: Progressive Neural Networks 为每个任务增加新的模块。

这些方法在内存、隐私、计算和灵活性上各有取舍。

一个关键的方法论问题: 如何公平地调整超参数？

许多持续学习方法依赖于稳定性–可塑性超参数: 例如 EWC 中的参数惩罚强度 λ，LwF 中的蒸馏损失权重，或回放方法中的样本内存预算。过去的研究常通过在所有任务上的验证性能搜索来调这些参数——这会泄露信息 (验证时使用旧任务数据) ，而这在持续学习设定中被禁止。

为解决这一问题，论文提出了持续超参数选择框架 (Continual Hyperparameter Selection Framework) : 一个两阶段、逐任务流程，仅使用当前任务数据进行超参数选择。

最大可塑性搜索: 首先微调当前模型的副本，仅在新任务上达到最佳准确率 (称为 A*) ，以估计忽略遗忘时的性能上限。
稳定性衰减: 从极稳定的超参数设置开始 (偏向不遗忘) ，训练方法；若当前任务准确率显著低于 A* (例如低于 (1−p)A*) ，则降低稳定性 (衰减超参数) 并重复，直到达到可接受的准确率。

这种方案提供了一种现实、可辩护且不需存储旧数据的超参数选择策略，非常适合实际部署。

实验竞技场

作者进行了广泛的实证比较，包括:

数据集:
Tiny ImageNet (平衡，10个任务，每个20类) ——受控基准。
iNaturalist (10个大类，高度不平衡) ——更真实的大规模设定。
RecogSeq (包含8个不同识别数据集的序列: 花卉、场景、鸟类、汽车、飞机、动作、字母、数字) ——严苛的域迁移压力测试。
模型:
Tiny ImageNet 使用 VGG 风格骨干，四种容量变体 (SMALL、BASE、WIDE、DEEP) 。
大型数据集 使用在 ImageNet 上预训练的 AlexNet。
方法:
三类方法的代表算法 (iCaRL、GEM、LwF、EBLL、EWC、SI、MAS、mean-/mode-IMM、PackNet、HAT) ，以及基线 (微调与联合训练) 。
指标:
各任务随时间的准确率、最终平均准确率、遗忘度量 (某任务从刚学完到学完后续任务后准确率的下降) 。

关键实验设计包括: (1) 回放方法使用合理的样本内存预算 (与模型大小相当) ； (2) 采用持续超参数框架调节遗忘相关超参数而不泄露旧数据； (3) 测试模型容量、正则化 (dropout/权重衰减) 和任务顺序的效应。

竞赛结果如何？ (高层总结)

下面总结不同数据集与模型配置下的主要发现。

Tiny ImageNet——一个“净化室”基准

微调 (每次新任务朴素训练) 会灾难性遗忘旧任务——这是要超越的最低基线。
PackNet (基于剪枝的参数隔离) 在 Tiny ImageNet 上取得最高平均准确率，压缩后几乎零遗忘；它通过冻结参数保留旧任务知识。
回放方法 (iCaRL) 和稳健的正则化方法 (MAS) 与 PackNet 竞争。增大样本库能提升 iCaRL 性能。
EWC 与 SI 对超参数和模型容量敏感；在持续超参数框架下 MAS 稳定性优于 EWC/SI。
更深模型 (DEEP) 并未带来改进——反而常逊于更宽浅模型。过拟合与过深架构不利于持续学习。

详细的 Tiny ImageNet 训练曲线 (逐任务) 体现这些趋势: PackNet 与 HAT 曲线平坦 (零遗忘) ，回放和强正则化方法次之，微调性能迅速下降。

Tiny ImageNet: 各任务评估曲线与方法比较。

图2: Tiny ImageNet 上各方法 (BASE 模型) 的跨任务评估。图例显示平均准确率与平均遗忘率。平坦曲线表示遗忘极少或无遗忘。

模型容量重要——但不总符合预期

小模型容量不足会导致更多遗忘。
过深模型易在单任务训练过拟合，累积任务时表现不佳。
WIDE (每层更多卷积核) 变体通常优于深层变体。“更宽而非更深”常在任务增量分类中取胜。

正则化 (Dropout、权重衰减) ——有益但依赖方法

Dropout 对易过拟合的方法 (如 SI、微调) 有益，通常提高最终准确率，虽可能略增遗忘度。
权重衰减效果各异: 有时有益于宽模型，但常与基于重要性的正则方法 (EWC、MAS) 冲突，因为 L2 惩罚可能削弱应保留参数。
持续学习特定惩罚与常规正则的交互复杂，方法相关——不存在通用配方。

在野外: iNaturalist 与 RecogSeq (不平衡、高异质)

任务越不平衡、异质性越高，方法间差异越明显。
PackNet 的零遗忘特性使其在剧烈域迁移下极稳健——常接近甚至略超联合训练。
当新任务分布差异极大时 (蒸馏目标失效) ，如 LwF 这类数据导向蒸馏方法会崩溃。
先验导向方法 (MAS、EWC、SI) 降幅较小但仍逊于参数隔离。
总体而言: 硬性保护旧知识的方法在极端域迁移下更稳，但容量饱和后缺乏可塑性。

下图展示 RecogSeq (八个差异极大的任务) 结果: 参数隔离方法保留旧知识，其他方法退化明显。

RecogSeq: 在8个不同任务 (从花卉到数字) 上比较各种方法。

图3: RecogSeq 累积任务评估结果。PackNet 与部分 IMM 变体在各任务表现相对更高；微调与 LwF 遗忘较严重。

任务顺序——影响意外地小

作者假设课程式排序 (从易到难) 可能改善终身学习。Tiny ImageNet 与 iNaturalist 实验表明，任务顺序 (随机、易→难、难→易、相关/不相关) 影响微弱。部分方法稍受排序影响，但无普遍规律。

在 iNaturalist 上，作者基于相关性 (通过专家门控自编码器度量) 探索排序。PackNet 与 mode-IMM 对顺序最稳健。

iNaturalist: 三种任务顺序 (随机/相关/不相关) 的比较。

图4: iNaturalist 三种任务顺序下的评估。总体趋势保持一致: PackNet 依旧强劲，部分正则化方法对顺序更敏感。

定性权衡: 计算、内存、隐私、任务不可知性

作者还用一个定性表格总结:

训练与推理的 GPU 内存与计算开销。
额外存储需求 (如回放样本、PackNet 掩码、IMM 参数) 。
是否需测试时提供任务标签 (多数参数隔离方法需要) 。
隐私影响 (存储原始图像的回放方法无法保护隐私) 。

这些权衡在实践中意义重大: PackNet 掩码紧凑但需任务 ID；回放方法强大但存储用户数据。

深度剖析: 几个启发性实验

重点回顾论文中的三个更深入研究。

GEM vs. iCaRL 的 Epoch 敏感性 GEM 最初为单 epoch 的在线设置设计，给太多 epoch 时性能下降。作者发现限制每任务约5个 epoch 时 GEM 表现最佳，符合其原始在线假设。这提醒我们算法性能依赖操作假设 (在线vs离线) 。
HAT 的容量分配与失败模式 HAT 为每任务学习注意力掩码。实际中，掩码常在各层间分配不均: 浅层易饱和，深层剩余容量。小型同质任务 (Tiny ImageNet) 上效果好，但在大规模异质任务 (iNaturalist、RecogSeq) 上不均分配导致后续任务无法获取低层特征，性能受损。相比之下，PackNet 的剪枝分配更均衡。

逐层使用可视化清晰揭示此不对称: HAT 可早早饱和 Conv0 层，后续学习几乎不可能，除非大幅调整超参数——但这又导致遗忘。

HAT 逐层权重使用情况: DEEP 模型 (饱和) 与 SMALL 模型 (更均衡) 。

图5: HAT 在不同任务中每层累积权重使用情况。DEEP 模型早期层迅速饱和，而 SMALL 模型分配更渐进。

长序列 Tiny ImageNet (40任务) 与饱和后的可塑性 PackNet 等参数隔离方法通过冻结参数避免遗忘。那么当容量耗尽后会如何？在40任务的扩展实验中，PackNet 起初领先，但随任务增加，iCaRL (回放方法) 最终超越它，因为 PackNet 固定掩码限制了学习新分布。此外，若在饱和后引入新任务 (如 SVHN 数字识别) ，PackNet 几乎无法学习，而有一定可塑性的方案 (衰减惩罚) 仍能适应。

这凸显了核心权衡: 参数隔离确保稳定，但在饱和后牺牲可塑性，除非扩容模型。

长序列 Tiny ImageNet (40个任务) : 各方法性能及 PackNet/HAT 的逐层使用情况。

图6: 长序列 Tiny ImageNet (40任务) 评估。PackNet、iCaRL 等方法比较。PackNet 实现零遗忘，但饱和后失去可塑性。下方显示 PackNet (上) 与 HAT (下) 逐层容量使用。

实践指南 (应尝试什么？)

基于实验与整体分析，对希望在分类管线 (任务增量、多头) 中部署持续学习的实践者建议如下:

若测试时可提供任务标签且容量充足, PackNet 是可靠默认选项: 防遗忘能力强且常获得最高准确率。
若可存原始数据 (隐私限制宽松) 并能分配适度内存预算, iCaRL 式回放是强大且简便的基线。扩大样本库有益。
若不能存数据且需轻量方案, MAS (无监督重要性估计) 通常稳健且优于 EWC/SI (在公平调参下) 。
避免使用未经慎重正则化的深模型——在任务增量设定中“加宽”比“加深”更优。
对易过拟合方法使用 dropout 缓解过拟合，但警惕其可能干扰部分重要性估计。
若需任务不可知推理 (测试时无任务标签) ，务必注意许多参数隔离方法需任务 ID，这在部分应用中不可行。
调节遗忘相关超参数时仅使用当前任务数据 (采用持续超参数框架) 。避免在所有任务上验证的非现实做法。

未来方向: 通用持续学习的理想目标

任务增量、多头分类设定虽重要方便，但研究社区应朝更现实的目标前进:

恒定内存占用 (不随任务数增长) 。
无任务边界 (训练/测试时任务标签未知) 。
在线学习 (单遍或低延迟更新) 。
前向迁移与零样本学习 (利用旧知识加速新任务学习) 。
后向迁移 (学习新任务时改善旧任务性能) 。
任务不可知推理 (无需测试时“神谕”提供任务标签) 。
优雅、选择性遗忘——释放不重要知识的内存。

这些方法在部分目标上已有进展，但尚无同时满足所有条件的方案。在真实在线环境中设计稳健、可扩展、任务不可知的持续学习方法仍然是开放挑战。

下面的示意图将持续学习与相关领域 (多任务、迁移、元学习、域自适应、在线学习) 进行比较，以帮助定位开放问题:

持续学习与多任务学习、迁移学习、元学习等相关范式的区别。

图7: 持续学习强调无遗忘的顺序自适应，而相关领域侧重并行训练、离线迁移或情境式适应。

结语

De Lange 等人的这篇综述是一个极佳的资源: 集合了清晰的分类体系、实用的超参数调整框架以及大规模、精心控制的实证比较，揭示了现有方法的现实优势与局限性。论文呈现两个核心主题:

方法性能强烈依赖任务特性 (平衡性、同质性、域迁移) 、模型容量及现实的超参数选择。不现实的验证方案可能误导结果。
尚无万能解: 参数隔离方法稳定性强，回放方法灵活实用，基于重要性的正则方法内存高效但敏感。选择取决于应用约束 (隐私、内存、任务标签需求、预期域迁移) 。

如果你研究持续学习，这篇论文是必读之作: 它提供了坚实实验基线、严谨评估协议和实用指导，可助你构建更可靠的终身学习系统。

进一步阅读: 请参阅完整综述以了解实现细节、各方法的超参数设置及附录实验 (如 HAT 容量分析、IMM 变体、长序列 PackNet 行为) 。若计划基准新算法或实际部署持续学习系统，文中经验结果与持续超参数框架尤其值得参考。

稳定性–可塑性困境: 持续学习研究导览#

我们研究的是何种“设定”？#

一个清晰的方法分类体系#

核心思想 (简述)#

一个关键的方法论问题: 如何公平地调整超参数？#

实验竞技场#

竞赛结果如何？ (高层总结)#

Tiny ImageNet——一个“净化室”基准#

模型容量重要——但不总符合预期#

正则化 (Dropout、权重衰减) ——有益但依赖方法#

在野外: iNaturalist 与 RecogSeq (不平衡、高异质)#

任务顺序——影响意外地小#

定性权衡: 计算、内存、隐私、任务不可知性#

深度剖析: 几个启发性实验#

实践指南 (应尝试什么？)#

未来方向: 通用持续学习的理想目标#

结语#