如今的人工智能模型通常在大型数据集上一次性训练完成,然后部署——当世界不断变化时,它们依然是固定且脆弱的。相比之下,人类是持续学习的: 我们不断积累知识,适应新环境,并且在学习新技能时很少会“忘记”旧技能的全部内容。弥合这一差距正是持续学习 (也称为增量学习或终身学习) 的目标: 构建能够随时间学习而不会灾难性地抹去先前所学知识的系统。
由 Wang 等人撰写的综述《持续学习全面综述: 理论、方法与应用》为这一快速发展的领域提供了出色且最新的地图。在本文中,我将带你梳理该综述的核心思想: 问题设定、指导设计选择的理论原理、主要方法类别、这些方法如何在实践中应用,以及未来研究和工程的有前景方向。这将是一场技术性但直观的导览,将理论与算法及应用紧密结合。

图 1: 持续学习的概念框架。该领域研究如何从一系列任务 (a) 中学习,通过平衡理论目标 (b),这些理论目标又启发了不同方法家族 (c),最终被应用到各种现实挑战 (d)。
一个持续学习器需要做到什么?至少要实现: (1) 能很好地学习新任务 (可塑性) ,(2) 保持旧任务的性能 (稳定性) ,以及 (3) 在任务间的分布变化下能够泛化。如果我们关心实用性,还需考虑 (4) 资源效率 (内存和计算) 以及 (5) 隐私约束 (如不存储用户数据) 。这五个目标——稳定性、可塑性、任务内泛化性、任务间泛化性和资源效率——驱动着整个文献中的设计选择。
章节路线图:
- 什么是持续学习?形式化设定和常见场景。
- 核心理论: 稳定性–可塑性权衡,以及为什么损失平坦度和任务相似性重要。
- 五大类方法及代表性算法。
- 这些方法在实际问题中的应用 (视觉分类、检测、分割、生成、强化学习、自然语言处理) 。
- 趋势、挑战及未来方向。
1. 设定: 我们在解决什么问题?
持续学习研究的是在一系列数据集 (任务) 上训练模型。每个传入的数据集对应一个任务 (或一批) ,学习器应在迄今为止见过的所有任务上表现良好,同时仅能有限访问或无法访问早期任务的数据。
常见的场景分类包括:
- 实例增量学习 (Instance-Incremental Learning, IIL): 任务相同,数据分批到达。
- 领域增量学习 (Domain-Incremental Learning, DIL): 标签空间相同,输入分布变化 (如照片 → 素描) 。
- 任务增量学习 (Task-Incremental Learning, TIL): 任务间标签空间不相交;测试时任务身份已知。
- 类别增量学习 (Class-Incremental Learning, CIL): 标签空间不相交;测试时任务身份未知 (模型需在所有类别中分类) 。
- 无任务持续学习 (Task-Free Continual Learning, TFCL): 训练和测试阶段没有任务边界或身份。
- 在线持续学习 (Online Continual Learning, OCL): 数据流为单遍处理;约束强烈,要求高效。
- 模糊边界持续学习 (Blurred-Boundary CL, BBCL)、持续预训练 (Continual Pre-training, CPT)、少样本、半/自监督、开放世界变体等。
一个清晰的分类很重要,因为在某一场景 (如 TIL) 表现良好的方法可能在更困难的场景 (如 CIL 或 TFCL) 中失效。
我们如何评估持续学习
三个视角:
整体性能: 第 k 个任务后的平均准确率 (Average Accuracy, AA),
\[ \mathrm{AA}_k = \frac{1}{k} \sum_{j=1}^k a_{k,j}, \]其中 \(a_{k,j}\) 是在训练完任务 \(k\) 后在任务 \(j\) 上的准确率。
记忆稳定性: 反向迁移 (Backward Transfer, BWT) 或遗忘度量,用于量化新学习对旧任务性能的影响。负的 BWT 表示遗忘。
学习可塑性: 正向迁移 (Forward Transfer, FWT) 和不妥协性 (intransigence) 度量,用于衡量过去经验对新任务学习的帮助或阻碍程度。
实际评估还报告内存/计算开销、准确率曲线下面积 (随时推理性能) ,以及任务特定指标 (分割的 IoU、检测的 AP、生成模型的 FID、强化学习的归一化奖励等) 。
2. 理论基础: 权衡与几何
两个高层理论见解支撑了持续学习的大部分设计空间。
2.1 稳定性与可塑性 (贝叶斯视角与近似)
从抽象层面看,序列学习可视为随着新任务到来更新模型参数的后验分布:
\[ p(\theta \mid \mathcal{D}_{1:k}) \propto p(\theta \mid \mathcal{D}_{1:k-1}) \, p(\mathcal{D}_k \mid \theta). \]如果能够计算并存储精确后验,新后验将成为平衡新旧知识的原则性方式。对深度网络而言,真实后验无法求解,因此许多持续学习方法采用近似:
- 在后验众数附近进行拉普拉斯/二次近似,得到权重正则化方法 (如 EWC) ,即根据参数的重要性 (通常由费舍尔信息估计) 惩罚参数变化。
- 变分推断 (Variational Inference, VI) 通过参数化的近似后验 \(q(\theta)\),逐步最小化 KL 散度以更新 (如 VCL) 。VI 引入了类似权重巩固的隐式正则化,但作用于分布。
这两种视角解释了为何保留旧模型快照并惩罚偏离 (权重正则化) 是一种合理的旧信息保持机制。
2.2 几何: 平坦最小值与任务差异
一个有用的二阶见解是利用损失函数的局部曲率 (海森矩阵) 。若任务 \(i\) 的最优参数为 \(\theta_i^*\),任务 \(j\) 的最优参数为 \(\theta_j^*\),则二阶展开表明切换任务解时的损失增加上界为:
\[ \ell_i(\theta_j^*) - \ell_i(\theta_i^*) \lesssim \frac{1}{2}\lambda_i^{\max}\,\|\Delta\theta\|^2, \]其中 \(\lambda_i^{\max}\) 为在 \(\theta_i^*\) 处的最大海森特征值,\(\Delta\theta = \theta_j^* - \theta_i^*\)。
启示包括:
- 尖锐最小值 (大的 \(\lambda^{\max}\)) 更脆弱: 微小变化会导致早期任务性能急剧下降。
- 若任务解相距较远 (\(\|\Delta\theta\|\) 大) ,则干扰不可避免。
因此,学习平坦的最小值并减少任务差异 (例如通过共享表示、任务分解或回放) 有助于缓解遗忘。

图 2: 持续学习关键因素分析。理想的解决方案需要平衡可塑性与稳定性 (a, b),且当损失景观平坦 (c) 且任务相似 (d) 时更易找到。然而,随着任务增多,共享解空间 (黄色区域) 会变得极为复杂 (e)。
单一参数能在所有任务上表现优异的情况并不保证存在;随着任务累积,可行区域往往变得微小且不规则,这促使我们采用参数分离或多模式维护的策略。
3. 五大方法家族
综述将方法归纳为五个相互关联的大类。各类以不同方式平衡稳定性、可塑性和泛化性;实际方法常混合多类思想。

图 3: 代表性持续学习方法的分类。
3.1 基于正则化的方法
原理: 约束参数更新,使对旧任务造成损害的变化被惩罚。
两种子类:
- 权重正则化: 识别旧任务的关键参数并惩罚其变化。EWC (Elastic Weight Consolidation) 是典型方法,其参数重要性由费舍尔信息近似。SI (Synaptic Intelligence) 和 MAS 使用基于轨迹或敏感度的替代重要性度量。变分方法 (VCL) 通过维护后验分布进行贝叶斯式权重巩固。
- 功能正则化 (蒸馏) : 保持新模型的输出接近旧模型的输出 (软标签或中间特征) 。Learning without Forgetting (LwF) 在新任务数据上施加蒸馏,可与回放结合提高保真度。
优缺点:
- 内存占用小 (仅保存旧参数快照) 。
- 当表示需大幅更改时可能出现不妥协性,正则化强度选择需谨慎。

图 4: 基于正则化的方法: 模仿旧参数 (权重正则化) 或输出 (功能正则化) 。
3.2 基于回放的方法
原理: 在学习新任务过程中复习旧任务。
三种子类:
- 经验回放: 保存少量过去任务的真实样本,与新数据混合重训练。关键挑战包括样本选取与有限缓冲区管理。策略有蓄水池抽样、类别平衡环形缓冲、梯度多样性选择 (GSS、ASER 等) 。
- 生成式回放: 训练生成模型 (GAN/VAE) 以生成伪样本,避免保存真实数据,但增加生成模型训练与遗忘控制复杂性。通常适用于小数据集或特征级回放。
- 特征回放: 存储或生成中间特征以降低内存和隐私问题。须处理表示漂移,否则特征会失效 (可通过特征蒸馏或冻结早期层缓解) 。
优缺点:
- 在真实的 CIL、OCL 场景下表现最优。
- 存储或隐私限制可能削弱适用性;生成回放则以模型复杂性和不稳定性换取存储优势。

图 5: 基于回放的方法: 经验回放、生成式回放、特征回放。
代表性方法包括: iCaRL (原型+样本记忆) 、DER/DER++ (样本+logits存储) 、ER (经验回放) 配合精细选择和增强策略;GDumb 展示了“简单内存+重新训练”也能有效。
3.3 基于优化的方法
原理: 调整优化方式以最小化对旧任务的干扰。
关键技术:
- 梯度投影/正交化: 修改新任务梯度,使其不增加旧任务损失。GEM、A-GEM 利用缓冲梯度投影;OGD、OWM 采用正交约束;GPM 保持重要梯度子空间用于投影。
- 元学习: 学习鲁棒的更新规则或初始化 (如 OML、ANML、La-MAML) ,提升表示和更新动态的抗干扰能力。
- 损失景观操控: 鼓励收敛于平坦最小值 (如 SAM、平均权重、线性连接器) ,平坦最小值能降低遗忘。
优缺点:
- 高效且内存节省。
- 部分需要二阶或额外计算,但可有高效近似。

图 6: 基于优化的方法: 梯度投影、元学习与促进平坦最小值。
3.4 基于表示的方法
原理: 设计或获取稳定、可迁移的表示,从而减少干扰。
强健表示可降低分布变化带来的性能损失。
主要思想:
- 自监督学习 (SSL): 对比学习等自监督目标常产生更鲁棒的特征。
- 大规模预训练: 利用强大的预训练骨干 (视觉/语言模型、Transformer) 可显著减少遗忘。实用策略包括冻结骨干并微调适配器或提示、或平缓优化。
- 提示与适配器: 在 Transformer 时代,可使用低维提示或适配器实现廉价、任务特定地适应预训练模型。
优缺点:
- 非常实用,预训练常带来巨大提升。
- 依赖昂贵的上游训练与精细下游设计。

图 7: 利用自监督学习与预训练获得稳定特征;通过适配器或提示灵活调整。
3.5 基于架构的方法
原理: 将任务参数隔离,避免相互干扰。
常见变体:
- 参数分配: 为任务分配不相交的参数子集 (掩码) (PackNet、Piggyback、HAT) ,通过剪枝或掩码学习动态分配。
- 模型分解: 区分共享与任务特定组件 (如 APD、低秩分解) ,允许有限参数增长。
- 模块化网络/专家混合: 为任务构建专属模块,渐进式网络为任务逐步添加列。
优缺点:
- 通过参数隔离几乎可避免遗忘。
- 扩展性受限 (参数线性增长) ,部分方法需要任务身份选择路径。

图 8: 参数分配、模型分解和模块化网络有助于隔离任务知识。
4. 应用持续学习: 挑战与调整
上述方法常结合应用于各种实际场景。以下总结部分代表性应用挑战与成功实践。
4.1 类别增量学习 (CIL): 无任务标签推断挑战
CIL 需在无任务标签情况下分类所有已见类别,涉及学习无偏类表示与隐式预测任务身份 (或避免其需求) 。
表现最佳的 CIL 系统通常:
- 使用精心构建的样本记忆进行经验回放。
- 在特征与 logit 层进行蒸馏,保持表现稳定。
- 通过分类器校准或偏差校正解决样本稀缺不平衡。

图 9: CIL 策略作用于数据、特征和标签空间以降低遗忘。
代表性方法:
- 数据空间重点: iCaRL、GSS、Mnemonics、DER/DER++ (回放与记忆管理) 。
- 特征空间重点: LUCIR、PODNet (强表示蒸馏与类间分离) 。
- 标签空间重点: LwF 变体、分类器再平衡 (BiC、WA) 。
若隐私限制无法保存样本,“无数据” CIL 技术通过模型反演 (DeepInversion、Dreaming) 或类别统计与原型校准实现。
综述中提供丰富表格与对比分析,实践者应按实际约束 (内存、计算、隐私) 选用方法。
4.2 标签稀缺: 少样本持续学习与半/自监督设置
少样本持续学习 (FSCIL) 结合类增量约束与极少样本输入。典型策略:
- 冻结鲁棒预训练骨干,仅更新轻量分类器 (原型法) 。
- 元学习获得快速适应初始化 (MetaFSCIL) 。
- 生成特征或数据级合成样本用于回放。
半监督持续学习利用无标签数据,通过自监督目标、伪标签或半监督生成回放。
无监督持续学习 (UCL)——从无标签数据流中学习——是一项挑战性前沿: 如何构建在分布变化中不遗忘且保持有用的表示。
4.3 无任务与在线学习 (TFCL, OCL)
在现实数据流中往往缺乏任务边界。TFCL/OCL 聚焦:
- 高效缓冲策略 (蓄水池抽样为常见基准) 。
- 按预期遗忘优先样本 (MIR、ASER) 。
- 动态扩展专家与保守更新。
在线 CL 实践需精心调整学习率、增强策略,并使用小型支持缓冲。
4.4 超越分类: 检测、分割、生成、强化学习、自然语言处理
- 目标检测: 新旧类可能共现;对区域候选的蒸馏与负样本挖掘关键。方法包括 ILOD、RILOD、RKT。
- 语义分割: 背景漂移严重,旧类像素常变为背景,自适应蒸馏与伪标签常用。
- 条件生成: 生成式回放用于生成模型 (MeRGANs、LifelongGAN) ,但稳定训练生成器本身即为挑战。
- 强化学习: 需应对非平稳环境并保留有效策略。结合监督 CL 技术 (EWC、回放) 与 RL 专用方案 (策略巩固、优先回放) 。
- 自然语言处理: 预训练与高效参数微调 (适配器、提示) 极为有效;持续更新语言模型需谨慎避免灾难性遗忘。
4.5 效率、隐私、鲁棒性等考虑
- 资源效率: 持续学习旨在避免代价高昂的重新训练。使用微型缓冲或压缩表示的回放技术可显著节约。
- 隐私: 在联邦或隐私敏感场景,数据级回放不可行。联邦持续学习融合联邦协议;机器遗忘相关于选择性遗忘。
- 鲁棒性: 提升对抗与泛化鲁棒性的技术 (平坦最小值、集成、Lipschitz 正则化) 同样助力持续学习。
5. 设计模式与实践建议
如你是一名工程师或研究者构建持续学习系统,请牢记以下要点:
- 从高质量表示开始。预训练或自监督骨干显著减少遗忘,简化后续更新。
- 尽量采用回放。微小样本缓冲 + 智能选取 (或特征回放) 常为 CIL/OCL 最稳健路径。
- 融合策略。蒸馏 + 回放 + 分类器校准优于单一方法;当无样本时,EWC 类正则同样有用。
- 面对极端内存或隐私约束,优先考虑特征回放、蒸馏统计或无数据方案,但需权衡性能。
- 对在线/单遍场景,关注样本选择、学习率调度,使用正交梯度或约束优化。
- 若任务身份可得且计算资源允许,架构式或模块化策略可几乎消除遗忘。
- 针对场景调整评估。TIL 表现优异者或在 CIL 失效;报告 AA、BWT、FWT、FM 与资源开销以全面呈现。
6. 领域新趋势
综述指出多项令人振奋的前沿方向:
- 从防遗忘到促迁移: 不仅保留旧知识,还要利用其加速新任务学习 (正向迁移) 。
- 基础模型与预训练: 大规模预训练与多模态模型重塑格局,需发展高效、鲁棒的增量更新。
- 扩散模型及新生成机制: 高质量条件生成与生成回放结合日渐兴起。
- 基于 Transformer 的持续适应: NLP 的提示与适配器策略正扩展到视觉与多模态模型。
- 生物启发: 互补学习系统 (海马体–新皮层类比) 、突触巩固、回放及稀疏模块结构持续激发算法创新。
- 具身智能: 现实或仿真环境中的智能体提供终身学习的天然试验场。
7. 结语
持续学习处于理论、方法、应用三者交汇点: 既丰富又紧迫。要使实际 AI 系统长期保持有用与安全,就必须能持续适应且不遗忘。Wang 等人的综述出色地统一了理论、方法与应用,并为未来研究提供指引——融合鲁棒表示、优化技巧、内存高效回放、模块化架构及神经科学洞见。
若你正在打造需要长期学习的系统,请将持续学习视为一项工程原则: 明智选择表示,合理管理复习内容,设计尊重旧知识的更新机制,并在现实约束下评估性能。该领域高速前进——下一代自适应 AI 系统将深受这些基础理念的影响。
附录: 相关图表

图 1: 持续学习的概念框架。

图 2: 持续学习关键因素分析。

图 3: 代表性持续学习方法分类。

图 4: 基于正则化的方法。

图 5: 基于回放的方法。

图 6: 基于优化的方法。

图 7: 基于表示的方法。

图 8: 基于架构的方法。

图 9: 类别增量学习的代表性策略。

表 2: 按关注领域分类的 CIL 方法。

表 3: TFCL、OCL 和 GCL 方法。
如果你希望获得用于构建或评测持续学习系统的简明清单,我可以提供模板化的实验设置 (数据集、基准、度量) 以及依据你的约束 (内存、隐私、计算) 优先排序的算法列表。
](https://deep-paper.org/en/paper/2302.00487/images/cover.png)