永不止步：AI持续学习深度指南

如今的人工智能模型通常在大型数据集上一次性训练完成，然后部署——当世界不断变化时，它们依然是固定且脆弱的。相比之下，人类是持续学习的: 我们不断积累知识，适应新环境，并且在学习新技能时很少会“忘记”旧技能的全部内容。弥合这一差距正是持续学习 (也称为增量学习或终身学习) 的目标: 构建能够随时间学习而不会灾难性地抹去先前所学知识的系统。

由 Wang 等人撰写的综述《持续学习全面综述: 理论、方法与应用》为这一快速发展的领域提供了出色且最新的地图。在本文中，我将带你梳理该综述的核心思想: 问题设定、指导设计选择的理论原理、主要方法类别、这些方法如何在实践中应用，以及未来研究和工程的有前景方向。这将是一场技术性但直观的导览，将理论与算法及应用紧密结合。

持续学习的概念框架，展示了从顺序任务到理论 (稳定性、可塑性、泛化性) ，再到方法 (回放、架构等) ，最后到应用的流程。

图 1: 持续学习的概念框架。该领域研究如何从一系列任务 (a) 中学习，通过平衡理论目标 (b)，这些理论目标又启发了不同方法家族 (c)，最终被应用到各种现实挑战 (d)。

一个持续学习器需要做到什么？至少要实现: (1) 能很好地学习新任务 (可塑性) ，(2) 保持旧任务的性能 (稳定性) ，以及 (3) 在任务间的分布变化下能够泛化。如果我们关心实用性，还需考虑 (4) 资源效率 (内存和计算) 以及 (5) 隐私约束 (如不存储用户数据) 。这五个目标——稳定性、可塑性、任务内泛化性、任务间泛化性和资源效率——驱动着整个文献中的设计选择。

章节路线图:

什么是持续学习？形式化设定和常见场景。
核心理论: 稳定性–可塑性权衡，以及为什么损失平坦度和任务相似性重要。
五大类方法及代表性算法。
这些方法在实际问题中的应用 (视觉分类、检测、分割、生成、强化学习、自然语言处理) 。
趋势、挑战及未来方向。

1. 设定: 我们在解决什么问题？

持续学习研究的是在一系列数据集 (任务) 上训练模型。每个传入的数据集对应一个任务 (或一批) ，学习器应在迄今为止见过的所有任务上表现良好，同时仅能有限访问或无法访问早期任务的数据。

常见的场景分类包括:

实例增量学习 (Instance-Incremental Learning, IIL): 任务相同，数据分批到达。
领域增量学习 (Domain-Incremental Learning, DIL): 标签空间相同，输入分布变化 (如照片 → 素描) 。
任务增量学习 (Task-Incremental Learning, TIL): 任务间标签空间不相交；测试时任务身份已知。
类别增量学习 (Class-Incremental Learning, CIL): 标签空间不相交；测试时任务身份未知 (模型需在所有类别中分类) 。
无任务持续学习 (Task-Free Continual Learning, TFCL): 训练和测试阶段没有任务边界或身份。
在线持续学习 (Online Continual Learning, OCL): 数据流为单遍处理；约束强烈，要求高效。
模糊边界持续学习 (Blurred-Boundary CL, BBCL)、持续预训练 (Continual Pre-training, CPT)、少样本、半/自监督、开放世界变体等。

一个清晰的分类很重要，因为在某一场景 (如 TIL) 表现良好的方法可能在更困难的场景 (如 CIL 或 TFCL) 中失效。

我们如何评估持续学习

三个视角:

整体性能: 第 k 个任务后的平均准确率 (Average Accuracy, AA)，
\[ \mathrm{AA}_k = \frac{1}{k} \sum_{j=1}^k a_{k,j}, \]
其中 \(a_{k,j}\) 是在训练完任务 \(k\) 后在任务 \(j\) 上的准确率。
记忆稳定性: 反向迁移 (Backward Transfer, BWT) 或遗忘度量，用于量化新学习对旧任务性能的影响。负的 BWT 表示遗忘。
学习可塑性: 正向迁移 (Forward Transfer, FWT) 和不妥协性 (intransigence) 度量，用于衡量过去经验对新任务学习的帮助或阻碍程度。

实际评估还报告内存/计算开销、准确率曲线下面积 (随时推理性能) ，以及任务特定指标 (分割的 IoU、检测的 AP、生成模型的 FID、强化学习的归一化奖励等) 。

2. 理论基础: 权衡与几何

两个高层理论见解支撑了持续学习的大部分设计空间。

2.1 稳定性与可塑性 (贝叶斯视角与近似)

从抽象层面看，序列学习可视为随着新任务到来更新模型参数的后验分布:

\[ p(\theta \mid \mathcal{D}_{1:k}) \propto p(\theta \mid \mathcal{D}_{1:k-1}) \, p(\mathcal{D}_k \mid \theta). \]

如果能够计算并存储精确后验，新后验将成为平衡新旧知识的原则性方式。对深度网络而言，真实后验无法求解，因此许多持续学习方法采用近似:

在后验众数附近进行拉普拉斯/二次近似，得到权重正则化方法 (如 EWC) ，即根据参数的重要性 (通常由费舍尔信息估计) 惩罚参数变化。
变分推断 (Variational Inference, VI) 通过参数化的近似后验 \(q(\theta)\)，逐步最小化 KL 散度以更新 (如 VCL) 。VI 引入了类似权重巩固的隐式正则化，但作用于分布。

这两种视角解释了为何保留旧模型快照并惩罚偏离 (权重正则化) 是一种合理的旧信息保持机制。

2.2 几何: 平坦最小值与任务差异

一个有用的二阶见解是利用损失函数的局部曲率 (海森矩阵) 。若任务 \(i\) 的最优参数为 \(\theta_i^*\)，任务 \(j\) 的最优参数为 \(\theta_j^*\)，则二阶展开表明切换任务解时的损失增加上界为:

\[ \ell_i(\theta_j^*) - \ell_i(\theta_i^*) \lesssim \frac{1}{2}\lambda_i^{\max}\,\|\Delta\theta\|^2, \]

其中 \(\lambda_i^{\max}\) 为在 \(\theta_i^*\) 处的最大海森特征值，\(\Delta\theta = \theta_j^* - \theta_i^*\)。

启示包括:

尖锐最小值 (大的 \(\lambda^{\max}\)) 更脆弱: 微小变化会导致早期任务性能急剧下降。
若任务解相距较远 (\(\|\Delta\theta\|\) 大) ，则干扰不可避免。

因此，学习平坦的最小值并减少任务差异 (例如通过共享表示、任务分解或回放) 有助于缓解遗忘。

一张图示，说明了持续学习的关键因素，包括可塑性与稳定性之间的权衡、损失景观的平坦度以及参数空间的结构。

图 2: 持续学习关键因素分析。理想的解决方案需要平衡可塑性与稳定性 (a, b)，且当损失景观平坦 (c) 且任务相似 (d) 时更易找到。然而，随着任务增多，共享解空间 (黄色区域) 会变得极为复杂 (e)。

单一参数能在所有任务上表现优异的情况并不保证存在；随着任务累积，可行区域往往变得微小且不规则，这促使我们采用参数分离或多模式维护的策略。

3. 五大方法家族

综述将方法归纳为五个相互关联的大类。各类以不同方式平衡稳定性、可塑性和泛化性；实际方法常混合多类思想。

一个分类图，展示了持续学习方法的五个主要类别: 基于正则化、基于回放、基于优化、基于表示和基于架构。

图 3: 代表性持续学习方法的分类。

3.1 基于正则化的方法

原理: 约束参数更新，使对旧任务造成损害的变化被惩罚。

两种子类:

权重正则化: 识别旧任务的关键参数并惩罚其变化。EWC (Elastic Weight Consolidation) 是典型方法，其参数重要性由费舍尔信息近似。SI (Synaptic Intelligence) 和 MAS 使用基于轨迹或敏感度的替代重要性度量。变分方法 (VCL) 通过维护后验分布进行贝叶斯式权重巩固。
功能正则化 (蒸馏) : 保持新模型的输出接近旧模型的输出 (软标签或中间特征) 。Learning without Forgetting (LwF) 在新任务数据上施加蒸馏，可与回放结合提高保真度。

优缺点:

内存占用小 (仅保存旧参数快照) 。
当表示需大幅更改时可能出现不妥协性，正则化强度选择需谨慎。

基于正则化的方法使用旧模型的冻结副本来指导新模型训练，通过惩罚重要权重变化 (权重正则化) 或确保输出相似 (功能正则化) 。

图 4: 基于正则化的方法: 模仿旧参数 (权重正则化) 或输出 (功能正则化) 。

3.2 基于回放的方法

原理: 在学习新任务过程中复习旧任务。

三种子类:

经验回放: 保存少量过去任务的真实样本，与新数据混合重训练。关键挑战包括样本选取与有限缓冲区管理。策略有蓄水池抽样、类别平衡环形缓冲、梯度多样性选择 (GSS、ASER 等) 。
生成式回放: 训练生成模型 (GAN/VAE) 以生成伪样本，避免保存真实数据，但增加生成模型训练与遗忘控制复杂性。通常适用于小数据集或特征级回放。
特征回放: 存储或生成中间特征以降低内存和隐私问题。须处理表示漂移，否则特征会失效 (可通过特征蒸馏或冻结早期层缓解) 。

优缺点:

在真实的 CIL、OCL 场景下表现最优。
存储或隐私限制可能削弱适用性；生成回放则以模型复杂性和不稳定性换取存储优势。

基于回放的方法近似旧数据分布，例如存储部分旧样本 (经验回放) 或训练生成模型生成新样本。

图 5: 基于回放的方法: 经验回放、生成式回放、特征回放。

代表性方法包括: iCaRL (原型+样本记忆) 、DER/DER++ (样本+logits存储) 、ER (经验回放) 配合精细选择和增强策略；GDumb 展示了“简单内存+重新训练”也能有效。

3.3 基于优化的方法

原理: 调整优化方式以最小化对旧任务的干扰。

关键技术:

梯度投影/正交化: 修改新任务梯度，使其不增加旧任务损失。GEM、A-GEM 利用缓冲梯度投影；OGD、OWM 采用正交约束；GPM 保持重要梯度子空间用于投影。
元学习: 学习鲁棒的更新规则或初始化 (如 OML、ANML、La-MAML) ，提升表示和更新动态的抗干扰能力。
损失景观操控: 鼓励收敛于平坦最小值 (如 SAM、平均权重、线性连接器) ，平坦最小值能降低遗忘。

优缺点:

高效且内存节省。
部分需要二阶或额外计算，但可有高效近似。

基于优化的方法直接修改学习更新规则。例如，梯度投影确保新任务更新不干扰旧任务的重要方向。

图 6: 基于优化的方法: 梯度投影、元学习与促进平坦最小值。

3.4 基于表示的方法

原理: 设计或获取稳定、可迁移的表示，从而减少干扰。

强健表示可降低分布变化带来的性能损失。

主要思想:

自监督学习 (SSL): 对比学习等自监督目标常产生更鲁棒的特征。
大规模预训练: 利用强大的预训练骨干 (视觉/语言模型、Transformer) 可显著减少遗忘。实用策略包括冻结骨干并微调适配器或提示、或平缓优化。
提示与适配器: 在 Transformer 时代，可使用低维提示或适配器实现廉价、任务特定地适应预训练模型。

优缺点:

非常实用，预训练常带来巨大提升。
依赖昂贵的上游训练与精细下游设计。

基于表示的方法专注于学习鲁棒特征，常通过自监督预训练，然后持续微调下游任务。

图 7: 利用自监督学习与预训练获得稳定特征；通过适配器或提示灵活调整。

3.5 基于架构的方法

原理: 将任务参数隔离，避免相互干扰。

常见变体:

参数分配: 为任务分配不相交的参数子集 (掩码) (PackNet、Piggyback、HAT) ，通过剪枝或掩码学习动态分配。
模型分解: 区分共享与任务特定组件 (如 APD、低秩分解) ，允许有限参数增长。
模块化网络/专家混合: 为任务构建专属模块，渐进式网络为任务逐步添加列。

优缺点:

通过参数隔离几乎可避免遗忘。
扩展性受限 (参数线性增长) ，部分方法需要任务身份选择路径。

基于架构的方法调整网络结构，为任务分配参数或模块，分解共享与任务特定部分。

图 8: 参数分配、模型分解和模块化网络有助于隔离任务知识。

4. 应用持续学习: 挑战与调整

上述方法常结合应用于各种实际场景。以下总结部分代表性应用挑战与成功实践。

4.1 类别增量学习 (CIL): 无任务标签推断挑战

CIL 需在无任务标签情况下分类所有已见类别，涉及学习无偏类表示与隐式预测任务身份 (或避免其需求) 。

表现最佳的 CIL 系统通常:

使用精心构建的样本记忆进行经验回放。
在特征与 logit 层进行蒸馏，保持表现稳定。
通过分类器校准或偏差校正解决样本稀缺不平衡。

一张图示，展示了 CIL 策略如何作用于数据空间 (回放) 、特征空间 (蒸馏) 和标签空间 (蒸馏) 以减少遗忘。

图 9: CIL 策略作用于数据、特征和标签空间以降低遗忘。

代表性方法:

数据空间重点: iCaRL、GSS、Mnemonics、DER/DER++ (回放与记忆管理) 。
特征空间重点: LUCIR、PODNet (强表示蒸馏与类间分离) 。
标签空间重点: LwF 变体、分类器再平衡 (BiC、WA) 。

若隐私限制无法保存样本，“无数据” CIL 技术通过模型反演 (DeepInversion、Dreaming) 或类别统计与原型校准实现。

综述中提供丰富表格与对比分析，实践者应按实际约束 (内存、计算、隐私) 选用方法。

4.2 标签稀缺: 少样本持续学习与半/自监督设置

少样本持续学习 (FSCIL) 结合类增量约束与极少样本输入。典型策略:

冻结鲁棒预训练骨干，仅更新轻量分类器 (原型法) 。
元学习获得快速适应初始化 (MetaFSCIL) 。
生成特征或数据级合成样本用于回放。

半监督持续学习利用无标签数据，通过自监督目标、伪标签或半监督生成回放。

无监督持续学习 (UCL)——从无标签数据流中学习——是一项挑战性前沿: 如何构建在分布变化中不遗忘且保持有用的表示。

4.3 无任务与在线学习 (TFCL, OCL)

在现实数据流中往往缺乏任务边界。TFCL/OCL 聚焦:

高效缓冲策略 (蓄水池抽样为常见基准) 。
按预期遗忘优先样本 (MIR、ASER) 。
动态扩展专家与保守更新。

在线 CL 实践需精心调整学习率、增强策略，并使用小型支持缓冲。

4.4 超越分类: 检测、分割、生成、强化学习、自然语言处理

目标检测: 新旧类可能共现；对区域候选的蒸馏与负样本挖掘关键。方法包括 ILOD、RILOD、RKT。
语义分割: 背景漂移严重，旧类像素常变为背景，自适应蒸馏与伪标签常用。
条件生成: 生成式回放用于生成模型 (MeRGANs、LifelongGAN) ，但稳定训练生成器本身即为挑战。
强化学习: 需应对非平稳环境并保留有效策略。结合监督 CL 技术 (EWC、回放) 与 RL 专用方案 (策略巩固、优先回放) 。
自然语言处理: 预训练与高效参数微调 (适配器、提示) 极为有效；持续更新语言模型需谨慎避免灾难性遗忘。

4.5 效率、隐私、鲁棒性等考虑

资源效率: 持续学习旨在避免代价高昂的重新训练。使用微型缓冲或压缩表示的回放技术可显著节约。
隐私: 在联邦或隐私敏感场景，数据级回放不可行。联邦持续学习融合联邦协议；机器遗忘相关于选择性遗忘。
鲁棒性: 提升对抗与泛化鲁棒性的技术 (平坦最小值、集成、Lipschitz 正则化) 同样助力持续学习。

5. 设计模式与实践建议

如你是一名工程师或研究者构建持续学习系统，请牢记以下要点:

从高质量表示开始。预训练或自监督骨干显著减少遗忘，简化后续更新。
尽量采用回放。微小样本缓冲 + 智能选取 (或特征回放) 常为 CIL/OCL 最稳健路径。
融合策略。蒸馏 + 回放 + 分类器校准优于单一方法；当无样本时，EWC 类正则同样有用。
面对极端内存或隐私约束，优先考虑特征回放、蒸馏统计或无数据方案，但需权衡性能。
对在线/单遍场景，关注样本选择、学习率调度，使用正交梯度或约束优化。
若任务身份可得且计算资源允许，架构式或模块化策略可几乎消除遗忘。
针对场景调整评估。TIL 表现优异者或在 CIL 失效；报告 AA、BWT、FWT、FM 与资源开销以全面呈现。

6. 领域新趋势

综述指出多项令人振奋的前沿方向:

从防遗忘到促迁移: 不仅保留旧知识，还要利用其加速新任务学习 (正向迁移) 。
基础模型与预训练: 大规模预训练与多模态模型重塑格局，需发展高效、鲁棒的增量更新。
扩散模型及新生成机制: 高质量条件生成与生成回放结合日渐兴起。
基于 Transformer 的持续适应: NLP 的提示与适配器策略正扩展到视觉与多模态模型。
生物启发: 互补学习系统 (海马体–新皮层类比) 、突触巩固、回放及稀疏模块结构持续激发算法创新。
具身智能: 现实或仿真环境中的智能体提供终身学习的天然试验场。

7. 结语

持续学习处于理论、方法、应用三者交汇点: 既丰富又紧迫。要使实际 AI 系统长期保持有用与安全，就必须能持续适应且不遗忘。Wang 等人的综述出色地统一了理论、方法与应用，并为未来研究提供指引——融合鲁棒表示、优化技巧、内存高效回放、模块化架构及神经科学洞见。

若你正在打造需要长期学习的系统，请将持续学习视为一项工程原则: 明智选择表示，合理管理复习内容，设计尊重旧知识的更新机制，并在现实约束下评估性能。该领域高速前进——下一代自适应 AI 系统将深受这些基础理念的影响。

附录: 相关图表

持续学习的概念框架，展示了从顺序任务到理论 (稳定性、可塑性、泛化性) ，再到方法 (回放、架构等) ，最后到应用的流程。

图 1: 持续学习的概念框架。

一张图示，说明了持续学习的关键因素，包括可塑性与稳定性之间的权衡、损失景观的平坦度以及参数空间的结构。

图 2: 持续学习关键因素分析。

一个分类图，展示了持续学习方法的五个主要类别: 基于正则化、基于回放、基于优化、基于表示和基于架构。

图 3: 代表性持续学习方法分类。

基于正则化的方法使用旧模型的冻结副本指导新模型训练。

图 4: 基于正则化的方法。

基于回放的方法近似旧数据分布。

图 5: 基于回放的方法。

一张图示，说明了基于优化的方法，包括梯度投影、探索损失景观与元学习。

图 6: 基于优化的方法。

一张图示，展示了通过对比损失预训练以形成鲁棒特征，再迁移或蒸馏至下游任务。

图 7: 基于表示的方法。

一张图示，展示了不同架构策略，包括参数分配、模块化网络、模型分解。

图 8: 基于架构的方法。

一张图示，展示了 CIL 策略如何作用于数据空间、特征空间和标签空间防止遗忘。

图 9: 类别增量学习的代表性策略。

一个表格，总结了使用经验回放的 CIL 方法，按数据、特征、标签空间关注点分类。

表 2: 按关注领域分类的 CIL 方法。

一个表格，总结了用于无任务 (TFCL)、在线 (OCL) 和通用 (GCL) 持续学习的方法。

表 3: TFCL、OCL 和 GCL 方法。

如果你希望获得用于构建或评测持续学习系统的简明清单，我可以提供模板化的实验设置 (数据集、基准、度量) 以及依据你的约束 (内存、隐私、计算) 优先排序的算法列表。

1. 设定: 我们在解决什么问题？#

我们如何评估持续学习#

2. 理论基础: 权衡与几何#

2.1 稳定性与可塑性 (贝叶斯视角与近似)#

2.2 几何: 平坦最小值与任务差异#

3. 五大方法家族#

3.1 基于正则化的方法#

3.2 基于回放的方法#

3.3 基于优化的方法#

3.4 基于表示的方法#

3.5 基于架构的方法#

4. 应用持续学习: 挑战与调整#

4.1 类别增量学习 (CIL): 无任务标签推断挑战#

4.2 标签稀缺: 少样本持续学习与半/自监督设置#

4.3 无任务与在线学习 (TFCL, OCL)#

4.4 超越分类: 检测、分割、生成、强化学习、自然语言处理#

4.5 效率、隐私、鲁棒性等考虑#

5. 设计模式与实践建议#

6. 领域新趋势#

7. 结语#

1. 设定: 我们在解决什么问题？

我们如何评估持续学习

2. 理论基础: 权衡与几何

2.1 稳定性与可塑性 (贝叶斯视角与近似)

2.2 几何: 平坦最小值与任务差异

3. 五大方法家族

3.1 基于正则化的方法

3.2 基于回放的方法

3.3 基于优化的方法

3.4 基于表示的方法

3.5 基于架构的方法

4. 应用持续学习: 挑战与调整

4.1 类别增量学习 (CIL): 无任务标签推断挑战

4.2 标签稀缺: 少样本持续学习与半/自监督设置

4.3 无任务与在线学习 (TFCL, OCL)

4.4 超越分类: 检测、分割、生成、强化学习、自然语言处理

4.5 效率、隐私、鲁棒性等考虑

5. 设计模式与实践建议

6. 领域新趋势

7. 结语