人工智能领域长期以来一直追求一种能够持续学习的系统——随着时间的推移不断吸收新信息,而不会忘记已经掌握的知识。人类天生能够做到这一点: 每当我们学会一个新食谱或一首新曲子时,并不需要“重新训练”大脑。而大多数人工智能模型则是静态的。经过一次大规模的训练后,它们往往被冻结;想让它们学到新东西通常意味着从头开始训练,这在计算上既昂贵又不可持续。

这正是持续学习 (Continual Learning, CL) 的用武之地。其目标虽然简单,却意义深远: 让模型能够从连续的数据流中学习,而不会发生灾难性遗忘。应对遗忘最实际的方法之一是回放 (又称复习) ,即模型在学习新样本时,偶尔回顾过去的样本。这就像在参加新考试之前复习旧笔记一样。

但问题在于,如果直接应用回放,它可能会使持续学习的成本翻倍,因为每个训练批次都包含新旧数据。为了让持续学习更具可扩展性,Truman Hickok 及其同事在论文《可扩展的持续学习回放策略》中提出了一套由三种互补工具组成的高效学习方案:

  1. 低秩自适应 (LoRA) ——让微调更轻量,并对学习过程进行正则化。
  2. 巩固 (Consolidation) ——通过两阶段回放机制减少回放使用量。
  3. 模型合并 (Model Merging) ——在长任务序列中平滑地整合特定任务的权重。

三者共同形成一个强大的框架,在实现相同性能的同时可减少高达 65% 的回放样本 。 下面让我们逐步了解其中的关键思路。


持续学习的试验场

持续学习的核心是稳定性-可塑性困境 : 模型必须够“可塑”,以便学习新信息,同时又要够“稳定”,避免覆盖旧知识。当标准网络在新任务上进行训练时,其权重会向优化新数据的方向偏移——常常以牺牲先前学习的知识为代价。这种“灾难性遗忘”是 CL 面临的根本问题。

CL 的研究通常将方法划分为三类:

  1. 基于正则化的方法: 通过引入惩罚项,约束关键权重的过度漂移。
  2. 模型扩展方法: 每个任务引入新的模块或层以隔离知识,但可能导致模型无限增长。
  3. 基于回放的方法: 存储少量旧样本,并在训练中与新数据混合使用,以直接强化过去的知识。

本文聚焦于让基于回放的方法具备可扩展性 , 因为它们效果显著且概念相对简单。

回放率 (RR)

一个关键变量是回放率 (RR)——即一个批次中回放样本与新任务样本的比例:

\[ \mathrm{RR} = \frac{N_{\mathrm{replay}}}{N_{\mathrm{task}}} \]

RR 为 1.0 (新旧样本各占一半) 是常见的基线,但这会导致训练成本翻倍。降低 RR 虽能减少每批次的数据量,加快训练速度,但可能带来更严重的遗忘。

回放率 (RR) 示意图。每个任务的训练批次包含部分回放样本 (绿色) 和新任务样本 (黄色) 。降低 RR 会让更多批次用于新任务数据,减少回放,从而缩短总体训练时间。

图 1. 较低的回放率会缩短训练时间,但可能加剧遗忘。


策略 1: LoRA —— 经济高效的学习

参数高效微调 (PEFT) 技术在现代 AI 中至关重要,它能够在不更新全部参数的情况下调整大型预训练模型。 低秩自适应 (LoRA) 是其中最流行的技术之一。

LoRA 假设模型在微调时的权重变化可以用一个低秩更新来近似表示。与其修改整个权重矩阵 \( W_0 \),LoRA 保持其冻结,仅训练两个小矩阵 \( A \) 和 \( B \),它们的乘积近似于权重的变化:

\[ W = W_0 + BA \]

因为秩 \( r \ll \min(d, k) \),LoRA 需要更新的参数要少得多,使训练更快、更轻量。

将 LoRA 应用于持续学习

在持续学习中,作者采用 LoRA 的方式如下:

  1. 为每个新任务 \( t \) 创建新的 LoRA 适配器 \( A_t \) 和 \( B_t \)。
  2. 仅在混合了回放样本的新数据上训练这些适配器。
  3. 将学习到的更新合并进模型: \( W_t = W_{t-1} + B_t A_t \)。
  4. 丢弃适配器,为下一个任务重新开始。

这种设计实现了高效的训练循环。更重要的是,LoRA 引入了隐式正则化: 它限制模型每个任务的变化幅度。较小的可塑性意味着更少的遗忘——这相当于一个内置的安全保护。


LoRA vs. 全量微调 (FFT)

论文比较了 LoRA 与标准全量微调在不同条件下的性能。

LoRA 与全量微调 (FFT) 的性能对比。顶行改变每任务的类别数,底行改变回放率。FFT 整体表现更好,而在任务较小或回放有限时,LoRA 表现出色。

图 2. 在不同任务规模和回放率下,当灵活性受限时,LoRA 仍能保持竞争力。

结果亮点:

  • 充足回放: 当回放样本丰富时,FFT 表现占优。其高灵活性在遗忘受控的情况下有助于吸收新数据。
  • 小任务: 在高度碎片化的数据流 (例如仅包含 2–3 个类别的小任务) 中,LoRA 稳定性更强,在持续预训练 (CPT) 场景下甚至超过 FFT。
  • 稀疏回放: 在低 RR (如 0.1) 条件下,FFT 会出现严重的遗忘导致性能崩溃,而 LoRA 的性能下降更为平缓。

简而言之,LoRA 在任务小或回放不足的严苛条件下表现突出。这种鲁棒性使其成为扩展持续学习系统的理想方案。


策略 2: 巩固 —— 更聪明而非更费力地回放

回放确实有效,但代价高昂。如果能更聪明地使用它呢?作者提出了巩固 (Consolidation) 策略,一种受生物大脑“睡眠巩固记忆”机制启发的两阶段回放方法。

两个阶段

  1. 任务学习阶段:低回放率 (如 RR = 0.25) 训练每个新任务,这能显著降低主动训练时期的计算成本。
  2. 巩固阶段: 每完成一个任务后,仅在过去任务的回放样本上进行训练,通过这一专门阶段进一步精炼和平衡模型知识。

展示有无巩固的持续学习示意图。(a) 标准学习仅在训练中使用回放。(b.i) 任务训练阶段采用低 RR 与 LoRA。(b.ii) 任务后增加一个回放阶段进行巩固。

图 3. 巩固将学习 (低回放) 与记忆恢复 (任务后回放) 分离。

衡量回放效率

为量化效率,作者定义了总回放百分比 (TRP) ——即两个阶段的总回放样本量占 RR=1.0 基线的比例:

\[ TRP = \frac{\sum_{i=1}^{T} (N_{\text{replay task},i} + N_{\text{replay consolidation},i})} {\sum_{i=1}^{T} N_{\text{replay baseline 1:1},i}} \times 100\% \]

总结不同 RR、CSR 和 TRP 设置下性能的表格。巩固策略在减少最多 55% 回放样本的前提下达到了基线性能。

图/表 4. 即便只用通常一半的回放量,巩固策略仍能实现高准确率。

结果表明

  1. 卓越的效率: 巩固策略在使用减少 45–55% 的回放样本的情况下,达到了标准 1.0 RR 基线性能。例如,在 CIL 中,仅用 55% 的 TRP 即实现 74.6% 准确率——成本几乎减半。
  2. 更聪明的分配优于更多数据: 即使总 TRP = 100% (总回放样本数相同) ,重新分配部分样本用于巩固仍能提升性能。在相同回放预算下,准确率从 73.8% 提升至 76.1%

比较任务准确率分布的小提琴图。巩固策略减少了异常值并提高了整体稳定性。

图 4. 巩固策略提高了一致性: 低性能任务更少,整体准确率更高。

巩固策略将回放由简单的“重复记忆”转化为策略性的“记忆协调”——学习阶段更轻量,学习结束后更强化。


策略 3: 模型合并 —— 打造统一学习者

可扩展性的第三个支柱源于多任务学习理念: 模型合并 (或称任务算术) ,通过合并权重将多个特化模型整合为一个通用模型。

在多任务场景中,合并可通过平均特定任务的更新,避免任务间的破坏性干扰。在持续学习中,合并发挥类似作用——帮助将连续任务的更新平滑地整合到统一的知识库中。

比较并行与序列合并的示意图。并行合并独立训练所有任务模型,之后再合并。序列合并则在每个任务后逐步更新模型状态。

图 5. 序列合并在任务到来时立即整合新知识,而并行合并需等待所有任务结束。

三种合并方式

  1. 并行合并 (任务算术) :

    \[ \theta_{\mathrm{PM}} = \theta_0 + \sum_{t=1}^T \alpha_t \tau_t, \quad \text{where } \tau_t = \theta_t^* - \theta_0 \]

    为各任务独立训练模型,最后合并更新。

  2. 指数移动平均 (EMA) :

    \[ \theta_{\mathrm{EMA},k} = \lambda \, \theta_{\mathrm{EMA},k-1} + (1-\lambda) \, \theta_k \]

    保持权重的滑动平均,平滑跨任务的更新——高效且具正则化效果。

  3. 序列合并 (本文提出) :

    \[ \theta_t = (1-\alpha)\,\theta_{t-1} + \alpha\,\theta_t^* \]

    在每个任务训练完成后立即合并前后权重。轻量且完全在线。

性能比较

并行、序列及 EMA 合并的任务数量与准确率变化折线图。序列与 EMA 随任务增加仍保持高准确率,而并行合并逐渐下降。

图 6. 序列合并能够稳定扩展到更多任务,与 EMA 表现相当。

随着任务数量增加, 并行合并性能下降 , 这是由任务向量间干扰导致的。而序列合并保持了与 EMA 相当的稳定性,在较长的学习序列中仍具竞争力。

因此,序列合并非常适合那些需长期持续增长的学习系统。


融会贯通: 协同工具包

最后,作者验证这些策略是否可协同使用。具体而言,他们将两个创新策略——巩固序列合并——结合,构建了一个混合系统。

在每个任务完成后:

  1. 合并任务前后的权重 (序列合并) 。
  2. 进入针对性回放的巩固阶段。

比较不同合并与巩固策略组合的表格。“序列合并 + 巩固”组合以最低回放成本实现最佳性能。

图/表 2. 序列合并与巩固结合实现最高准确率,TRP 仅为 35%。

结果

序列合并 + 巩固的组合效果最佳:

  • 在 CIL 和 CPT 场景中均取得最高准确率。
  • 性能与完整基线相当,但仅使用 35% 的回放样本——回放成本减少 65%

结论与展望

论文《可扩展的持续学习回放策略》为高效的终身学习奠定了基础。研究表明,结合轻量自适应、智能回放调度与合理的权重整合,持续学习模型可在保持高性能的同时避免过度计算。

核心要点:

  • LoRA: 在回放有限或任务较小时提供自然正则化与鲁棒性。
  • 巩固: 显著提升回放效率,在数据减少最多 55% 的情况下仍能保持性能。
  • 序列合并: 平滑整合知识,效果可与 EMA 媲美,同时提供更强控制力。
  • 协同作用: 三者组合可在保持基线准确率的前提下,将回放使用量减少 65%

尽管实验集中在图像分类任务上,这些思路同样可推广至其他领域——从大型语言模型到机器人技术。一个能够持续学习——高效、自适应且不遗忘的人工智能时代,或许已近在眼前。