永不遗忘：让 AI 持续学习的可扩展技巧

人工智能领域长期以来一直追求一种能够持续学习的系统——随着时间的推移不断吸收新信息，而不会忘记已经掌握的知识。人类天生能够做到这一点: 每当我们学会一个新食谱或一首新曲子时，并不需要“重新训练”大脑。而大多数人工智能模型则是静态的。经过一次大规模的训练后，它们往往被冻结；想让它们学到新东西通常意味着从头开始训练，这在计算上既昂贵又不可持续。

这正是持续学习 (Continual Learning, CL) 的用武之地。其目标虽然简单，却意义深远: 让模型能够从连续的数据流中学习，而不会发生灾难性遗忘。应对遗忘最实际的方法之一是回放 (又称复习) ，即模型在学习新样本时，偶尔回顾过去的样本。这就像在参加新考试之前复习旧笔记一样。

但问题在于，如果直接应用回放，它可能会使持续学习的成本翻倍，因为每个训练批次都包含新旧数据。为了让持续学习更具可扩展性，Truman Hickok 及其同事在论文《可扩展的持续学习回放策略》中提出了一套由三种互补工具组成的高效学习方案:

低秩自适应 (LoRA) ——让微调更轻量，并对学习过程进行正则化。
巩固 (Consolidation) ——通过两阶段回放机制减少回放使用量。
模型合并 (Model Merging) ——在长任务序列中平滑地整合特定任务的权重。

三者共同形成一个强大的框架，在实现相同性能的同时可减少高达 65% 的回放样本 。下面让我们逐步了解其中的关键思路。

持续学习的试验场

持续学习的核心是稳定性-可塑性困境 : 模型必须够“可塑”，以便学习新信息，同时又要够“稳定”，避免覆盖旧知识。当标准网络在新任务上进行训练时，其权重会向优化新数据的方向偏移——常常以牺牲先前学习的知识为代价。这种“灾难性遗忘”是 CL 面临的根本问题。

CL 的研究通常将方法划分为三类:

基于正则化的方法: 通过引入惩罚项，约束关键权重的过度漂移。
模型扩展方法: 每个任务引入新的模块或层以隔离知识，但可能导致模型无限增长。
基于回放的方法: 存储少量旧样本，并在训练中与新数据混合使用，以直接强化过去的知识。

本文聚焦于让基于回放的方法具备可扩展性 , 因为它们效果显著且概念相对简单。

回放率 (RR)

一个关键变量是回放率 (RR)——即一个批次中回放样本与新任务样本的比例:

\[ \mathrm{RR} = \frac{N_{\mathrm{replay}}}{N_{\mathrm{task}}} \]

RR 为 1.0 (新旧样本各占一半) 是常见的基线，但这会导致训练成本翻倍。降低 RR 虽能减少每批次的数据量，加快训练速度，但可能带来更严重的遗忘。

回放率 (RR) 示意图。每个任务的训练批次包含部分回放样本 (绿色) 和新任务样本 (黄色) 。降低 RR 会让更多批次用于新任务数据，减少回放，从而缩短总体训练时间。

图 1. 较低的回放率会缩短训练时间，但可能加剧遗忘。

策略 1: LoRA —— 经济高效的学习

参数高效微调 (PEFT) 技术在现代 AI 中至关重要，它能够在不更新全部参数的情况下调整大型预训练模型。 低秩自适应 (LoRA) 是其中最流行的技术之一。

LoRA 假设模型在微调时的权重变化可以用一个低秩更新来近似表示。与其修改整个权重矩阵 \( W_0 \)，LoRA 保持其冻结，仅训练两个小矩阵 \( A \) 和 \( B \)，它们的乘积近似于权重的变化:

\[ W = W_0 + BA \]

因为秩 \( r \ll \min(d, k) \)，LoRA 需要更新的参数要少得多，使训练更快、更轻量。

将 LoRA 应用于持续学习

在持续学习中，作者采用 LoRA 的方式如下:

为每个新任务 \( t \) 创建新的 LoRA 适配器 \( A_t \) 和 \( B_t \)。
仅在混合了回放样本的新数据上训练这些适配器。
将学习到的更新合并进模型: \( W_t = W_{t-1} + B_t A_t \)。
丢弃适配器，为下一个任务重新开始。

这种设计实现了高效的训练循环。更重要的是，LoRA 引入了隐式正则化: 它限制模型每个任务的变化幅度。较小的可塑性意味着更少的遗忘——这相当于一个内置的安全保护。

LoRA vs. 全量微调 (FFT)

论文比较了 LoRA 与标准全量微调在不同条件下的性能。

LoRA 与全量微调 (FFT) 的性能对比。顶行改变每任务的类别数，底行改变回放率。FFT 整体表现更好，而在任务较小或回放有限时，LoRA 表现出色。

图 2. 在不同任务规模和回放率下，当灵活性受限时，LoRA 仍能保持竞争力。

结果亮点:

充足回放: 当回放样本丰富时，FFT 表现占优。其高灵活性在遗忘受控的情况下有助于吸收新数据。
小任务: 在高度碎片化的数据流 (例如仅包含 2–3 个类别的小任务) 中，LoRA 稳定性更强，在持续预训练 (CPT) 场景下甚至超过 FFT。
稀疏回放: 在低 RR (如 0.1) 条件下，FFT 会出现严重的遗忘导致性能崩溃，而 LoRA 的性能下降更为平缓。

简而言之，LoRA 在任务小或回放不足的严苛条件下表现突出。这种鲁棒性使其成为扩展持续学习系统的理想方案。

策略 2: 巩固 —— 更聪明而非更费力地回放

回放确实有效，但代价高昂。如果能更聪明地使用它呢？作者提出了巩固 (Consolidation) 策略，一种受生物大脑“睡眠巩固记忆”机制启发的两阶段回放方法。

两个阶段

任务学习阶段: 以低回放率 (如 RR = 0.25) 训练每个新任务，这能显著降低主动训练时期的计算成本。
巩固阶段: 每完成一个任务后，仅在过去任务的回放样本上进行训练，通过这一专门阶段进一步精炼和平衡模型知识。

展示有无巩固的持续学习示意图。(a) 标准学习仅在训练中使用回放。(b.i) 任务训练阶段采用低 RR 与 LoRA。(b.ii) 任务后增加一个回放阶段进行巩固。

图 3. 巩固将学习 (低回放) 与记忆恢复 (任务后回放) 分离。

衡量回放效率

为量化效率，作者定义了总回放百分比 (TRP) ——即两个阶段的总回放样本量占 RR=1.0 基线的比例:

\[ TRP = \frac{\sum_{i=1}^{T} (N_{\text{replay task},i} + N_{\text{replay consolidation},i})} {\sum_{i=1}^{T} N_{\text{replay baseline 1:1},i}} \times 100\% \]

总结不同 RR、CSR 和 TRP 设置下性能的表格。巩固策略在减少最多 55% 回放样本的前提下达到了基线性能。

图/表 4. 即便只用通常一半的回放量，巩固策略仍能实现高准确率。

结果表明

卓越的效率: 巩固策略在使用减少 45–55% 的回放样本的情况下，达到了标准 1.0 RR 基线性能。例如，在 CIL 中，仅用 55% 的 TRP 即实现 74.6% 准确率——成本几乎减半。
更聪明的分配优于更多数据: 即使总 TRP = 100% (总回放样本数相同) ，重新分配部分样本用于巩固仍能提升性能。在相同回放预算下，准确率从 73.8% 提升至 76.1% 。

比较任务准确率分布的小提琴图。巩固策略减少了异常值并提高了整体稳定性。

图 4. 巩固策略提高了一致性: 低性能任务更少，整体准确率更高。

巩固策略将回放由简单的“重复记忆”转化为策略性的“记忆协调”——学习阶段更轻量，学习结束后更强化。

策略 3: 模型合并 —— 打造统一学习者

可扩展性的第三个支柱源于多任务学习理念: 模型合并 (或称任务算术) ，通过合并权重将多个特化模型整合为一个通用模型。

在多任务场景中，合并可通过平均特定任务的更新，避免任务间的破坏性干扰。在持续学习中，合并发挥类似作用——帮助将连续任务的更新平滑地整合到统一的知识库中。

比较并行与序列合并的示意图。并行合并独立训练所有任务模型，之后再合并。序列合并则在每个任务后逐步更新模型状态。

图 5. 序列合并在任务到来时立即整合新知识，而并行合并需等待所有任务结束。

三种合并方式

并行合并 (任务算术) :
\[ \theta_{\mathrm{PM}} = \theta_0 + \sum_{t=1}^T \alpha_t \tau_t, \quad \text{where } \tau_t = \theta_t^* - \theta_0 \]
为各任务独立训练模型，最后合并更新。
指数移动平均 (EMA) :
\[ \theta_{\mathrm{EMA},k} = \lambda \, \theta_{\mathrm{EMA},k-1} + (1-\lambda) \, \theta_k \]
保持权重的滑动平均，平滑跨任务的更新——高效且具正则化效果。
序列合并 (本文提出) :
\[ \theta_t = (1-\alpha)\,\theta_{t-1} + \alpha\,\theta_t^* \]
在每个任务训练完成后立即合并前后权重。轻量且完全在线。

性能比较

并行、序列及 EMA 合并的任务数量与准确率变化折线图。序列与 EMA 随任务增加仍保持高准确率，而并行合并逐渐下降。

图 6. 序列合并能够稳定扩展到更多任务，与 EMA 表现相当。

随着任务数量增加, 并行合并性能下降 , 这是由任务向量间干扰导致的。而序列合并保持了与 EMA 相当的稳定性，在较长的学习序列中仍具竞争力。

因此，序列合并非常适合那些需长期持续增长的学习系统。

融会贯通: 协同工具包

最后，作者验证这些策略是否可协同使用。具体而言，他们将两个创新策略——巩固与序列合并——结合，构建了一个混合系统。

在每个任务完成后:

合并任务前后的权重 (序列合并) 。
进入针对性回放的巩固阶段。

比较不同合并与巩固策略组合的表格。“序列合并 + 巩固”组合以最低回放成本实现最佳性能。

图/表 2. 序列合并与巩固结合实现最高准确率，TRP 仅为 35%。

结果

序列合并 + 巩固的组合效果最佳:

在 CIL 和 CPT 场景中均取得最高准确率。
性能与完整基线相当，但仅使用 35% 的回放样本——回放成本减少 65% 。

结论与展望

论文《可扩展的持续学习回放策略》为高效的终身学习奠定了基础。研究表明，结合轻量自适应、智能回放调度与合理的权重整合，持续学习模型可在保持高性能的同时避免过度计算。

核心要点:

LoRA: 在回放有限或任务较小时提供自然正则化与鲁棒性。
巩固: 显著提升回放效率，在数据减少最多 55% 的情况下仍能保持性能。
序列合并: 平滑整合知识，效果可与 EMA 媲美，同时提供更强控制力。
协同作用: 三者组合可在保持基线准确率的前提下，将回放使用量减少 65% 。

尽管实验集中在图像分类任务上，这些思路同样可推广至其他领域——从大型语言模型到机器人技术。一个能够持续学习——高效、自适应且不遗忘的人工智能时代，或许已近在眼前。

持续学习的试验场#

回放率 (RR)#

策略 1: LoRA —— 经济高效的学习#

将 LoRA 应用于持续学习#

LoRA vs. 全量微调 (FFT)#

策略 2: 巩固 —— 更聪明而非更费力地回放#

两个阶段#

衡量回放效率#

结果表明#

策略 3: 模型合并 —— 打造统一学习者#

三种合并方式#

性能比较#

融会贯通: 协同工具包#

结果#

结论与展望#