人工智能领域长期以来一直追求一种能够持续学习的系统——随着时间的推移不断吸收新信息,而不会忘记已经掌握的知识。人类天生能够做到这一点: 每当我们学会一个新食谱或一首新曲子时,并不需要“重新训练”大脑。而大多数人工智能模型则是静态的。经过一次大规模的训练后,它们往往被冻结;想让它们学到新东西通常意味着从头开始训练,这在计算上既昂贵又不可持续。
这正是持续学习 (Continual Learning, CL) 的用武之地。其目标虽然简单,却意义深远: 让模型能够从连续的数据流中学习,而不会发生灾难性遗忘。应对遗忘最实际的方法之一是回放 (又称复习) ,即模型在学习新样本时,偶尔回顾过去的样本。这就像在参加新考试之前复习旧笔记一样。
但问题在于,如果直接应用回放,它可能会使持续学习的成本翻倍,因为每个训练批次都包含新旧数据。为了让持续学习更具可扩展性,Truman Hickok 及其同事在论文《可扩展的持续学习回放策略》中提出了一套由三种互补工具组成的高效学习方案:
- 低秩自适应 (LoRA) ——让微调更轻量,并对学习过程进行正则化。
- 巩固 (Consolidation) ——通过两阶段回放机制减少回放使用量。
- 模型合并 (Model Merging) ——在长任务序列中平滑地整合特定任务的权重。
三者共同形成一个强大的框架,在实现相同性能的同时可减少高达 65% 的回放样本 。 下面让我们逐步了解其中的关键思路。
持续学习的试验场
持续学习的核心是稳定性-可塑性困境 : 模型必须够“可塑”,以便学习新信息,同时又要够“稳定”,避免覆盖旧知识。当标准网络在新任务上进行训练时,其权重会向优化新数据的方向偏移——常常以牺牲先前学习的知识为代价。这种“灾难性遗忘”是 CL 面临的根本问题。
CL 的研究通常将方法划分为三类:
- 基于正则化的方法: 通过引入惩罚项,约束关键权重的过度漂移。
- 模型扩展方法: 每个任务引入新的模块或层以隔离知识,但可能导致模型无限增长。
- 基于回放的方法: 存储少量旧样本,并在训练中与新数据混合使用,以直接强化过去的知识。
本文聚焦于让基于回放的方法具备可扩展性 , 因为它们效果显著且概念相对简单。
回放率 (RR)
一个关键变量是回放率 (RR)——即一个批次中回放样本与新任务样本的比例:
\[ \mathrm{RR} = \frac{N_{\mathrm{replay}}}{N_{\mathrm{task}}} \]RR 为 1.0 (新旧样本各占一半) 是常见的基线,但这会导致训练成本翻倍。降低 RR 虽能减少每批次的数据量,加快训练速度,但可能带来更严重的遗忘。

图 1. 较低的回放率会缩短训练时间,但可能加剧遗忘。
策略 1: LoRA —— 经济高效的学习
参数高效微调 (PEFT) 技术在现代 AI 中至关重要,它能够在不更新全部参数的情况下调整大型预训练模型。 低秩自适应 (LoRA) 是其中最流行的技术之一。
LoRA 假设模型在微调时的权重变化可以用一个低秩更新来近似表示。与其修改整个权重矩阵 \( W_0 \),LoRA 保持其冻结,仅训练两个小矩阵 \( A \) 和 \( B \),它们的乘积近似于权重的变化:
\[ W = W_0 + BA \]因为秩 \( r \ll \min(d, k) \),LoRA 需要更新的参数要少得多,使训练更快、更轻量。
将 LoRA 应用于持续学习
在持续学习中,作者采用 LoRA 的方式如下:
- 为每个新任务 \( t \) 创建新的 LoRA 适配器 \( A_t \) 和 \( B_t \)。
- 仅在混合了回放样本的新数据上训练这些适配器。
- 将学习到的更新合并进模型: \( W_t = W_{t-1} + B_t A_t \)。
- 丢弃适配器,为下一个任务重新开始。
这种设计实现了高效的训练循环。更重要的是,LoRA 引入了隐式正则化: 它限制模型每个任务的变化幅度。较小的可塑性意味着更少的遗忘——这相当于一个内置的安全保护。
LoRA vs. 全量微调 (FFT)
论文比较了 LoRA 与标准全量微调在不同条件下的性能。

图 2. 在不同任务规模和回放率下,当灵活性受限时,LoRA 仍能保持竞争力。
结果亮点:
- 充足回放: 当回放样本丰富时,FFT 表现占优。其高灵活性在遗忘受控的情况下有助于吸收新数据。
- 小任务: 在高度碎片化的数据流 (例如仅包含 2–3 个类别的小任务) 中,LoRA 稳定性更强,在持续预训练 (CPT) 场景下甚至超过 FFT。
- 稀疏回放: 在低 RR (如 0.1) 条件下,FFT 会出现严重的遗忘导致性能崩溃,而 LoRA 的性能下降更为平缓。
简而言之,LoRA 在任务小或回放不足的严苛条件下表现突出。这种鲁棒性使其成为扩展持续学习系统的理想方案。
策略 2: 巩固 —— 更聪明而非更费力地回放
回放确实有效,但代价高昂。如果能更聪明地使用它呢?作者提出了巩固 (Consolidation) 策略,一种受生物大脑“睡眠巩固记忆”机制启发的两阶段回放方法。
两个阶段
- 任务学习阶段: 以低回放率 (如 RR = 0.25) 训练每个新任务,这能显著降低主动训练时期的计算成本。
- 巩固阶段: 每完成一个任务后,仅在过去任务的回放样本上进行训练,通过这一专门阶段进一步精炼和平衡模型知识。

图 3. 巩固将学习 (低回放) 与记忆恢复 (任务后回放) 分离。
衡量回放效率
为量化效率,作者定义了总回放百分比 (TRP) ——即两个阶段的总回放样本量占 RR=1.0 基线的比例:
\[ TRP = \frac{\sum_{i=1}^{T} (N_{\text{replay task},i} + N_{\text{replay consolidation},i})} {\sum_{i=1}^{T} N_{\text{replay baseline 1:1},i}} \times 100\% \]
图/表 4. 即便只用通常一半的回放量,巩固策略仍能实现高准确率。
结果表明
- 卓越的效率: 巩固策略在使用减少 45–55% 的回放样本的情况下,达到了标准 1.0 RR 基线性能。例如,在 CIL 中,仅用 55% 的 TRP 即实现 74.6% 准确率——成本几乎减半。
- 更聪明的分配优于更多数据: 即使总 TRP = 100% (总回放样本数相同) ,重新分配部分样本用于巩固仍能提升性能。在相同回放预算下,准确率从 73.8% 提升至 76.1% 。

图 4. 巩固策略提高了一致性: 低性能任务更少,整体准确率更高。
巩固策略将回放由简单的“重复记忆”转化为策略性的“记忆协调”——学习阶段更轻量,学习结束后更强化。
策略 3: 模型合并 —— 打造统一学习者
可扩展性的第三个支柱源于多任务学习理念: 模型合并 (或称任务算术) ,通过合并权重将多个特化模型整合为一个通用模型。
在多任务场景中,合并可通过平均特定任务的更新,避免任务间的破坏性干扰。在持续学习中,合并发挥类似作用——帮助将连续任务的更新平滑地整合到统一的知识库中。

图 5. 序列合并在任务到来时立即整合新知识,而并行合并需等待所有任务结束。
三种合并方式
并行合并 (任务算术) :
\[ \theta_{\mathrm{PM}} = \theta_0 + \sum_{t=1}^T \alpha_t \tau_t, \quad \text{where } \tau_t = \theta_t^* - \theta_0 \]为各任务独立训练模型,最后合并更新。
指数移动平均 (EMA) :
\[ \theta_{\mathrm{EMA},k} = \lambda \, \theta_{\mathrm{EMA},k-1} + (1-\lambda) \, \theta_k \]保持权重的滑动平均,平滑跨任务的更新——高效且具正则化效果。
序列合并 (本文提出) :
\[ \theta_t = (1-\alpha)\,\theta_{t-1} + \alpha\,\theta_t^* \]在每个任务训练完成后立即合并前后权重。轻量且完全在线。
性能比较

图 6. 序列合并能够稳定扩展到更多任务,与 EMA 表现相当。
随着任务数量增加, 并行合并性能下降 , 这是由任务向量间干扰导致的。而序列合并保持了与 EMA 相当的稳定性,在较长的学习序列中仍具竞争力。
因此,序列合并非常适合那些需长期持续增长的学习系统。
融会贯通: 协同工具包
最后,作者验证这些策略是否可协同使用。具体而言,他们将两个创新策略——巩固与序列合并——结合,构建了一个混合系统。
在每个任务完成后:
- 合并任务前后的权重 (序列合并) 。
- 进入针对性回放的巩固阶段。

图/表 2. 序列合并与巩固结合实现最高准确率,TRP 仅为 35%。
结果
序列合并 + 巩固的组合效果最佳:
- 在 CIL 和 CPT 场景中均取得最高准确率。
- 性能与完整基线相当,但仅使用 35% 的回放样本——回放成本减少 65% 。
结论与展望
论文《可扩展的持续学习回放策略》为高效的终身学习奠定了基础。研究表明,结合轻量自适应、智能回放调度与合理的权重整合,持续学习模型可在保持高性能的同时避免过度计算。
核心要点:
- LoRA: 在回放有限或任务较小时提供自然正则化与鲁棒性。
- 巩固: 显著提升回放效率,在数据减少最多 55% 的情况下仍能保持性能。
- 序列合并: 平滑整合知识,效果可与 EMA 媲美,同时提供更强控制力。
- 协同作用: 三者组合可在保持基线准确率的前提下,将回放使用量减少 65% 。
尽管实验集中在图像分类任务上,这些思路同样可推广至其他领域——从大型语言模型到机器人技术。一个能够持续学习——高效、自适应且不遗忘的人工智能时代,或许已近在眼前。
](https://deep-paper.org/en/paper/2505.12512/images/cover.png)