想象一下,你教一个机器学习模型识别猫。它学得很好。然后你教它识别狗——突然间,它忘记了猫长什么样。这个令人沮丧的现象被称为灾难性遗忘 (catastrophic forgetting) , 是构建真正智能、自适应系统的最大障碍之一。人工智能如何才能在不抹去过去知识的情况下,随着时间的推移学习新事物呢?
这就是持续学习 (Continual Learning, CL) 的核心问题。
大多数使用随机梯度下降 (Stochastic Gradient Descent, SGD) 训练的深度学习模型,都在这个挑战面前举步维艰。当它们更新数百万个参数以学习新任务时,往往会覆盖掉编码旧知识的精细模式。研究人员提出了许多巧妙的技巧来缓解这个问题,但最近的一篇论文——《利用贝叶斯原理学习如何持续学习》(Learning to Continually Learn with the Bayesian Principle)——提出了一种清新而优雅的解决方案。与其对抗 SGD 的局限性,不如在持续学习阶段完全绕开它。
其核心思想是将神经网络的表示能力与经典统计模型的数学稳健性相结合。作者提出了一个名为序贯贝叶斯元持续学习 (Sequential Bayesian Meta-Continual Learning, SB-MCL) 的框架,其中神经网络经过元训练,充当专业的数据解释器,而实际的序贯学习过程则委托给一个简单的统计模型——一个从本质上无法遗忘的模型。这种组合取得了最先进的效果,同时具备出色的可扩展性与效率。
挑战: 即时学习
持续学习及其宿敌——灾难性遗忘
持续学习涉及在一个非平稳的数据流上训练模型,其中任务会随时间演变。一个理想的持续学习器应当能够:
- 有效地学习新任务。
- 在已学习任务上保持性能。
- 利用旧知识加速新任务的学习 (这称为前向迁移 (forward transfer) )。
核心障碍是灾难性遗忘。当一个神经网络在掌握任务 A 之后再针对任务 B 微调时,任务 B 的权重更新通常会破坏任务 A 所需的权重配置。如果没有明确的机制来保存或回放先前的知识,遗忘几乎不可避免。
元学习前来救场
手动设计一个完美的持续学习算法几乎是不可能的。那么,为什么不去学习如何持续学习呢?这就是元持续学习 (Meta-Continual Learning, MCL) 的理念。
在 MCL 中,我们将“学习过程”本身作为一个元任务来处理。我们有一个由众多持续学习片段组成的元训练集,而不是单一的数据集。每个片段都像一个微型持续学习问题: 一个训练流 (例如,用 10 个样本学习 10 个新的手写字符) ,以及一个跨所有 10 个字符评估记忆保持的测试集。
通过数千个这样的片段,MCL 在其外循环中优化持续学习策略,并将其应用到内循环中的具体问题。目标是在元训练完成之后,得到一个能够适应未来数据流而不遗忘的模型。
贝叶斯洞见: 统计学的生命线
贝叶斯推理提供了一种在接收新证据时更新信念的系统性方法。贝叶斯定理告诉我们:
\[ p(\text{knowledge} | \text{data}_{1:t}) \propto p(\text{data}_t | \text{knowledge}) \times p(\text{knowledge} | \text{data}_{1:t-1}) \]原则上,这是持续学习的理想机制——看到新数据后的后验分布直接成为下一步的先验分布。然而,直接将这一概念应用于神经网络往往失败,因为对数百万个网络权重进行后验分布建模是难以处理的 (intractable) 。 尽管存在近似方法,但这些方法会引入误差,无法保证稳定的记忆保持。
此时, Fisher–Darmois–Koopman–Pitman 定理闪亮登场——这是统计理论中一个鲜为人知但极具启发性的结果。它指出, 指数族 (exponential family) 分布 (如高斯分布) 是唯一允许使用固定维度数据摘要——称为充分统计量 (sufficient statistics)——而不会丢失信息的分布族。换言之,无论到来多少数据,指数族模型都能完美而紧凑地更新其信念。
如果模型的后验分布不属于这个族——例如典型的神经网络那样——所需的记忆量会随样本数量增长,从数学上讲,遗忘是不可避免的。
该定理启发了一种优雅的策略: 将神经网络与一个能够执行无损贝叶斯更新的指数族统计模型结合。神经网络处理复杂数据,统计模型负责记忆与更新。两者的结合再现了人类学习系统的特质: 既富表现力又稳定可靠。
SB-MCL: 两全其美
在序贯贝叶斯元持续学习 (SB-MCL) 中,学习的工作负载被巧妙地分配给两个组件:
- 神经网络 (专家) : 两个经过元训练的网络——一个学习器 (learner) 和一个模型 (model)——高效地处理高维数据。它们充当原始数据与统计模型之间的翻译层。
- 统计模型 (终身学习者) : 一个源自指数族的简单分布 (例如,高斯分布) ,通过序贯贝叶斯更新规则动态调整其参数。它保存了片段的真正“记忆”。
关键在于,在持续学习阶段,这两个神经网络均被冻结 。 它们仅进行前向传播,因此其权重不会被更新,从而实现不会遗忘 。

图 1. SB-MCL 下单个监督式持续学习片段的示意图。持续学习被建模为指数族后验分布的序贯贝叶斯更新。元学习得到的神经网络保持固定,从而避免遗忘。
工作原理: 分步解析
1. 定义片段
每个持续学习片段包含一个潜变量 \( z \),代表该片段的内部上下文——其“摘要”知识。持续学习的目标是在观察数据流 \( \mathcal{D} \) 中的一系列样本后,推断出后验分布 \( q_{\phi}(z|\mathcal{D}) \)。

图 2. MCL 在监督式 (左) 和无监督式 (右) 设定下的图模型。每个与片段相关的潜变量 \( z \) 控制样本随时间的生成方式。
2. 内循环: 贝叶斯更新
从先验分布 \( q_{\phi}(z) \) 开始,每个训练样本 \((x_t, y_t)\) 都会更新后验。
学习器网络为每个样本计算参数 \( \hat{z}_t \) 和 \( P_t \),它们代表该样本对优化 \( z \) 的贡献。若假设后验为高斯分布:
\[ q_{\phi}(z|x_{1:t}, y_{1:t}) = \mathcal{N}(z; \mu_t, \Lambda_t^{-1}) \]则更新规则非常简洁:
\[ \Lambda_t = \Lambda_{t-1} + P_t, \quad \mu_t = \Lambda_t^{-1}(\Lambda_{t-1}\mu_{t-1} + P_t \hat{z}_t) \]该规则完全精确且信息无损。序贯更新不会丢失数据保真度,也不会增加存储开销。
3. 测试阶段
在完成数据流学习后,最终后验分布 \( q_{\phi}(z|\mathcal{D}) \) 编码了已学习到的知识。在测试阶段,从该后验采样潜向量 \( z \),并将其与新的输入 \( \tilde{x}_n \) 一同送入模型网络 , 预测相应输出 \( \tilde{y}_n \)。
4. 外循环: 元训练
元训练教导 学习器 和 模型 如何协同工作。其目标是最大化在推断出的后验分布下训练与测试数据的期望似然:
[ \mathbb{E}{z \sim q{\phi}(z|\mathcal{D})}\Big[ \sum_{n=1}^{N} \log p_{\theta}(\tilde{y}_n|\tilde{x}_n,z)
- \sum_{t=1}^{T} \log p_{\theta}(y_t|x_t,z) \Big]
- D_{\mathrm{KL}}(q_{\phi}(z|\mathcal{D}) | p_{\theta}(z)) ]
期望项鼓励精确的数据建模,而 KL 散度项对后验与先验进行正则化以提升泛化能力。
在元训练阶段,所有片段数据均可用,因此 SB-MCL 可以采用与序贯更新数学上等价的批量更新方式,非常适合 GPU 等并行硬件:
\[ \Lambda_T = \sum_{t=0}^{T} P_t, \quad \mu_T = \Lambda_T^{-1}\sum_{t=0}^{T}P_t\hat{z}_t \]这使得训练效率显著提升。
SB-MCL 的实证评估
作者在多个领域对 SB-MCL 进行了系统测试,包括图像分类、回归、图像补全、旋转预测,以及——持续学习研究中的首次尝试——基于 VAE 和扩散模型的深度生成建模 。
基线方法
比较对象包括:
- OML : 一种基于 SGD 的元持续学习器,使用元学习得到的 MLP。
- Transformer (TF) : 将整个 CL 片段视为一个长序列进行自回归建模的序列模型。
- 离线 / 在线学习 : 分别作为理论上的性能上界与下界。
关键发现 1: 顶尖性能
SB-MCL 在所有基准中均取得了最佳或次优的结果,同时保持恒定的计算成本。
| 方法 | Sine 回归 | CASIA 补全 | CASIA 旋转 | Celeb 补全 |
|---|---|---|---|---|
| Offline | $.0045^{\pm.0003}$ | $.146^{\pm.009}$ | $.544^{\pm.045}$ | $.160^{\pm.008}$ |
| Online | $.5497^{\pm.0375}$ | $.290^{\pm.023}$ | $1.079^{\pm.081}$ | $.284^{\pm.017}$ |
| OML | $.0164^{\pm.0007}$ | $.105^{\pm.000}$ | $.052^{\pm.002}$ | $.099^{\pm.000}$ |
| TF | $.0009^{\pm.0001}$ | $.097^{\pm.000}$ | $.101^{\pm.000}$ | $.094^{\pm.000}$ |
| SB-MCL | $.0011^{\pm.0002}$ | $.100^{\pm.001}$ | $.039^{\pm.001}$ | $.096^{\pm.000}$ |
表 1. 回归结果 (数值越低越好) 。SB-MCL 的表现与 Transformer 相当甚至更优,同时保持固定的计算成本。
| 方法 | CASIA VAE | CASIA DDPM | Celeb DDPM |
|---|---|---|---|
| Offline | $.664^{\pm.018}$ | $.0451^{\pm.0022}$ | $.0438^{\pm.0019}$ |
| Online | $.862^{\pm.009}$ | $.1408^{\pm.0032}$ | $.2124^{\pm.0025}$ |
| OML | $.442^{\pm.003}$ | $.0353^{\pm.0001}$ | $.0308^{\pm.0003}$ |
| SB-MCL | $.428^{\pm.001}$ | $.0345^{\pm.0001}$ | $.0302^{\pm.0004}$ |
表 2. 深度生成模型结果 (数值越低越好) 。SB-MCL 始终优于基于 SGD 的基线方法。
关键发现 2: 稳健的泛化能力

图 3. 对更长训练流的泛化能力测试。随着任务数或样本数量的增加,SB-MCL 保持稳定准确率,而其他模型表现下降。
Transformer 通常出现长度泛化失败: 测试序列一旦超出训练时长度就会出错。类似地,SGD 方法在面对更长数据流时性能恶化,因为更多的梯度更新加剧了遗忘。而 SB-MCL 恰恰相反——更多的数据只会精化其后验,提升稳定性与准确度。
关键发现 3: 卓越的效率
SB-MCL 的可并行结构使其训练时间显著低于对手。
| 方法 | OML | TF | SB-MCL |
|---|---|---|---|
| 分类 | 6.5 小时 | 1.2 小时 | 40 分钟 |
| 补全 | 16.5 小时 | 1.4 小时 | 1.2 小时 |
| DDPM | 5 天 | N/A | 8 小时 |
表 3. 元训练时间对比 (单 GPU) 。SB-MCL 在训练效率方面实现了巨大提升。
关键发现 4: 生成式持续学习的突破
持续学习首次被成功应用于扩散模型——这种复杂的 AI 系统过去被认为无法进行稳定的序贯更新。

图 4. 在 CASIA 字符集上进行持续学习后,SB-MCL 训练的 DDPM 生成样本。

图 5. 基于 Celeb 数据集的 DDPM 生成样本。SB-MCL 成功学习了新的身份而未遗忘旧的身份。
这些实验验证了 SB-MCL 在持续生成建模方面的能力——使得人工智能能够动态学习与创造新内容,这标志着一个重要的里程碑。
持续学习的范式转变
SB-MCL 不只是又一个渐进式改进,而是重新定义了持续学习的本质。
由于它的序贯更新与批量更新在数学上完全等价,SB-MCL 在学习规则内部实现了**零遗忘 **。 因此,挑战从应对优化不稳定性转变为设计更具表现力的模型。问题不再是如何防止遗忘,而是如何提升表示能力。
通过将深度神经网络与指数族记忆系统的优势相结合,SB-MCL 实现了数据解释与记忆保持的明确分离——这一理念与人类认知结构如出一辙。
深度学习与经典贝叶斯理论的结合,展现了人工智能的未来方向: 让智能体持续、稳定、高效地学习——并且永远不会忘记它们已经掌握的知识。
](https://deep-paper.org/en/paper/2405.18758/images/cover.png)