向大师学习：深入解析 Ex-Model 持续学习

在人工智能领域，一个终极目标是构建能够持续学习——而不会忘记已知知识的系统。人类天生就具备这种能力: 当我们学习关于狗的知识时，并不会忘记之前关于猫的认知。这种在保持已有理解的同时获取新知识的能力，正是持续学习 (Continual Learning, CL) 的核心。

传统的持续学习研究往往强调一种以智能体为中心的视角，即单个 AI 智能体直接从原始数据流中学习。这种方式虽然强大，但并未反映我们当今这个训练模型遍地开花、互联互通的生态系统。从用于图像分类的视觉系统到支撑聊天机器人的语言模型，这些现有模型凝聚了大量压缩的专业知识——论文作者将其称为神经技能 (neural skills) 。

这种丰富的模型资源引出了论文 “Ex-Model: Continual Learning from a Stream of Trained Models” 的核心问题: 为什么不直接从这些专家模型学习，而不是从原始数据开始呢?

就如同人类通过老师或教材学习，而非不断试错地重新发明轮子一样，人工智能体通过研究其他模型，可以实现更高效、更安全且更具可扩展性的学习。

这一理念构成了一个名为Ex-Model 持续学习 (ExML) 的新框架。在 ExML 中，智能体不再从原始数据中学习，而是从一系列预训练的专家模型中不断吸收知识。这一转变有望促成兼具隐私保护与协作能力的 AI 系统。

一张图表，比较传统的从原始数据进行持续学习与新兴的从专家模型流进行 Ex-Model 持续学习。

图 1: 传统持续学习 (左) 从原始数据流中学习，而 Ex-Model 持续学习 (右) 从专家模型流中学习。

本文将深入解析 ExML 范式，探讨支撑其运行的算法机制，并讨论验证其潜力的实验结果。

从原始数据到专家模型: 重新定义持续学习

要理解 ExML 的革命性之处，我们可以先简要回顾传统持续学习的设置。

一个典型的 CL 算法，记作 \( \mathcal{A}^{CL} \)，处理一系列学习经历 \( S = e_1, e_2, \ldots, e_n \)。每个经历 \( e_i \) 包含一批数据 \( \mathcal{D}^i \)。算法将当前模型 \( f_{i-1}^{CL} \) 更新为下一版本 \( f_i^{CL} \):

\[ \mathcal{A}^{CL}: \langle f_{i-1}^{CL}, \mathcal{D}_{train}^{i}, \mathcal{M}_{i-1}, t_i \rangle \to \langle f_{i}^{CL}, \mathcal{M}_i \rangle. \]

其中，\( \mathcal{M}_{i-1} \) 是一个可能存储过往样本的记忆缓冲区，而 \( t_i \) 是可选的任务标签。总体目标是在所有学习经历中最小化总体损失:

\[ \mathcal{L}_{S}(f_n^{CL}, n) = \frac{1}{\sum_{i=1}^{n} |\mathcal{D}_{test}^{i}|} \sum_{i=1}^{n} \mathcal{L}_{exp}(f_n^{CL}, \mathcal{D}_{test}^{i}). \]

而在 ExML 场景中，情况发生了显著变化。我们不再直接访问数据流 \( \mathcal{D}_1, \ldots, \mathcal{D}_n \)。取而代之的是，一个由专家模型组成的流 \( f_1^S, f_2^S, \ldots, f_n^S \)，每个模型都在各自的数据集上独立训练完成。

这带来了两个关键约束:

无法访问原始数据: 学习算法只能与已训练模型交互，而不能获取它们的训练数据，从而提升隐私保护。
内存与计算受限: 学习者不能存储所有专家模型，必须在模型到达时高效整合。

目标依然是: 开发一个在所有任务上都表现良好的综合模型。一个 ExML 算法 \( \mathcal{A}^{ExM} \) 可以形式化描述为:

\[ \mathcal{A}^{ExM}: \langle f_{i-1}^{ExM}, f_i^S, \mathcal{M}_{i-1}^{ex}, t_i \rangle \to \langle f_i^{ExM}, \mathcal{M}_i^{ex} \rangle. \]

其中，\( f_i^{ExM} \) 是持续学习得到的模型，\( f_i^S \) 是新的专家模型，而 \( \mathcal{M}_i^{ex} \) 是记忆缓冲区，存放的不是原始数据，而是用于学习的代理样本。

核心方法: 通过 Ex-Model 蒸馏实现学习

如何在不接触专家模型的训练数据的情况下转移知识？

论文作者提出了一类算法，称为Ex-Model 蒸馏 (Ex-Model Distillation, ED) 。这些方法依赖于知识蒸馏——即学生模型通过模仿教师模型的输出进行学习。由于 ExML 无法直接访问训练数据，系统需要首先生成合成数据。

每次学习迭代包含两个主要阶段: 更新合成缓冲区和从专家模型中蒸馏知识。

步骤 1: 创建合成数据集

ED 算法维护一个固定大小的缓冲区 \( \mathcal{M}^{ex} \)，其中保存着合成数据，用以代理所有已见过的学习经历。当新的专家模型 \( f_i^S \) 到达时，数据生成器 \( \mathcal{A}^{gen} \) 产生合成样本:

\[ \mathcal{D}_{i}^{ex} = \mathcal{A}^{gen}(f_i^{S}, \frac{N}{i}), \]

其中 \( N \) 为缓冲区的总容量。

旧样本会部分被替换，保持缓冲区大小恒定。这样模型既能保留已有知识，又能高效吸收新的合成数据。

步骤 2: 从双教师模型中蒸馏知识

接下来，模型学习来源于两位教师:

上一代 Ex-Model (\( f_{i-1}^{ExM} \)) ——携带历史知识；
当前专家模型 (\( f_i^S \)) ——提供新知识。

对于每个合成样本 \( x^{syn} \)，算法结合两位教师的输出来形成目标 logits \( \tilde{\boldsymbol{y}} \):

用于结合先前模型和新专家模型输出以创建蒸馏目标的方程。

公式 6–8: 如果样本类别属于旧任务，则使用旧模型；若是新类别，则使用专家模型；若两者重叠，则对输出进行平均。

训练学生模型 \( f_i^{ExM} \) 时，作者采用了混合损失函数:

\[ \mathcal{L}_{ED}(\boldsymbol{y}^{curr}, \tilde{\boldsymbol{y}}, y^{syn}) = \|\boldsymbol{y}^{curr} - \tilde{\boldsymbol{y}}\|_2^2 + \lambda_{CE}\mathcal{L}_{CE}(\boldsymbol{y}^{curr}, y^{syn}), \]

该函数将用于输出匹配的均方误差 (MSE) 与用于正确分类的交叉熵 (CE) 结合在一起，使得模型能够在无原始数据访问的情况下完成持续学习。

关键成分: 无数据的数据生成机制

Ex-Model 蒸馏成功的关键在于生成有意义的合成数据。论文提出了三种实现方法:

模型反演 (Model Inversion) : 从随机噪声开始，迭代优化像素，使专家模型对目标类别给出高置信度预测。实质上，这是在“询问”模型: “请向我展示你认为这个类别的样貌。”
数据印象 (Data Impression) : 更精细的方法，利用专家分类器权重的类别相似性生成数据。它从狄利克雷分布采样“软”标签，刻画如“80% 狗、15% 猫”这样存在相关性的类别特征。
辅助数据 (Auxiliary Data) : 最简单的方法是利用已有的公开数据集 (如 ImageNet) ，由专家模型对其进行标注。此方法计算开销低，但依赖领域的匹配度。

为了使生成样本更逼真，作者还引入了自然图像先验——通过正则化鼓励典型视觉统计和图像平滑性。他们加入了数据增强、模糊惩罚，并匹配专家模型的批量归一化统计，从而减少生成数据中的伪影。

实证检验: 实验与结果

为验证 ExML 的有效性，研究团队在多个数据集和学习场景中进行了测试。

实验设置

数据集: MNIST (手写数字) 、CIFAR-10 (自然图像) 和 CORe50 (物体识别基准) 。
学习场景:
新类别 (NC) : 每次学习引入新的未见类别。
新实例 (NI) : 类别不变，但出现不同样本 (背景、姿势) 。
多任务 (MT) : 任务保持独立，测试时提供任务标签。

一张表格，总结了实验中使用的数据集、流长度、类别分布和模型架构。

表 1: 用于评估的各数据集及场景。

实验比较了三种 ED 变体——模型反演 ED、数据印象 ED 和辅助数据 ED——与多个基线方法，包括理想的 Oracle 集成和参数平均法。

主要发现

总体结果揭示了三项关键洞察。

MNIST 和 CIFAR-10 场景下的结果表格，比较了不同的 Ex-Model 策略和基线方法。

表 2: MNIST 与 CIFAR-10 的准确率结果。Ex-Model 策略在非持续 (“联合”) 设置中表现优异，但在类增量 (NC) 场景中存在挑战。

	Ex-model 场景	联合	CORe50
			NC	NI
Oracle	×	85.73±0.29	96.04±1.08	—
Ensemble Avg.	×	—	26.30±1.38	69.92±0.70
Min. Entropy	×	—	42.41±0.96	61.36±1.86
Param. Avg.	✓	—	2.00±0.00	2.00±0.00
Model Inversion ED	✓	50.06±2.76	33.10±1.93	44.38±4.93
Data Impression ED	✓	52.91±2.09	17.57±3.57	43.26±2.36
Aux. Data ED	✓	81.82±0.29	34.87±1.16	44.51±2.91

表 3: CORe50 场景结果。

无数据蒸馏可行: 在联合训练设置中，ED 模型性能接近专家水平，证明了无数据知识迁移的可行性。
持续场景仍具挑战: 类增量情况下性能显著下降，凸显了持续学习的固有难度。
辅助数据在相似领域中更有效: 当辅助数据与专家数据所属领域相近时 (如 ImageNet 对自然图像) ，表现优异；在领域不匹配时，生成式方法更具优势。

一图胜千言

为何持续学习性能下降？生成的图像揭示了线索。

原始 MNIST 数据与通过模型反演和数据印象在联合及分割场景下生成的样本比较。

图 2: MNIST 的合成样本。联合设置 (b, c) 能生成清晰可辨的数字；持续分割设置 (d, e) 则产生噪声较大的图像，反映出明显的过拟合。

在仅包含少量类别的训练中，专家模型会过度自信，从而生成不真实的图像。联合训练捕捉了更广泛的表示，而持续场景下类别范围较窄，导致样本失真，使蒸馏效果下降。

合成数据的局限性

更大的合成样本缓冲区是否能提升学习效果？

一张图表，展示不同 ED 方法的缓冲区大小对准确率的影响。

图 3: CIFAR10-MT 场景下准确率与缓冲区大小关系。生成式方法因样本多样性不足而性能停滞，而使用少量真实数据的 Replay ED (蓝色) 扩展性更佳。

结果显示出递减效应: 增加合成样本数量不必然提升准确率。使用少量真实数据的 Replay ED 能持续提升性能，这凸显目前合成数据生成技术的样本多样性不足。提升生成样本的多样性将是未来的重要研究方向。

结论: 持续学习的新前沿

论文 “Ex-Model: Continual Learning from a Stream of Trained Models” 提出了一个突破性理念——Ex-Model 持续学习 (ExML) , 即通过向模型而非原始数据进行学习的方式实现持续训练。

基于Ex-Model 蒸馏 (ED) 策略，该方法展示了无数据知识迁移的可行性与潜力。尽管在类增量场景中仍有改进空间，但这一框架已为可扩展、隐私友好的持续学习奠定了坚实基础。

其应用前景广泛。在医疗领域，ExML 可使机构共享诊断模型，而无需共享敏感的患者数据；在分布式与联邦学习场景中，独立智能体可交换蒸馏后的知识，而非庞大的数据集。

ExML 并非取代传统持续学习，而是对其的有力补充。在一个充满专家“神经技能”的世界中，ExML 提供了一条协作且安全的学习之路——让 AI 也能开始向大师们自己学习。

从原始数据到专家模型: 重新定义持续学习#

核心方法: 通过 Ex-Model 蒸馏实现学习#

步骤 1: 创建合成数据集#

步骤 2: 从双教师模型中蒸馏知识#

关键成分: 无数据的数据生成机制#

实证检验: 实验与结果#

实验设置#

主要发现#

一图胜千言#

合成数据的局限性#

结论: 持续学习的新前沿#