想象一下教一个孩子识别动物。你从猫开始,他学得很好。然后你教他狗。经过一周的“狗课”后,你再给他看一只猫,他会犹豫——“这是一只长相奇怪的狗吗?”这不仅是孩子们常见的经典问题,也是人工智能面临的难题。它被称为 灾难性遗忘 (catastrophic forgetting) , 是构建能像人类一样持续学习的人工智能的最大障碍之一。

在机器学习中,这一挑战正是 持续学习 (Continual Learning, CL) 的核心: 模型如何在学习新任务时,不覆盖已有知识?单一的庞大模型往往会失败——其内部参数被每个新任务拉向不同方向,直到旧的知识被遗忘。

但是,如果我们不依赖一个疲于奔命的“通才”,而是拥有一支“专家团队”呢?这就是 混合专家模型 (Mixture-of-Experts, MoE) 架构背后的思想——一种为许多先进 AI 系统 (包括大型语言模型) 提供动力的设计。MoE 的原理是由多个“专家”子网络和一个“路由器”组成,路由器负责将每个输入数据分配给最合适的专家。

这种架构似乎天生适合持续学习。一个专家可以负责“猫”,另一个专家负责“狗”,再一个负责“鸟”等等。虽然 MoE 在实验上取得了很好的效果,但它为何有效,以及它如何真正防止遗忘,一直缺乏系统的理论解释。

这正是论文 《关于混合专家模型在持续学习中的理论》(“Theory on Mixture-of-Experts in Continual Learning”) 的突破所在。作者提供了一个严谨的理论框架,解释 为什么 MoE 有助于持续学习,如何 起作用,以及——何时应该停止训练路由器。这一分析将直觉与数学证明相结合,揭示了一个新的原则,使 MoE 能在动态学习环境中高效运作。

在本文中,我们将解析他们的主要见解:

  • MoE 模型在持续学习中的运作方式;
  • 让专家各自特化、同时让路由器学会做出智能决策的训练设计;
  • 一个关键但出乎意料的发现: 为保持系统稳定,路由器最终必须停止训练;
  • 揭示 MoE 在灾难性遗忘与泛化性能上的理论结果;
  • 来自合成数据及真实场景的实验证据验证这些理论。

无论你是研究机器学习理论的学生,还是改进持续学习系统的从业者,这篇深度探讨都将帮助你理解“专家团队”如何让 AI 保持记忆不遗忘。


持续学习与灾难性遗忘

持续学习 (CL) 是一种让模型随着时间不断接触新任务的方式。例如,一个机器人可能在探索新环境时学会识别不同的物体,或者一个语言模型可能逐渐吸收新的话题。

CL 的目标是让知识持续累积: 新的学习应当建立在旧知识之上,而不是替代它。然而,普通神经网络通常无法做到这一点,这就是 灾难性遗忘 : 模型在学习新任务时,参数的更新往往破坏了它先前学到的表示。任务序列越多样化,干扰就越严重。一个先学鸟类、再学汽车、最后学花朵的网络,很可能在学完汽车后就忘了如何识别鸟类。


混合专家模型 (MoE) 的引入

混合专家模型提供了一种简单而巧妙的架构解决方案。MoE 不再是一个统一的网络,而是把任务的处理责任拆分给多个专家模块,由一个路由器控制哪些专家处理哪些输入。

  1. 专家 (共 M 个) : 每个专家都是一个独立的神经子网络,可以专注于特定任务类型。
  2. 门控网络 (路由器) : 一个小型网络负责查看输入,并决定哪个专家应该处理该输入。

MoE 路由示意图,展示了门控网络如何根据输入信号从多个专家中选择一个。

图 1: 混合专家模型示意图。门控网络将每个输入或任务路由到最合适的专家。

当新任务到来时,路由器会将其分配给得分最高的专家。实践中常采用 top-1 路由机制 : 只有匹配度最高的专家会参与训练,其他专家保持不变,从而保留已有任务的知识。这种选择性训练有效隔离了学习信号,显著降低了遗忘。


论文框架: 一个简化的理论模型

为了从数学上理解 MoE 的动态行为,研究者在 过参数化线性回归 的框架下分析了它——这是一个简化但有代表性的模型,能够捕捉神经网络的重要性质。

理论设置如下:

  • 持续训练 : 学习过程分为 T 轮,每轮 \(t\) 到来一个新任务;
  • 任务池 (知识库) : 存在 N 个不同的真实模型,每个新任务对应其中之一;
  • 独特任务信号 : 每个任务的数据分布中包含独特特征模式 (“信号”) ,路由器最终可以识别。

这样,研究团队可以在数学上精确追踪任务不断到来时,专家与路由器的更新过程。


MoE 在每一轮中的学习过程

每个训练轮次包含四个步骤:

  1. 任务到达 一个数据集 \( \mathcal{D}_t = (X_t, y_t) \) 到达,对应任务池中的一个任务。

  2. 路由决策 门控网络为每个专家 \( m \in [M] \) 计算得分 \( h_m(X_t, \theta_t^{(m)}) \)。为了保持路由的动态与探索性,会加入小随机噪声 \( r_t^{(m)} \sim \mathrm{Unif}[0, \lambda] \):

    \[ m_t = \arg\max_m \{ h_m(X_t, \theta_t^{(m)}) + r_t^{(m)} \}. \]

    得分最高的专家 \( m_t \) 被选中。

  3. 专家更新 被选中的专家使用任务数据更新其参数。虽然由于过参数化,有多种参数都能完美拟合,但更新遵循最小变化原则:

    \[ \boldsymbol{w}_t^{(m_t)} = \boldsymbol{w}_{t-1}^{(m_t)} + \mathbf{X}_t(\mathbf{X}_t^\top \mathbf{X}_t)^{-1}(\mathbf{y}_t - \mathbf{X}_t^\top\boldsymbol{w}_{t-1}^{(m_t)}). \]

    其他专家保持不变。

  4. 路由器调整 最后,路由器更新参数以提升未来的专家选择效果。此处引入了两个关键设计创新。


关键设计 I: 多目标路由器训练

为了有效训练路由器,作者设计了一种结合 专家特化任务分配公平性 的损失函数。

1. 局部性损失

鼓励路由器将相似任务分配给同一专家:

\[ \mathcal{L}_t^{loc}(\boldsymbol{\Theta}_t, \mathcal{D}_t) = \sum_{m \in [M]} \pi_m(\mathbf{X}_t, \boldsymbol{\Theta}_t)\|\boldsymbol{w}_t^{(m)} - \boldsymbol{w}_{t-1}^{(m)}\|_2. \]

其中 \( \pi_m \) 为路由器输出的 softmax 概率。最小化该损失减少专家参数的变动,使性质相似的任务聚集在同一专家下。

2. 辅助损失 (负载均衡)

防止路由器过度使用少数专家:

\[ \mathcal{L}^{aux}_t(\Theta_t, \mathcal{D}_t) = \alpha M\sum_{m \in [M]} f_t^{(m)}P_t^{(m)}. \]

该项促使任务分配更均匀,让所有专家都能参与训练。最终损失为加权总和,参数通过梯度下降更新。


关键设计 II: 提前终止——何时停止更新路由器

论文最令人惊讶的发现之一是: 在持续学习场景中, 路由器必须在某个时间点停止学习

通常我们会持续训练直到收敛,但在在线持续学习的环境下,不断更新路由器会导致系统不稳定。平衡损失使专家得分趋同,微小噪声就可能引发错误分配。路由错误导致跨任务干扰,反而重新带来了遗忘。

因此,研究者提出 提前终止 策略:

  • 在初始探索阶段 (\(T_1 = \lceil \eta^{-1}M \rceil\) 轮) 允许更新;
  • 监控专家之间的输出差距;
  • 一旦路由器能够稳定地区分任务特化组 (各专家分数差距明显) ,就冻结其参数。

终止后,路由器利用学到的结构维持均衡负载,无需进一步更新,从而确保收敛并防止遗忘。


理论结果: 数学告诉我们什么

作者推导了若干形式化命题与定理,解释 MoE 的行为。

专家特化 (命题 1)

在初始探索阶段后:

  • 若 \( M > N \) : 每个专家收敛到单一任务;
  • 若 \( M < N \) : 每个专家专注于一组相似任务。 收敛后,专家权重不再变化,相当于锁定了所学知识。

终止的必要性 (命题 2)

  • 在早期轮次中,不同任务专家的得分差距明显 (\( \Theta(\sigma_0^{0.75}) \)),同组任务专家差距较小 (\( \mathcal{O}(\sigma_0^{1.75}) \));
  • 若持续更新路由器,这些差距将消失——专家得分无法区分,导致路由错误与性能退化。 因此,必须在适当时停止更新以保持分离度。

负载均衡与稳定性 (命题 3)

终止后,随机扰动 \( r_t^{(m)} \) 保证每个特化集内专家的均衡使用,在保持正确任务分配的同时平衡系统计算负载。


遗忘与泛化: 量化 MoE 的优势

作者定义了两项衡量指标:

  1. 遗忘程度 测量学习新任务后,模型在旧任务上的性能下降;
  2. 泛化误差 衡量训练完成后模型在所有任务上的总体准确度。

与单专家基线相比:

  • 遗忘降至近乎为零 , 因为 MoE 将任务分离学习,避免破坏性干扰;
  • 泛化误差保持稳定且微小 , 即便新任务持续到来。

值得注意的是,过多的专家会拖慢收敛而无助于提升性能。当专家数足够覆盖任务空间后,继续增加只会浪费时间进行冗余探索。


实验证据

合成数据验证

第一个实验验证了提前终止路由器更新的理论必要性。

四面板图,比较了在 2000 轮训练中,不同专家数量下“有终止”与“无终止”策略的差异。

图 2: 有无终止策略下遗忘与泛化误差的动态变化。此处 N = 6,K = 3 个簇,且 \( M \in \{1, 5, 10, 20\} \)。

观察结果:

  • 有终止策略时,遗忘与误差皆降至近零,多专家模型显著优于单专家;
  • 无终止策略时,指标波动且居高,路由器不稳定;
  • 将专家数增至 10 以上无显著改进,说明过量专家仅延长探索期。

深度神经网络的真实数据验证

为了测试 MoE 在非线性场景下的表现,作者将其算法在 CIFAR-10 数据集上实现,使用 ResNet-18 作为基础网络。

四张小图,展示了在 CIFAR-10 数据集上,有无终止策略的 MoE 模型的泛化误差和准确率。

图 3: 在 CIFAR-10 数据集下,整体泛化误差与测试准确率的动态变化。采用终止策略后,模型在 \( M \in \{1, 4, 12\} \) 时获得更高的稳定性与准确率。

结果: 采用终止策略后,学习过程稳定、准确率更高;未终止时训练振荡且性能下降。这与线性实验结果一致,验证了理论在真实复杂数据上的适用性。


核心要点

  1. MoE 通过专门化专家来对抗灾难性遗忘。 每个专家都是其任务的知识存储库。

  2. 多目标损失函数——结合局部性 (特化) 与辅助项 (负载均衡) ——能最优训练路由器。

  3. 提前终止路由器更新 保证系统稳定。持续更新将使专家得分趋同,破坏特化。

  4. 更多专家 ≠ 更好性能。 足够的覆盖是关键,过多只会延长训练而不带来收益。


构建不会遗忘的 AI

论文《关于混合专家模型在持续学习中的理论》将 MoE 从一种实践技巧提升为具备理论依据的架构。它不仅解释 什么 有效,还解释 为什么 有效——将数学推导与真实验证结合。

其启示如下:

  • 专家特化防止干扰;
  • 受控路由保持记忆;
  • 适时停止训练确保稳定。

遵循这些原则,我们可以构建出记得过去、学习当下、并能适应未来的 AI 系统——而不会忘记如何识别一只猫。