想象一下学习骑自行车的过程。一旦掌握了它,当你学习驾驶汽车时,你并不会忘记如何骑行。事实上,你对平衡和动量的理解甚至可能有所帮助。人类拥有一个非凡的能力: 可以连续学习新的技能,在旧知识的基础上不断构建而不抹去它。对于人工神经网络而言,这一能力长期以来却是一个棘手的挑战。

当一个标准神经网络在完成一个任务后被重新训练去执行另一个任务时,它往往会经历灾难性遗忘——学习新任务的过程会覆盖旧任务的记忆。最常见的知识迁移方法是微调: 即对一个预训练网络的权重进行调整以适应新的任务。虽然微调在单次迁移中可能有效,但它具有破坏性: 网络会遗忘原始任务。如果希望智能体能在生命周期内学习一系列任务,仅靠微调是无法实现的。

这正是 Google DeepMind 的研究人员在他们的论文 《渐进式神经网络》 中所要解决的问题。他们提出了一种专为持续学习设计的新颖架构——能够免疫灾难性遗忘,并可以将知识从旧任务明确地迁移到新任务中。下面我们来看看它是如何运作的。


持续学习的挑战

持续学习 (又称终身学习) 的目标是创造能像人类一样从连续经验流中学习的智能体。这需要具备两个关键能力:

  1. 抵抗灾难性遗忘 —— 智能体必须保持完成已学任务的能力。
  2. 利用迁移学习 —— 智能体应能重用早期任务的知识,从而更快、更好地学习相关的新任务。

传统方法难以在两者之间取得平衡。将一个网络从任务 A 微调到任务 B 可能会在任务 B 上获得良好表现,但却损害了任务 A 的表现。我们可以为每个任务单独创建模型,但这又失去了迁移学习的优势。一个系统要如何在学习任务 C 的同时,借助任务 A 与 B 的知识呢?

这时候,渐进式网络 就登场了。这种架构不是修改已有模型,而是通过不断增长来实现——为每个新任务增加新的网络容量。


核心思想: 一个任务,一列网络

渐进式网络由多条列 (column) 组成——每个任务对应一列,每一列都是为该任务独立训练的神经网络。

当智能体开始学习任务 1 时,它会训练一个普通的神经网络 (第 1 列) ,直至收敛。当遇到任务 2 时,第 1 列的参数会被完全冻结 , 确保任务 1 不会被遗忘。然后,创建新的列 (第 2 列) ,其权重随机初始化。

那么问题来了: 如果第 1 列不能变化,第 2 列如何从它那儿学习? 答案是通过横向连接

新列中的每一层不仅接收来自自身前一层的输入,还会接收来自所有先前列中对应层的输入。这些横向连接使新网络能够利用之前任务学到的层次化特征,在不修改原有特征的情况下复用有用表示。

随着任务的增加,网络也随之变宽,每个任务增加一列。

一个三列渐进式网络的结构图。横向连接使得新列能够访问早期列中的特征。

图 1: 一个三列渐进式网络。第三列 (右侧) 学习最终任务,通过横向连接从前两个被冻结的列中迁移特征。

这种架构优雅地解决了持续学习的两大核心问题:

  • 不会遗忘: 每一列的参数 \( \Theta^{(1)}, \Theta^{(2)}, \ldots \) 在训练后均保持冻结。
  • 特征复用: 新列能访问并组合先前学到的特征表示。

形式上,第 \( k \) 列中第 \( i \) 层的激活值 \( h_i^{(k)} \) 通过自身输入与先前列的相应激活值计算得出:

\[ h_i^{(k)} = f \left( W_i^{(k)} h_{i-1}^{(k)} + \sum_{j计算渐进式网络中激活值的核心公式。

图 2: 每一层将自身的输入与来自早期列的横向信号相结合。

这种设计确保了之前训练好的模型不仅得到保留,还能继续被后续任务使用。


实践中的优化: 适配器

在实际应用中,来自旧列的特征可能具有不同的尺度或维度。为此,作者引入了适配器 (adapters) ——位于横向连接上的小型非线性层。适配器可以归一化特征尺度并控制维度增长,使参数规模保持可控。

\[ h_i^{(k)} = \sigma \left( W_i^{(k)} h_{i-1}^{(k)} + U_i^{(k:j)} \sigma (V_i^{(k:j)} \alpha_{i-1}^{(增加了适配器的渐进式网络公式。

图 3: 横向连接后游的适配器包含学习过的标量与投影矩阵,用于平衡并压缩迁移的特征。

渐进式网络的权衡也很明显: 模型大小会随任务数量增加而增长。但这是一种值得的代价——用规模换取免疫遗忘。后续分析还表明,在实践中只使用了新增容量的一小部分,这意味着可通过剪枝或压缩技术来控制增长。


衡量迁移发生的位置

迁移学习中的核心问题是: 复用了哪些知识? 以及这些知识源自哪里? 渐进式网络使这种探究变得可能。

为了量化迁移,作者提出了平均费雪敏感度 (Average Fisher Sensitivity, AFS) , 该指标源自费雪信息矩阵。费雪矩阵衡量网络输出对其内部激活的微小扰动的敏感度。高敏感度意味着模型对该特征依赖很强。

第 \( k \) 列第 \( i \) 层中特征 \( m \) 的 AFS 定义为:

\[ \hat{F}_i^{(k)} = \mathbb{E}_{\rho(s,a)} \left[ \frac{\partial \log \pi}{\partial \hat{h}_i^{(k)}} \frac{\partial \log \pi}{\partial \hat{h}_i^{(k)}}^T \right] \]

\[ \mathrm{AFS}(i,k,m) = \frac{\hat{F}_i^{(k)}(m,m)}{\sum_k \hat{F}_i^{(k)}(m,m)} \]

定义费雪信息和平均费雪敏感度的公式。

图 4: AFS 衡量每个特征在不同层与列中对策略学习的贡献强度。

该指标让研究人员可以绘制列之间知识流动的“敏感度图”,揭示迁移发生于低层感知、还是高层控制,或两者兼具。


渐进式网络的实证测试

DeepMind 团队在三个强化学习领域中测试了渐进式网络:

  1. Pong 变体集 (Pong Soup): Atari Pong 的视觉变体
  2. 经典 Atari 游戏: 一系列目标与视觉差异大的挑战性游戏
  3. 迷宫 (Labyrinth): 需要空间推理的复杂 3D 迷宫任务

三个实验领域的示例: Pong 变体、迷宫和经典 Atari 游戏。

图 5: 用于评估的实验环境。

每项实验都与多个强基线模型进行了比较:

基线模型和渐进式架构的示意图。

图 6: 基线模型包括单列微调和多列架构,用于对比。

最重要的对比项是基线 3——一种标准迁移方法: 先在源任务上预训练,再对整个模型进行微调。


实验 1: Pong 变体集

第一个实验采用“Pong 变体集”——一组经翻转、缩放、改色、加噪的 Pong 游戏。这些任务共享相似的视觉和控制结构,因此迁移效果应当明显。

Pong 变体集实验结果,展示了迁移矩阵和学习曲线,渐进式网络表现优于基线模型。

图 7: 渐进式网络 (Prog. 2 col) 在迁移得分与学习速度上表现稳定更优。

渐进式网络在所有 Pong 变体上都优于微调基线。基线 2 仅微调输出层,几乎无法实现有效迁移。基线 3 微调所有参数,虽有一定效果,但渐进式网络在平均与中位性能上均超越两者。

AFS 分析为迁移机制提供了更深洞见。

Pong 变体集的 AFS 迁移分析。

图 8: 敏感度图揭示了哪些列和层对新任务贡献最大。

关键观察:

  • Pong → H-Flip: 强烈复用低层视觉特征 (conv1/conv2) ,但重新学习全连接层。
  • Pong → Zoom: 保留基本滤波器,但形成新的中层特征。
  • Pong → Noisy: 重新学习低层特征以提升噪声鲁棒性。

这说明渐进式网络能够智能地判断在新任务中应复用与重新学习的部分。


实验 2: Atari 挑战

随后,作者研究了差异巨大的 Atari 游戏间的迁移,例如 SeaquestRiver RaidBoxing。这些游戏在视觉、动态和目标上差异显著,使迁移更具挑战。

Atari 游戏的迁移结果,展示了比较基线模型和渐进式方法的矩阵和学习曲线。

图 9: 渐进式网络在多种 Atari 游戏上均优于微调方法。

结果显示,渐进式网络在 12 个目标游戏中有 8 个实现了正迁移,而微调方法仅在 5 个中有效。渐进式网络还避免了负迁移——即旧特征妨碍新学习导致性能下降。例如从 Seaquest 迁移到 Gopher 会损害微调模型,但渐进式网络能通过选择性特征复用获得收益。

不同领域平均和中位迁移性能的总结表。

表 1: 渐进式网络在 Pong、Atari 和迷宫领域中始终优于基线方法。

增加更多列进一步提升了迁移效果。一个依次在 Seaquest → River Raid → Pong 上训练的网络在学习 Boxing 时速度更快,表现更好。

AFS 分析揭示了正迁移的关键机制。

Atari 游戏的 AFS 分析,突出新旧特征协同的“最佳平衡点”。

图 10: 最佳迁移出现在新特征对旧特征的增强时——平衡了复用与适应。

当新列在保留低级视觉特征的基础上添加新的特征时,会产生正迁移。而过度依赖旧特征会导致停滞,说明最优迁移在于新旧知识的结合


实验 3: 3D 迷宫

最后,研究人员在 Labyrinth 环境中测试了渐进式网络——这是一个三维迷宫任务,需要智能体收集水果并避开有毒物品。这类任务视觉复杂且部分可观测。

3D 迷宫任务的迁移结果和学习曲线。

图 11: 渐进式网络在较难、奖励稀疏的迷宫任务上显著优于基线模型。

在所有变体中,渐进式网络的迁移得分均高于基线模型。即使在简单关卡中,微调模型也偶尔出现负迁移,原因在于低层特征适应不足。而在困难的“搜寻-躲避”和复杂迷宫关卡中,渐进式网络表现突出,显示其能在已有空间与感知表示基础上持续构建。


结论: 迈向终身学习的一步

持续学习——跨经验积累和复用知识的能力——是迈向通用智能的关键一步。 渐进式神经网络 为实现这一目标提供了一种优雅且高效的途径。

核心要点:

  1. 不会遗忘: 各任务的参数保持完整,实现永久知识保留。
  2. 有效迁移: 特征在任务间复用,加快学习并提升性能。
  3. 避免负迁移: 渐进式网络能忽略无关旧特征,防止在不相似任务中的性能下降。
  4. 建设性增长: 随着任务增加性能反而提升,体现了真正的累积学习。

尽管渐进式网络随任务数增长而变大,但研究显示新增列仅使用了过去特征的稀疏子集。这为剪枝和压缩技术打开了可扩展性的可能。

通过冻结旧知识并将新任务直接连接到其之上,渐进式网络使模型从静态结构迈向动态演化——能够通过经验学习并成长。它们是打造像人类一样持续学习、记忆并在过去基础上智能构建的人工智能系统的重要一步。