现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本,它们在经过海量数据集训练后,展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。

但当世界发生变化时会怎样?如果一辆自动驾驶汽车遇到了新的路标,或者一个个人助理需要学习用户不断变化的习惯,该怎么办?现实世界的数据并非一张凝固的快照,而是一条持续不断的溪流。能够 随时间持续学习 的能力才是真正智能的标志。这正是 持续学习 的研究领域。

历史上,持续学习研究中的主要难题是 灾难性遗忘 —— 即神经网络在学习新任务时倾向于抹去旧知识。然而,来自阿尔伯塔大学研究人员的一篇开创性论文 《在深度持续学习中保持可塑性》 指出,更严重的问题可能会更早出现。在一个模型担心能否记住信息之前,它首先必须能够 学习新事物

作者们发现,当今的深度学习系统可能会丧失这种基本能力,他们将这种现象称为 可塑性丧失 。 一个曾经灵活且充满活力的深度网络,可能会变得无法再学习任何新东西——这是一种灾难性的失效,表现甚至不比一个简单的线性模型好。

在这篇文章中,我们将解析研究人员如何揭示这一令人担忧的问题,找出其潜在原因,并探讨他们提出的解决方案 —— 持续反向传播 —— 如何使神经网络永远保持学习能力。


问题所在: 当学习停止时

研究人员提出了一个看似简单的问题:

如果我们让一个标准的深度学习模型在一系列新任务上连续训练,它还能保持学习能力吗?

为了解答这个问题,他们设计了可控的持续学习挑战,用以衡量网络随着时间推移的适应能力。

ImageNet 上的严酷测试

ImageNet —— 这个开启了深度学习时代的数据集 —— 传统上是一次性的分类挑战。研究团队将其改造成一个 持续学习马拉松,以测试深度网络是否会丧失可塑性。

他们构建了 2000 个二元分类任务 , 每个任务区分两个类别 (例如,“猫 vs. 狗”、“汽车 vs. 飞机”) ,而不是一次性学习所有 1000 个类别。每完成一个任务,网络便直接进入下一个任务,并带着之前学习到的权重。

其架构是一个为二元任务设计的中等规模卷积神经网络。

表1: 用于持续 ImageNet 实验的卷积神经网络架构,包含三个卷积层和三个全连接层。

表1: 用于持续 ImageNet 问题的卷积网络。它有三个卷积层,后接三个针对二元分类优化的全连接层。

接下来是测试: 网络能否持续有效地学习?

图1: 在持续 ImageNet 任务上的性能。左图显示前10个任务时性能提升,右图——涵盖2000个任务——显示出性能的严重下降。深度网络的准确率最终降至简单线性基线的水平。

图1: 持续 ImageNet 上的可塑性丧失。网络最初学习良好,但其改进能力逐渐消失,几千个任务后性能降至线性水平。

起初,网络取得了令人印象深刻的准确率 (约 90%) 。但随着任务的积累,性能稳步下降 —— 在 2000 个任务后降至约 77%,与线性基线相当。强大的深度架构失去了它的 深层优势;它学习新信息的能力已消失。


这是普遍问题吗?置换 MNIST 的挑战

为了确保这并非 ImageNet 特有的问题,研究人员转向了经典的手写数字数据集 MNIST。他们构建了一个“在线置换 MNIST”实验,以轻量的方式评估持续适应能力。

对于每个新任务,所有 MNIST 图像的像素都会被随机置换——以一种新的固定方式打乱——网络必须从这些打乱的像素中重新学习数字分类。

图2a: 左图为正常的 MNIST 数字,右图为像素置换后的版本。

图2a: 左图——原始 MNIST 数字;右图——像素按独特置换重新排列后的版本。

经过数百个这样的随机变体后,网络面临输入分布的持续变化。

图2b: 在线置换 MNIST 中,不同步长、网络宽度和任务变化率下的可塑性丧失情况。在所有情况下,学习新任务的能力均随时间下降。

图2b: 无论学习率、网络规模或任务频率的组合如何,都无法挽救可塑性;所有配置的学习能力都会随时间退化。

结果与 ImageNet 的发现一致: 性能先上升,然后逐步下降 , 与超参数设置无关。可塑性丧失——即无法从新数据中学习——在不同架构、优化器和激活函数之间都有一致表现。


诊断病因: 为什么网络会丧失可塑性?

那么,为什么会发生这种情况呢?

网络在训练初期和末期的唯一区别在于其 权重状态 。 早期权重是微小的随机值——具有丰富的多样性和平衡性。随着训练的进行,这些特性逐渐消失。作者通过分析网络内部状态,揭示了可塑性丧失的三个可测症状。

图3: 在线置换 MNIST 中关键网络特性的演变。死亡单元增加 (左) ,平均权重大小增长 (中) ,有效秩——衡量表示多样性的指标——下降 (右) 。

图3: 随着数百个任务的进行,网络变得愈发难以学习: 神经元死亡,权重增长,表示空间坍塌到更低维度。

1. 死亡单元

在使用 ReLU 激活的网络中,“死亡”单元对所有输入输出皆为零。死亡单元不再贡献梯度,实际上从学习过程中消失。随着时间推移,死亡神经元比例上升,削弱了网络的功能容量。

2. 权重幅度增长

权重的绝对值不断增大。大权重与不稳定性相关——它们过度放大输入,导致梯度爆炸,使适应变得更加困难。

3. 表示多样性崩塌 (有效秩)

有效秩衡量隐藏层表示的独立方向数量。形式定义如下:

\[ \operatorname{erank}(\Phi) = \exp\left\{ H(p_1, p_2, \ldots, p_q) \right\}, \quad H(p_1, p_2, \ldots, p_q) = -\sum_{k=1}^q p_k \log(p_k) \]

高有效秩意味着特征丰富且多样。随着任务的推进,有效秩下降——这表明特征表示变得冗余、缺乏创造性。低秩的起点是面对新任务的不良基础。

这些症状共同揭示了 深度网络会随着时间变得更僵化 : 死亡神经元、过大的权重和狭窄的表示剥夺了网络的灵活性。


寻找解药: 标准技巧有效吗?

深度学习社区早已拥有许多工具——Adam 优化器、Dropout、L² 正则化、归一化等。这些常用技术能否对抗可塑性丧失?

研究人员在 MNIST 持续学习基准上对它们进行了正面对比。

图4a: 各种标准方法在在线置换 MNIST 上的性能。许多常见技术加剧了可塑性丧失,只有 L2 正则化和“收缩与扰动”有助维持性能。

图4a: 六种常见训练方法的比较。Adam 和 Dropout 使可塑性丧失恶化;只有 L² 正则化和“收缩与扰动”能缓解该问题。

  • Adam 和 Dropout: 尽管它们在一次性训练场景中表现出色,但在持续学习中却使可塑性丧失更严重,其中 Adam 表现出灾难性崩溃。
  • 在线归一化: 起初提升了性能,后期却急剧下降。
  • L² 正则化与收缩与扰动: 二者通过保持权重较小来减轻损失。“收缩与扰动”——即缩小权重并注入随机噪声——最为有效,几乎完全稳定了性能。

图4b: 检查各方法的可塑性相关指标。Adam 导致有效秩崩溃;L2 和 S&P 有效地控制了权重增长。

图4b: 各方法网络内部健康比较: Adam 快速破坏表示多样性,而 L² 和“收缩与扰动”有效维持了权重规模。

这些结果表明,控制权重并持续注入随机性对于保持学习能力至关重要。

但“收缩与扰动”方法对参数调节的敏感性带来了实用性问题。需要一种更系统、可自调节的方式。


解决方案: 持续反向传播

论文的突破性思路源于一个简单观察: 反向传播依赖两大核心过程——

  1. 初始化: 将权重设为微小随机值;
  2. 梯度下降: 依据训练数据更新权重。

然而,初始化 只发生一次 , 随着训练继续,网络多样性逐渐消退。如果我们能 持续地重新引入 初始化的随机性会怎样?

这便是 持续反向传播 (CBP) 的核心思想。

CBP 让反向传播成为真正的持续过程: 在每一步中选择性地重新初始化少部分低效用神经元,同时保持其他部分正常学习,从而无限期地保持可塑性。

衡量效用

哪些神经元该被重置?作者定义了一个包含两部分的 效用度量:

图5: 神经元效用反映其对下游活动的贡献 (输出权重与激活) 及其适应性 (输入权重大小的倒数) 。

图5: 神经元效用融合贡献度与适应性。低效用神经元会被重新初始化以维持多样性。

  1. 贡献效用: 神经元输出对下一层的影响强度——由其激活值与输出权重大小的乘积决定。
  2. 适应效用: 神经元调整速度——近似为输入权重大小的倒数。

两者乘积即为总体效用分数。效用长期偏低的神经元会周期性“退役”,被新的随机神经元取代。新单元以归零的输出权重开始,以避免干扰现有功能。

算法1: 持续反向传播算法,将梯度更新与选择性重新初始化低效用单元相结合。

算法1: 持续反向传播持续注入随机单元维持可塑性,同时进行梯度下降与选择性重新初始化。

这一机制如同持续“更新换代”: 陈旧单元被替换,网络保持年轻、多样、具备适应性。


结果: 可塑性恢复

在高难度持续学习任务上应用后,持续反向传播彻底改变了表现。

在在线置换 MNIST 上,它在 800 个任务中保持了近乎完美的准确率。

图6: (a) 在置换 MNIST 上的性能。持续反向传播 (蓝色) 保持稳定,而其他方法性能下降。 (b) CBP 保持权重小、无死亡单元且有效秩高。

图6: CBP 完全防止性能退化。它抑制权重爆炸,避免神经元死亡,并保持多样化表示。

持续反向传播解决了此前发现的全部病理症状:

  • 权重保持较小;
  • 死亡单元自动消除;
  • 有效秩保持高位,维持表示的丰富性。

最后,作者回到了艰难的持续 ImageNet 挑战。

图7: 在持续 ImageNet 上超过5000个任务时的性能。持续反向传播不仅保持学习能力,还能随时间提升性能。

图7: 在完整的持续 ImageNet 实验中,CBP 超越所有其他方法,并在数千个任务中保持可塑性。

在 5000 个任务中,CBP 不仅维持了可塑性,还 随时间提升性能 , 超越了 L² 正则化与“收缩与扰动”。即使在超参数变化较大的情况下,持续反向传播仍保持稳健,验证了其可靠性。


结论: 终身学习的新基石

这项研究提供了强有力的证据表明,若无干预,深度学习的灵活性会逐步衰退。作者揭示并解决了持续学习中的根本缺陷:

  • 可塑性脆弱: 标准深度网络会逐渐失去从新数据中学习的能力;
  • 三大症状——死亡单元、权重膨胀、表示崩塌——标志着这一衰退;
  • 传统技巧失效: Adam、Dropout、归一化等技术在静态训练中有效,却会恶化持续学习性能;
  • 随机性至关重要: 初始随机状态的多样性需持续补充;
  • 持续反向传播是解药: 通过结合梯度下降与选择性重新初始化,它能无限期保持可塑性。

简而言之, 学习本身需要持续更新

持续反向传播重塑了深度学习的一项核心假设: 初始化不应是一次性事件,而应是持续的过程。这一洞见为构建终身学习的人工智能系统——能够永远适应而不忘学习的机器——铺平了道路。


“要让学习持续进行,算法本身也必须是持续的。” —— Dohare 等人,《在深度持续学习中保持可塑性》