深度学习的阿喀琉斯之踵：为什么神经网络会忘记如何学习

现代深度学习模型令人惊叹。从用 DALL-E 生成艺术作品到用 GPT-3 创作文本，它们在经过海量数据集训练后，展现出了超越人类的能力。这种 “一次性训练”范式 —— 即经过一次大规模训练期后再进行静态部署 —— 推动了人工智能革命。

但当世界发生变化时会怎样？如果一辆自动驾驶汽车遇到了新的路标，或者一个个人助理需要学习用户不断变化的习惯，该怎么办？现实世界的数据并非一张凝固的快照，而是一条持续不断的溪流。能够 随时间持续学习 的能力才是真正智能的标志。这正是 持续学习 的研究领域。

历史上，持续学习研究中的主要难题是 灾难性遗忘 —— 即神经网络在学习新任务时倾向于抹去旧知识。然而，来自阿尔伯塔大学研究人员的一篇开创性论文 《在深度持续学习中保持可塑性》 指出，更严重的问题可能会更早出现。在一个模型担心能否记住信息之前，它首先必须能够 学习新事物。

作者们发现，当今的深度学习系统可能会丧失这种基本能力，他们将这种现象称为 可塑性丧失 。一个曾经灵活且充满活力的深度网络，可能会变得无法再学习任何新东西——这是一种灾难性的失效，表现甚至不比一个简单的线性模型好。

在这篇文章中，我们将解析研究人员如何揭示这一令人担忧的问题，找出其潜在原因，并探讨他们提出的解决方案 —— 持续反向传播 —— 如何使神经网络永远保持学习能力。

问题所在: 当学习停止时

研究人员提出了一个看似简单的问题:

如果我们让一个标准的深度学习模型在一系列新任务上连续训练，它还能保持学习能力吗？

为了解答这个问题，他们设计了可控的持续学习挑战，用以衡量网络随着时间推移的适应能力。

ImageNet 上的严酷测试

ImageNet —— 这个开启了深度学习时代的数据集 —— 传统上是一次性的分类挑战。研究团队将其改造成一个 持续学习马拉松，以测试深度网络是否会丧失可塑性。

他们构建了 2000 个二元分类任务 , 每个任务区分两个类别 (例如，“猫 vs. 狗”、“汽车 vs. 飞机”) ，而不是一次性学习所有 1000 个类别。每完成一个任务，网络便直接进入下一个任务，并带着之前学习到的权重。

其架构是一个为二元任务设计的中等规模卷积神经网络。

表1: 用于持续 ImageNet 实验的卷积神经网络架构，包含三个卷积层和三个全连接层。

表1: 用于持续 ImageNet 问题的卷积网络。它有三个卷积层，后接三个针对二元分类优化的全连接层。

接下来是测试: 网络能否持续有效地学习？

图1: 在持续 ImageNet 任务上的性能。左图显示前10个任务时性能提升，右图——涵盖2000个任务——显示出性能的严重下降。深度网络的准确率最终降至简单线性基线的水平。

图1: 持续 ImageNet 上的可塑性丧失。网络最初学习良好，但其改进能力逐渐消失，几千个任务后性能降至线性水平。

起初，网络取得了令人印象深刻的准确率 (约 90%) 。但随着任务的积累，性能稳步下降 —— 在 2000 个任务后降至约 77%，与线性基线相当。强大的深度架构失去了它的 深层优势；它学习新信息的能力已消失。

这是普遍问题吗？置换 MNIST 的挑战

为了确保这并非 ImageNet 特有的问题，研究人员转向了经典的手写数字数据集 MNIST。他们构建了一个“在线置换 MNIST”实验，以轻量的方式评估持续适应能力。

对于每个新任务，所有 MNIST 图像的像素都会被随机置换——以一种新的固定方式打乱——网络必须从这些打乱的像素中重新学习数字分类。

图2a: 左图为正常的 MNIST 数字，右图为像素置换后的版本。

图2a: 左图——原始 MNIST 数字；右图——像素按独特置换重新排列后的版本。

经过数百个这样的随机变体后，网络面临输入分布的持续变化。

图2b: 在线置换 MNIST 中，不同步长、网络宽度和任务变化率下的可塑性丧失情况。在所有情况下，学习新任务的能力均随时间下降。

图2b: 无论学习率、网络规模或任务频率的组合如何，都无法挽救可塑性；所有配置的学习能力都会随时间退化。

结果与 ImageNet 的发现一致: 性能先上升，然后逐步下降 , 与超参数设置无关。可塑性丧失——即无法从新数据中学习——在不同架构、优化器和激活函数之间都有一致表现。

诊断病因: 为什么网络会丧失可塑性？

那么，为什么会发生这种情况呢？

网络在训练初期和末期的唯一区别在于其 权重状态 。早期权重是微小的随机值——具有丰富的多样性和平衡性。随着训练的进行，这些特性逐渐消失。作者通过分析网络内部状态，揭示了可塑性丧失的三个可测症状。

图3: 在线置换 MNIST 中关键网络特性的演变。死亡单元增加 (左) ，平均权重大小增长 (中) ，有效秩——衡量表示多样性的指标——下降 (右) 。

图3: 随着数百个任务的进行，网络变得愈发难以学习: 神经元死亡，权重增长，表示空间坍塌到更低维度。

1. 死亡单元

在使用 ReLU 激活的网络中，“死亡”单元对所有输入输出皆为零。死亡单元不再贡献梯度，实际上从学习过程中消失。随着时间推移，死亡神经元比例上升，削弱了网络的功能容量。

2. 权重幅度增长

权重的绝对值不断增大。大权重与不稳定性相关——它们过度放大输入，导致梯度爆炸，使适应变得更加困难。

3. 表示多样性崩塌 (有效秩)

有效秩衡量隐藏层表示的独立方向数量。形式定义如下:

\[ \operatorname{erank}(\Phi) = \exp\left\{ H(p_1, p_2, \ldots, p_q) \right\}, \quad H(p_1, p_2, \ldots, p_q) = -\sum_{k=1}^q p_k \log(p_k) \]

高有效秩意味着特征丰富且多样。随着任务的推进，有效秩下降——这表明特征表示变得冗余、缺乏创造性。低秩的起点是面对新任务的不良基础。

这些症状共同揭示了 深度网络会随着时间变得更僵化 : 死亡神经元、过大的权重和狭窄的表示剥夺了网络的灵活性。

寻找解药: 标准技巧有效吗？

深度学习社区早已拥有许多工具——Adam 优化器、Dropout、L² 正则化、归一化等。这些常用技术能否对抗可塑性丧失？

研究人员在 MNIST 持续学习基准上对它们进行了正面对比。

图4a: 各种标准方法在在线置换 MNIST 上的性能。许多常见技术加剧了可塑性丧失，只有 L2 正则化和“收缩与扰动”有助维持性能。

图4a: 六种常见训练方法的比较。Adam 和 Dropout 使可塑性丧失恶化；只有 L² 正则化和“收缩与扰动”能缓解该问题。

Adam 和 Dropout: 尽管它们在一次性训练场景中表现出色，但在持续学习中却使可塑性丧失更严重，其中 Adam 表现出灾难性崩溃。
在线归一化: 起初提升了性能，后期却急剧下降。
L² 正则化与收缩与扰动: 二者通过保持权重较小来减轻损失。“收缩与扰动”——即缩小权重并注入随机噪声——最为有效，几乎完全稳定了性能。

图4b: 检查各方法的可塑性相关指标。Adam 导致有效秩崩溃；L2 和 S&P 有效地控制了权重增长。

图4b: 各方法网络内部健康比较: Adam 快速破坏表示多样性，而 L² 和“收缩与扰动”有效维持了权重规模。

这些结果表明，控制权重并持续注入随机性对于保持学习能力至关重要。

但“收缩与扰动”方法对参数调节的敏感性带来了实用性问题。需要一种更系统、可自调节的方式。

解决方案: 持续反向传播

论文的突破性思路源于一个简单观察: 反向传播依赖两大核心过程——

初始化: 将权重设为微小随机值；
梯度下降: 依据训练数据更新权重。

然而，初始化 只发生一次 , 随着训练继续，网络多样性逐渐消退。如果我们能 持续地重新引入 初始化的随机性会怎样？

这便是 持续反向传播 (CBP) 的核心思想。

CBP 让反向传播成为真正的持续过程: 在每一步中选择性地重新初始化少部分低效用神经元，同时保持其他部分正常学习，从而无限期地保持可塑性。

衡量效用

哪些神经元该被重置？作者定义了一个包含两部分的 效用度量:

图5: 神经元效用反映其对下游活动的贡献 (输出权重与激活) 及其适应性 (输入权重大小的倒数) 。

图5: 神经元效用融合贡献度与适应性。低效用神经元会被重新初始化以维持多样性。

贡献效用: 神经元输出对下一层的影响强度——由其激活值与输出权重大小的乘积决定。
适应效用: 神经元调整速度——近似为输入权重大小的倒数。

两者乘积即为总体效用分数。效用长期偏低的神经元会周期性“退役”，被新的随机神经元取代。新单元以归零的输出权重开始，以避免干扰现有功能。

算法1: 持续反向传播算法，将梯度更新与选择性重新初始化低效用单元相结合。

算法1: 持续反向传播持续注入随机单元维持可塑性，同时进行梯度下降与选择性重新初始化。

这一机制如同持续“更新换代”: 陈旧单元被替换，网络保持年轻、多样、具备适应性。

结果: 可塑性恢复

在高难度持续学习任务上应用后，持续反向传播彻底改变了表现。

在在线置换 MNIST 上，它在 800 个任务中保持了近乎完美的准确率。

图6: (a) 在置换 MNIST 上的性能。持续反向传播 (蓝色) 保持稳定，而其他方法性能下降。 (b) CBP 保持权重小、无死亡单元且有效秩高。

图6: CBP 完全防止性能退化。它抑制权重爆炸，避免神经元死亡，并保持多样化表示。

持续反向传播解决了此前发现的全部病理症状:

权重保持较小;
死亡单元自动消除;
有效秩保持高位，维持表示的丰富性。

最后，作者回到了艰难的持续 ImageNet 挑战。

图7: 在持续 ImageNet 上超过5000个任务时的性能。持续反向传播不仅保持学习能力，还能随时间提升性能。

图7: 在完整的持续 ImageNet 实验中，CBP 超越所有其他方法，并在数千个任务中保持可塑性。

在 5000 个任务中，CBP 不仅维持了可塑性，还 随时间提升性能 , 超越了 L² 正则化与“收缩与扰动”。即使在超参数变化较大的情况下，持续反向传播仍保持稳健，验证了其可靠性。

结论: 终身学习的新基石

这项研究提供了强有力的证据表明，若无干预，深度学习的灵活性会逐步衰退。作者揭示并解决了持续学习中的根本缺陷:

可塑性脆弱: 标准深度网络会逐渐失去从新数据中学习的能力；
三大症状——死亡单元、权重膨胀、表示崩塌——标志着这一衰退;
传统技巧失效: Adam、Dropout、归一化等技术在静态训练中有效，却会恶化持续学习性能；
随机性至关重要: 初始随机状态的多样性需持续补充；
持续反向传播是解药: 通过结合梯度下降与选择性重新初始化，它能无限期保持可塑性。

简而言之, 学习本身需要持续更新 。

持续反向传播重塑了深度学习的一项核心假设: 初始化不应是一次性事件，而应是持续的过程。这一洞见为构建终身学习的人工智能系统——能够永远适应而不忘学习的机器——铺平了道路。

“要让学习持续进行，算法本身也必须是持续的。” —— Dohare 等人，《在深度持续学习中保持可塑性》

问题所在: 当学习停止时#

ImageNet 上的严酷测试#

这是普遍问题吗？置换 MNIST 的挑战#

诊断病因: 为什么网络会丧失可塑性？#

1. 死亡单元#

2. 权重幅度增长#

3. 表示多样性崩塌 (有效秩)#

寻找解药: 标准技巧有效吗？#

解决方案: 持续反向传播#

衡量效用#

结果: 可塑性恢复#

结论: 终身学习的新基石#