深度强化学习智能体为何会忘记如何学习：可塑性丧失问题

深度强化学习 (RL) 已经取得了令人难以置信的成就——从精通高难度视频游戏、设计计算机芯片，到控制核聚变反应堆。这些成功通常涉及训练一个智能体来解决单一、固定的问题。一旦训练完成，智能体的策略就会被部署，并且很少再改变。

但真实世界并非一成不变。天气模式会变化，市场会演进，技术不断更新。一个为永不改变的世界设计的智能体最终将面临失败。而这正是持续学习 (continual learning) 的关键所在——使智能体具备在动态环境中持续学习和适应的能力。

也许你会认为由深度神经网络驱动的现代强化学习智能体天生就擅长持续学习。然而，最近的一项研究揭示了一个根本性的缺陷: 当面对一系列不断变化的任务时，这些智能体不仅会遗忘先前任务的知识，甚至会失去其再次学习的能力。这种令人担忧的现象被称为可塑性丧失 (loss of plasticity) 。

在本文中，我们将深入解读 DeepMind 的论文 《Loss of Plasticity in Continual Deep Reinforcement Learning》。我们将探讨为何即使是最强大的强化学习智能体也会“固步自封”、分析其背后的原因，并介绍一个极其简单的架构修改如何令其重获学习能力。

一个强大的 Rainbow 智能体在连续体验 10 个不同雅达利游戏时，在《异形》游戏上的表现示例。每次重新访问《异形》时，其学习和得高分的能力都显著下降。

图 1: 雅达利游戏中的持续学习与可塑性丧失。Rainbow 智能体 (蓝色) 在重新访问《异形》游戏时性能急剧下降，而重置智能体 (灰色) 每次都能从头稳定地重新学习——凸显了 Rainbow 适应能力的下降。

快速回顾: 深度强化学习与 Rainbow

在深入探讨问题之前，让我们简要回顾一下深度强化学习的原理。

在强化学习中，智能体与环境交互: 它观察一个状态 \(S_t\)，采取一个动作 \(A_t\)，并获得一个奖励 \(R_t\)。目标是学习一个策略 (policy) ，即选择动作的策略，从而最大化未来的总折扣奖励:

\[ G_t = \sum_{i=0}^{\infty} \gamma^i R_{t+1+i}, \quad \gamma \in [0,1) \]

像深度 Q 网络 (DQN) 这样的现代智能体会学习一个价值函数 \( \hat{q}_{\mathbf{w}}(s, a) \)，该函数估计在状态 \(s\) 下采取动作 \(a\) 所带来的期望未来奖励。参数 \( \mathbf{w} \) 属于一个神经网络，通过预测误差计算出的梯度进行更新。

为稳定训练，DQN 使用一个大型的经验回放缓冲区 (replay buffer) ，该缓冲区随机采样过去的经验，以模拟监督学习中常见的独立同分布 (i.i.d.) 假设。

本文研究的核心是 Rainbow (Hessel 等人, 2018) ，这是 DQN 的一个高性能变体，结合了多项改进: 分布式强化学习、优先经验回放、决斗网络、噪声探索以及 n-步回报。在像街机学习环境 (ALE) 这样的静态环境中，Rainbow 在许多雅达利 2600 游戏上达到了超人水平的表现。它是一个标志性的深度强化学习基准系统——非常适合用于探索在变化环境下的持续学习问题。

实验: 切换雅达利游戏

为了研究持续学习，研究人员构建了一个名为切换式街机学习环境 (S-ALE) 的系统——这是标准雅达利基准的持续学习版本。

区别在于，研究人员不是为每个游戏单独训练智能体，而是让一个单一的 Rainbow 智能体在多个游戏序列中持续训练，期间不进行重置。

具体设置如下:

智能体玩游戏 A (例如《异形》) 2000 万帧。
然后切换到游戏 B (例如《亚特兰蒂斯》) 再玩 2000 万帧，接着是游戏 C，以此类推，通过包含 5 或 10 个游戏的列表。
关键是, 权重、优化器状态以及经验回放缓冲区都保持不变——智能体必须在已有知识的基础上进行适应，而不是重新开始。
完成一轮循环后，智能体返回游戏 A，开始新的“访问”。

这一设计模拟了一个不断变化的世界，其中每个游戏代表一种新环境。挑战在于: 单个网络能否在不重置的情况下依次掌握每个游戏？

惊人的结果: 性能逐步下滑

结果令人震惊。随着 Rainbow 在多个游戏间循环，其学习能力逐渐崩溃。

Rainbow 智能体在 5 个雅达利游戏间循环时的性能。在多数游戏中，其表现 (蓝线) 在每次后续访问中显著下降，远低于理想化的重置基准 (灰线) 水平。

图 2: Rainbow 在五个雅达利游戏中的可塑性丧失。持续学习的智能体 (蓝色) 在连续访问中表现不断退化，而重置基准 (灰色) 则保持稳定的性能。

图 2 的每个子图展示了 Rainbow 在重复玩同一游戏时得分的变化。持续学习的智能体 (蓝色) 表现逐次恶化，而理想的“重置”智能体——每次都从头训练——则始终表现良好。持续学习的智能体不仅遗忘了过去的知识，还出现了更严重的失败: 它忘记了如何重新学习。

是否因为这些游戏差异过大？为探究任务相似性是否有帮助，作者进行了更温和的测试——在一个单一游戏 (如《打砖块》) 的不同游戏模式中循环。这些模式有相同的视觉和目标，但在动态或控制上略有不同。

即使在《打砖块》的相似模式之间切换，Rainbow 智能体也仍然表现出显著的可塑性丧失。

图 3: 在单一游戏《打砖块》的 10 种模式中出现的可塑性丧失。即使是微小的变化也导致学习能力下降。

即便如此，Rainbow 的表现仍在持续下滑。可塑性丧失并非由任务差异导致，而是一个系统性问题。

探究: 网络内部发生了什么？

为什么会这样？智能体拥有庞大的神经网络并持续接收误差信号，理论上它应该能够继续学习。为揭示问题的机制，研究人员对 Rainbow 的内部进行了探测——跟踪权重、梯度和激活值在 10 次访问中的变化。

对 Rainbow 智能体在 10 次访问《异形》期间的内部状态的四面板分析。(a) 权重变化量减少。(b) 损失居高不下。(c) 梯度崩溃。(d) 活跃神经元数量骤降。

图 4: Rainbow 在连续玩《异形》时内部动态的分析。随着时间推移，权重停止变化，损失保持高位，梯度崩溃，激活值消失。

主要发现如下:

权重停止变化: 网络的参数更新在每次回访中显著缩小。到第十次访问时，持续学习智能体的权重几乎不再变化，而从头训练的网络则仍保持活跃更新。
损失居高不下: 尽管网络停滞，误差 (损失) 仍很大，说明它仍在做出错误的预测。
梯度消失: 梯度范数接近零——学习信号无法有效反向传播，权重无法更新。
激活值崩溃: 活跃神经元比例急剧下降。Rainbow 使用修正线性单元 (ReLU) ；当 ReLU 长期接收负输入时，其输出将永久为零。此类神经元将无法参与学习，这一现象通常称为ReLU 死亡 。到第十次访问时，活跃神经元比例不足 1%，网络几乎完全静止。

总结而言: 网络陷入沉寂。高损失但无学习，说明 ReLU 的激活值崩溃扼杀了智能体的适应能力，这就是典型的可塑性丧失 。

解决方案: 用 CReLU 恢复学习能力

为了“复活”网络，研究人员提出了一个简单的架构调整——将 ReLU 替换为级联修正线性单元 (CReLU) 。

CReLU 修改了标准激活函数:

\[ \text{CReLU}(x) = [\text{ReLU}(x), \text{ReLU}(-x)] \]

通过将 \(x\) 的 ReLU 输出与其负值的 ReLU 输出进行级联，CReLU 保证对任何非零输入至少有一个通道保持活跃。这一设计确保信息传递，防止神经元永久“死亡”。

当用 CReLU 激活重构 Rainbow 并在 S-ALE 中重新训练时，效果非常显著。

标准 Rainbow 智能体 (蓝色) 与使用 CReLU 激活的 Rainbow 智能体 (绿色) 性能对比。CReLU 智能体在后续访问中保持学习能力并表现良好。

图 5: CReLU 激活缓解了可塑性丧失。采用 CReLU 的持续学习智能体 (绿色) 能在多次访问中保持学习能力。

Rainbow-CReLU 智能体保留了其可塑性——在多次环境变化后仍能有效学习。与基于 ReLU 的 Rainbow 不同，它的学习能力不再退化。

但 CReLU 是否只是更优的激活函数？为验证这一点，研究人员在非持续条件下进行了比较。

当从头在单个游戏上训练时，使用 ReLU 的 Rainbow (红色) 和使用 CReLU 的 Rainbow (橙色) 表现几乎一致，表明 CReLU 的优势主要体现在持续学习场景。

图 6: 在静态训练中，CReLU 并无固有优势——其益处主要体现在持续学习情境下。

结果显示，在单任务训练中两者性能几乎相同，证明 CReLU 的独特优势仅在持续学习设定下发挥作用。

这一优势在《打砖块》模式实验中同样出现:

CReLU (绿色) 在切换《打砖块》的不同模式时也防止了可塑性丧失。

图 7: CReLU 在多种《打砖块》模式中持续保持了可塑性，而普通 ReLU 版本则失效。

内部诊断验证了这种成功背后的机制。

对 CReLU 智能体的内部分析。(d) 激活值崩溃得到防止。(c) 梯度保持较大。(a) 权重持续变化，使智能体能够学习。

图 8: 《异形》游戏中 CReLU 智能体的内部状态。使用 CReLU (绿色) 时，激活保持活跃，梯度持续存在，权重不断更新。

CReLU 有效防止激活崩溃，保持梯度流动，确保网络持续适应——直接解决了可塑性丧失问题。

下一个前沿: 灾难性遗忘

虽然 CReLU 恢复了学习能力，但它并未解决另一关键挑战——灾难性遗忘 (catastrophic forgetting) ，即新任务学习会覆盖旧知识。

即使使用了 CReLU (绿色) ，持续学习智能体仍远逊于在单个游戏上不间断训练的智能体 (红色) ，凸显了灾难性遗忘。

图 9: 灾难性遗忘仍然存在。CReLU 持续学习智能体 (绿色) 每次必须从头重新学习游戏，表现远低于不间断训练的基准 (红色) 。

如图 9 所示，CReLU 智能体 (绿色) 虽然优于基于 ReLU 的 Rainbow，但仍需在每次回访时重新学习每个游戏。而在单游戏上持续训练的智能体 (红色) 则能稳步掌握技能。知识并未在访问间累积——智能体虽保持可塑性，却缺乏稳定性。

这种冲突——即稳定性–可塑性困境——是持续学习的核心问题:

可塑性 (Plasticity) : 快速学习新信息的能力。
稳定性 (Stability) : 保持已有知识的能力。

基于 ReLU 的智能体在可塑性上失败；基于 CReLU 的智能体恢复了可塑性，但仍缺乏稳定性。未来的研究必须同时解决这两方面。

结论与启示

这项研究揭示了构建具备自适应能力的人工智能系统的关键启示:

可塑性丧失是真实且灾难性的。 即使是最先进的深度强化学习系统 Rainbow，在面对不断变化的任务序列时也会失去学习能力。
ReLU 激活崩溃是罪魁祸首。 死亡神经元导致梯度消失与权重冻结，使网络陷入停滞。
CReLU 提供了简单而强大的修复。 通过确保每个神经元至少有一个活跃输出，CReLU 在各种任务间保持持续学习能力。

然而，仅仅恢复可塑性还不够。 灾难性遗忘这一持续挑战仍待解决。将可塑性保持的架构与稳定知识保留策略——如经验回放、选择性参数冻结或突触巩固——结合，将是下一步的关键。

持续学习不仅是学术问题。在现实世界中——环境、目标与数据不断变化——能够持续学习而不忘却如何学习的智能体，将定义未来真正的智能系统。

快速回顾: 深度强化学习与 Rainbow#

实验: 切换雅达利游戏#

惊人的结果: 性能逐步下滑#

探究: 网络内部发生了什么？#

解决方案: 用 CReLU 恢复学习能力#

下一个前沿: 灾难性遗忘#

结论与启示#