想象一下,你教一个聪明的学生一门新学科,他们很快就掌握了。然后你再教他们另一门学科——他们也掌握得很好。但突然之间,他们把第一门学科忘得一干二净。这就是大多数现代 AI 模型所面临的令人沮丧的现实。它们学得快,却患上了一种被称为灾难性遗忘的数字“失忆症”。
问题还不止于此。随着时间推移,这些模型会变得僵化,失去高效学习新信息的能力。这被称为可塑性丧失 。 这两个问题共同形成了“稳定性–可塑性困境”: 一个 AI 系统如何在保持稳定以保留旧知识的同时,又能保持足够的灵活性去学习新事物?
这个困境是实现像人类一样能够持续学习的真正智能系统的最大障碍之一。最近的一篇论文《解决持续学习中的可塑性丧失与灾难性遗忘问题》提出了一种优雅的解决方案——基于效用的扰动梯度下降 (Utility-Based Perturbed Gradient Descent, UPGD) 。 这种方法能够同时解决这两个问题,甚至在流式学习等复杂的现实场景中也能奏效。
让我们来看看 UPGD 如何帮助 AI 系统在拥抱未来的同时铭记过去。

图 1: 持续学习的两个核心问题。(a) 在需要重用已学知识的任务上,Adam 的准确率停滞不前——这是灾难性遗忘的迹象。(b, c) 在新任务上,Adam 的性能下降,显示出随时间推移的可塑性丧失。相比之下,UPGD 在所有任务上都保持了强劲性能。
边做边学
大多数 AI 模型都在平静、受控的环境中训练。它们反复处理海量数据集,直到完全掌握其中的模式。然而,现实世界的学习是混乱的——连续、不停变化且不可预测——这正是持续学习的特征。
论文聚焦于这一范式中一个特别困难的版本,称为流式学习 。 在流式学习中:
- 数据以一次一个样本的形式到达。
- 模型必须立即从每个样本中学习。
- 由于内存或隐私限制,样本无法存储用于重放。
- 底层模式随时间变化 , 无预警地形成新的“任务”。
这就像一个在家中导航的机器人: 不断适应,从不两次看到相同的房间,也无法储存完整的经历。在这种严苛环境下,灾难性遗忘和可塑性丧失会十分严重。传统优化器——如 Adam 和 SGD——在每次更新时都会覆盖有用知识,从而抹去过去的记忆。
现有的解决方案通常依赖重放缓冲区或任务边界的显式标识。这些方法只在整洁的学术设置中有效,而不适用于连续的真实部署。我们需要一种能够自我调节学习的优化器——能在学习过程中智能地决定保留什么、更新什么。
核心思想: 保护有用的,焕新其余的
UPGD 的理念既简单又强大: 并非神经网络的每个部分都同样对学习重要。有些权重包含关键信息;另一些则闲置或冗余。
UPGD 遵循三个关键步骤:
- 识别对当前性能最有帮助的权重。
- 保护这些权重免受破坏性更新影响。
- 通过添加受控噪声来焕新那些作用较小的权重,使其更容易适应新任务。
这同时解决了稳定性–可塑性困境的两面: 保护有用的权重防止遗忘 (稳定性) ,扰动较无用的权重维持适应性 (可塑性) 。
但问题是,如何量化深度网络中一个权重的“有用性”?
衡量效用: 一个权重有多重要?
作者将权重的真实效用定义为若移除该权重,模型损失 (误差) 增加的量。换言之, 模型在缺少该权重时性能会变差多少 。

如果删除某个权重会导致损失显著增加,则该权重极为有用。
形式上,对每个权重计算这种“假设”情景需要为每个权重执行一次新的前向传播——在大型模型中意味着数百万次计算,显然不可行。
为解决这一问题,UPGD 引入了二阶泰勒近似 。 这一巧妙的数学捷径在无需重新计算所有内容的情况下估计损失的变化。它使用反向传播中已有的常用量——梯度 (一阶导数) 和曲率 (二阶导数,即海森矩阵) 。

第一项通过梯度捕捉方向和幅度,第二项则加入曲率信息以改进估算。
这种近似既计算高效,又与真实效用高度一致。

图 2: 二阶效用近似 (绿色) 在整个学习过程中与真实效用保持最强相关性,明显优于权重大小 (紫色) 或梯度平方 (红色) 等更简单的度量。
UPGD 更新规则: 效用的实际应用
一旦确定效用,UPGD 就会修改标准的梯度下降更新方式,使权重变化取决于其效用。 效用门确保有价值的权重保持稳定,而不太重要的权重则受到噪声扰动以重新激活。

高效用权重受到保护免于变化;低效用权重获得较大、带噪声的更新——焕新其学习能力。
本质上:
- 高效用权重被屏蔽——其更新量趋近于零。
- 低效用权重被激发——接收注入的噪声和完整梯度更新。
这种动态平衡让网络在保持关键知识的同时,持续演化。
对 UPGD 的测试
研究团队在一系列旨在考察持续学习不同方面的任务中评估了 UPGD。有的任务专注于可塑性丧失 , 有的关注遗忘 , 还有一些同时考验两者。
实验 1 – 恢复可塑性
在输入置换 MNIST (Input-Permuted MNIST) 任务中,每张图像的像素顺序会周期性重排。每次置换产生一个新的任务,此时过去的视觉特征不再有用——只有灵活的学习者才能胜任。

图 3: 输入置换 MNIST 的表现。随着任务增多,AdamW 和其他标准优化器性能逐渐下降,丧失可塑性。UPGD-W——带权重衰减的 UPGD——则保持了强劲且稳定的准确率。
传统方法性能下降源于日渐僵化——即失去重新配置权重的能力。UPGD-W 则能持续、顺畅地学习,体现出持续的可塑性。
为了验证这一点,作者提出了新的可塑性指标 , 用于量化预测对新数据的适应速度。该指标与准确率趋势高度吻合。

图 4: 可塑性与性能。两者高度相关——验证了其他方法准确率下降确实体现了可塑性的丧失。
诊断统计还表明,UPGD-W 能防止常见的退化现象,例如神经元死亡和梯度消失。

图 5: 网络内部健康检查。UPGD-W 保持了激活稀疏度和梯度范数的稳定,说明模型功能良好且适应性强。
实验 2 – 克服遗忘
为了专门观察灾难性遗忘,团队研究了标签置换 CIFAR-10 (Label-Permuted CIFAR-10) 。 在此任务中,标签每隔几个任务就会被重新打乱——视觉特征依旧可重用,但输出映射发生了变化。

图 6: 标签置换数据集。针对遗忘问题的算法 (UPGD-W 和 S-EWC) 持续改进,而忽视该问题的算法则性能停滞。
在这种场景中,理想的学习者会保留低层表示,只调整输出映射。UPGD-W 能在数百个任务中持续改进,清晰利用以往知识。
实验 3 – 终极挑战: 遗忘 与 可塑性丧失
像 标签置换 EMNIST (Label-Permuted EMNIST) 和 mini-ImageNet 这样的数据集包含数十甚至上百类,非平稳性极强。此时遗忘与可塑性丧失同时出现,形成艰难的真实世界模拟。
UPGD-W 再次脱颖而出,超越了那些仅为单一问题设计的专业算法。

图 7: 跨数据集的累积指标。数值越低 (更负) 越好。UPGD-W 始终能将遗忘与可塑性丧失降至最低,展现其在处理困境两方面的有效性。
在所有基准测试中,UPGD-W 均在两个指标上名列前茅——这在持续学习算法中十分罕见。
超越分类: 强化学习的稳定性
作者还在强化学习场景中验证了 UPGD。强化学习中的长期训练往往遭遇策略崩溃——智能体在初期成功后性能突然下滑。
通过将 UPGD 的适应性版本( AdaUPGD )嵌入 PPO 算法中,他们展现了抵御这种崩溃的能力。

图 8: AdaUPGD (蓝色) 与 Adam (红色) 在强化学习任务中的对比。Adam 在运行百万步后性能下滑,而 AdaUPGD 在多个 MuJoCo 环境中持续稳定改进。
该结果将 UPGD 的原理扩展至监督学习之外——证明它不仅是优化器技巧,更可作为实现长期稳定性的通用基础。
UPGD 为何重要
UPGD 是持续学习研究中的重要里程碑。它的优势并非来源于复杂架构,而在于简单而有原则的动态机制 :
- 双重保护: 在守护关键知识的同时,焕新陈旧的网络部分。
- 可扩展设计: 利用高效的二阶近似,对大型模型也切实可行。
- 流式兼容性: 可用于真实世界的训练流,无需重放缓冲区或明确任务边界。
- 广泛适用性: 在视觉任务和强化学习中均取得优异表现。
通过让神经网络在记忆的同时避免停滞,UPGD 使 AI 更接近实现终身学习——能随时间不断扩展理解力。
结论: 迈向终身、自适应智能
稳定性–可塑性困境困扰 AI 领域数十年。借助基于效用的扰动梯度下降 , Mohamed Elsayed 和 A. Rupam Mahmood 提出了首批能同时解决这两难问题的方法之一。
UPGD 能动态判断哪些连接应保留、哪些应更新,使网络能够在保留旧智慧的同时对新信息保持开放 。 其在分类与强化学习任务上的成功,让它成为未来智能系统的坚实基础。
AI 的下一个前沿不再仅仅是更大的模型——而是自适应模型,能够持续学习而不遗忘。UPGD 展现了那一未来的清晰而令人振奋的一瞥。
](https://deep-paper.org/en/paper/2404.00781/images/cover.png)