想象一下,你教一个天才学生下国际象棋。他很快就掌握了,轻松击败了经验丰富的棋手。然后你教他下围棋——他又成了围棋神童。但当你再请他下国际象棋时,他却茫然地看着你。所有辛苦学来的国际象棋知识——开局、残局、策略——都完全被围棋的规则所取代了。

这就是大多数人工神经网络面临的令人沮丧的现实。它们遭受着一个被称为 灾难性遗忘 (catastrophic forgetting,也称灾难性干扰) 的问题。当一个在任务 A 上训练好的网络接着在任务 B 上进行训练时,它往往会突然且完全地忘记如何执行任务 A。这个限制是开发能够像人类一样持续学习的真正智能体的主要障碍。

2017 年,来自 DeepMind 的论文 《克服神经网络中的灾难性遗忘》 (“Overcoming catastrophic forgetting in neural networks”) 提出了一种受神经科学启发的强大而优雅的解决方案: 弹性权重巩固 (Elastic Weight Consolidation, EWC) 。 该算法允许网络按顺序学习新任务,而不会抹去从旧任务中获得的知识。它就像一个记忆的锚点,保护着负责过去技能的关键神经连接,同时又为未来的学习保留了必要的灵活性。

在本文中,我们将深入探讨 EWC——探索它解决的问题,解析其贝叶斯基础,并逐步分析实验结果,展示它如何在监督学习和强化学习领域实现持续学习。


持续学习的挑战

为了实现通用智能,AI 必须是一个 持续学习者——能够从经验中按顺序学习,随着时间的推移积累知识,并在适应新信息时不忘记已知内容。然而,当今深度学习的大多数成功案例——从图像分类到游戏智能体——都是在 批量 (batch) 设置下训练的,即模型一次性获得所有相关数据,且之后不会再回顾。

现实生活并非如此整齐划一。一个自主智能体必须从持续不断的经验流中学习: 先学会分类猫,然后识别狗,后来导航环境或玩游戏。如果每学一个新任务都要抹去旧任务的知识,那么真正的智能将永远无法实现。

以往的方法曾试图减轻灾难性遗忘,但都存在显著缺陷:

  1. 多任务学习: 同时在所有任务上训练,使网络能联合优化。这可以避免遗忘——但前提是你能存储所有过去任务的数据,随着任务数量增多,这很快就变得不切实际。
  2. 回放策略: 保存早期任务的代表性样本并在学习新任务时定期回放。虽然在一定程度上有效,但这种方法仍依赖愈来愈大的显式记忆存储。

为寻找超越工程技巧的灵感,EWC 的作者们转向了神经科学。生物大脑似乎通过 突触巩固 (synaptic consolidation) 来避免灾难性遗忘——在这一过程中,对先前学习至关重要的突触连接被加强并稳定下来,变得不那么可塑,更抗干扰。EWC 正是该过程的计算类比。


核心思想: 弹性权重巩固 (EWC)

EWC 的核心体现了一个简单的直觉: 在学习新任务 (任务 B) 时,网络应调整参数以在任务 B 上表现良好, 同时不破坏在任务 A 上有效的知识

想象每个任务的“解空间”是模型性能景观中的山谷。山谷底部对应低误差 (高性能) 。对任务 A 训练后,权重停留在一个最优点,即 \( \theta_A^* \)。任务 B 则有位于景观其他位置的自己的山谷。

示意图展示了在学习新任务时,不同训练方法如何在参数空间中导航。EWC 找到了一条路径,既能最小化新任务的误差,又能保持在旧任务的低误差区域。

图 1: EWC 通过选择性地约束对任务 A 至关重要的权重来防止遗忘。普通的梯度下降 (蓝色) 会远离先前的解,从而丢失旧技能。统一的正则化 (绿色) 过度约束学习。EWC (红色) 找到平衡路径,在两个任务上均保持良好性能。

使用标准随机梯度下降 (SGD) ,任务 B 的训练会将权重推向其自身的最小值,完全忽略旧的山谷——导致任务 A 的遗忘。一个天真的修复方法是 L2 正则化 , 即惩罚任何偏离 \( \theta_A^* \) 的行为,均匀地将参数绑定在旧值附近。但这太僵硬,网络无法充分适应新任务。

EWC 的关键创新在于 选择性 。 它为每个参数添加“弹性弹簧”,弹性系数反映该参数对任务 A 的重要程度:

  • 重要性高的权重 : 弹簧更硬,抵抗变化。
  • 重要性低的权重 : 弹簧更软,保持灵活性以适应新任务。

这种选择性弹性使网络在可变化的地方保持可塑,而在必须稳定的地方保持稳固。


数学原理: 学习的贝叶斯视角

为了确定哪些权重重要,EWC 将学习过程重新表述为 贝叶斯框架 。 它不追求单一最优参数集,而是建模给定数据情况下参数的概率分布。

贝叶斯公式表达了在数据 \( \mathcal{D} \) 下参数 \( \theta \) 的后验概率:

\[ \log p(\theta|\mathcal{D}) = \log p(\mathcal{D}|\theta) + \log p(\theta) - \log p(\mathcal{D}) \]

这里:

  • \( \log p(\mathcal{D}|\theta) \): 与任务的损失函数相关 (似然项) ;
  • \( \log p(\theta) \): 表示先验分布,即已有知识。

当从任务 A 转向任务 B 时,任务 A 的 后验 将成为任务 B 的 先验:

\[ \log p(\theta|\mathcal{D}) = \log p(\mathcal{D}_B|\theta) + \log p(\theta|\mathcal{D}_A) - \log p(\mathcal{D}_B) \]

这优雅地形式化了持续学习: 任务 A 的知识通过先验分布 \( p(\theta|\mathcal{D}_A) \) 来约束任务 B 的学习。遗憾的是,这个后验分布在大型神经网络中计算代价很高,因此 EWC 引入了可处理的近似。

近似参数重要性: 费舍尔信息矩阵

作者将 \( p(\theta|\mathcal{D}_A) \) 近似为一个高斯分布,其均值为任务 A 的最优权重 \( \theta_A^* \),方差由 费舍尔信息矩阵 (F) 决定。直观上,费舍尔信息衡量模型预测对某个权重变化的敏感度。

  • 费舍尔值高: 微小扰动导致性能大幅下降 → 权重关键。
  • 费舍尔值低: 变化影响较小 → 权重可安全调整。

计算费舍尔矩阵只需一阶梯度 (训练中已可得) ,因此即使在大型模型中也很高效。EWC 仅使用其对角元素来独立处理每个权重。

EWC 损失函数

由此得到任务 B 的 EWC 目标函数:

\[ \mathcal{L}(\theta) = \mathcal{L}_B(\theta) + \sum_i \frac{\lambda}{2} F_i (\theta_i - \theta^*_{A,i})^2 \]
  • \( \mathcal{L}_B(\theta) \): 新任务的损失。
  • \( F_i \): 参数 \( i \) 的费舍尔信息 (反映任务 A 的重要性) 。
  • \( (\theta_i - \theta^*_{A,i})^2 \): 偏离旧值的程度。
  • \( \lambda \): 平衡知识保留与可塑性的缩放因子。

这一公式优雅地体现了“弹性”概念——每个参数都由一根弹簧 tether 在旧值上,弹簧的硬度正比于其重要性。


EWC 的实践: 实验结果

DeepMind 团队在两种截然不同的学习场景中测试了 EWC——监督分类和深度强化学习——以验证其鲁棒性。

在置换 MNIST 上的持续学习

第一个实验使用 置换 MNIST (Permuted MNIST) , 这是一系列源自 MNIST 手写数字数据集的图像分类任务。每个任务对输入像素应用不同随机置换,生成多个互不相同但难度相似的分类问题。

三个连续的置换 MNIST 任务的训练曲线。EWC (红色) 在学习新任务的同时保持了旧任务的高性能,优于标准 SGD (蓝色) 和 L2 正则化 (绿色) 。

图 2: 在连续 MNIST 任务上的性能。EWC 能够准确学习新的置换,同时保留早期任务的表现。

结果十分明显:

  • SGD (蓝色) 遭遇灾难性遗忘——任务 B 学习开始后任务 A 的准确率骤降。
  • L2 正则化 (绿色) 有助于保留任务 A,但过度限制了适应性,从而削弱了任务 B 的性能。
  • EWC (红色) 几乎完美地保留旧知识,同时掌握新任务。

如图 2B 所示,EWC 可扩展至连续 10 个任务,仅有轻微性能下降,远超基于 dropout 的基线方法。图 2C 通过测量不同任务的费舍尔矩阵重叠度研究了 EWC 如何平衡记忆与灵活性。当任务差异较大 (输入置换更多) 时,早期层重叠度较低——EWC 在不同任务间分配不同权重集。而靠近输出的后期层重叠度较高,意味着它们共享抽象特征 (如数字类别) 的表示。也就是说,EWC 能够高效地 重用高层表示 , 同时区分任务特定的低层滤波器。


在 Atari 游戏中的持续学习

第二个更具挑战性的测试探索了 强化学习 (RL) 中的持续学习。此处智能体需使用单个深度 Q 网络 (DQN) 依次学习十个 Atari 2600 游戏——且在游戏之间不重置参数。

在十个 Atari 游戏序列上训练单个智能体的结果。EWC 智能体 (红色) 成功学习了多个游戏并取得高分,标准智能体 (蓝色) 因灾难性遗忘而失败。

图 3: 强化学习结果。使用 EWC 的智能体能在多个游戏间积累能力;标准 DQN 则完全忘记了过去的游戏。

在切换至下一个游戏之前,每个游戏运行数百万帧 (图 3A) 。传统 DQN 智能体 (通过普通梯度下降优化) 在当前游戏上表现良好,却会忘记所有已学游戏。综合人类归一化得分维持在约 1,仅相当于掌握一个游戏。

相比之下, 配备 EWC 的智能体保留多游戏熟练度。随新游戏学习,总体性能稳步提升,展示出记忆与技能重用能力。

最后,作者验证了费舍尔信息确实能反映参数重要性 (图 3C) 。通过向已训练权重注入不同模式的噪声,他们发现随机均匀噪声会破坏性能,而按 费舍尔信息矩阵倒数 缩放的噪声——即针对不重要参数的扰动——影响甚微。此结果证实基于费舍尔信息的巩固是衡量网络敏感度的可靠方法。


更广泛的启示与未来方向

弹性权重巩固是迈向 终身学习 AI 的重要里程碑。它提供了一种有原则、可扩展的方式,在持续获取新技能的同时保护已有知识。

主要优势包括:

  1. 选择性记忆保护: 通过费舍尔信息惩罚稳定关键权重。
  2. 灵活适应: 不重要的权重仍能自由变化以吸收新信息。
  3. 资源高效: 当任务重叠时,共享表示自然形成。

该论文同时指出局限性: 对角费舍尔近似简化了计算,但低估不确定性——某些参数看似不重要,实则关键。未来可通过更丰富的贝叶斯方法 (如全协方差估计或变分推断) 提升鲁棒性。

除机器学习外,EWC 还为 生物记忆机制 提供了耐人寻味的启示。算法与突触巩固及精度加权可塑性间的相似性呼应神经科学的观察,揭示了算法与生物学习机制的交叉共鸣。


结论

弹性权重巩固 (EWC) 架起了神经科学与机器学习之间的桥梁,解决了 AI 最持久的问题之一——灾难性遗忘。通过惩罚关键权重的变化,它使神经网络能够顺序学习而不抹去旧能力。

从图像分类到游戏智能体,EWC 让静态学习者进化为动态学习者——能在保留长期记忆的同时持续适应。它标志着 AI 系统向人类般的终身学习迈进的重要一步: 在拥抱未来的同时,铭记过去。