你学会了骑自行车,却不会忘记如何行走。你掌握了一门新的编程语言,但仍记得自己的母语。人类和动物是天生的持续学习者——我们可以在一生中不断获取新技能,而不会抹去已有的知识。
作为现代人工智能引擎的人工神经网络 (ANNs) ,却难以做到这一点。当它们被训练解决新任务时,往往会覆盖掉之前学到的内容。这个问题甚至有一个戏剧性的名字: 灾难性遗忘 。 它仍是构建能够随时间学习和成长的真正智能、自适应 AI 系统的最大障碍之一。
最近的一篇论文《使用情境依赖门控和突触稳定缓解灾难性遗忘》采取了一种引人入胜的方法——从终极持续学习者,也就是人脑中汲取灵感。作者提出结合两种互补的、受大脑启发的策略,使神经网络能够在学习新任务的同时保留旧知识。本文将解析这些思想如何运作、为何有效以及它们对 AI 未来的意义。
问题所在: 为什么 AI 会遗忘
想象一个被训练来识别鸟类的 AI。它能轻易区分知更鸟和麻雀。但现在,你重新训练它识别鱼类。当网络调整内部权重——相当于大脑中的突触——时,会改变那些对识别鸟类至关重要的权重。结果?它在识别鱼类方面变得很出色,却忘记了知更鸟。这就是灾难性遗忘的具体表现。
这种情况的发生,是因为像梯度下降这样的标准算法只为当前任务优化。算法会不惜改变任何权重来减少误差——却 unaware 它正在破坏之前学到的表示。每个新任务实际上都覆盖了旧知识,没有机制来保留宝贵的记忆。
受大脑启发的解决方案 1: 稳定重要连接
在大脑中,学习会改变突触连接,强化一些,削弱另一些。有些突触甚至可以稳定多年,构成长时记忆的生物学基础。
由此启发出一系列算法,旨在通过稳定重要连接来抵抗遗忘。其中两个最成功的算法是弹性权重巩固 (Elastic Weight Consolidation, EWC) 和 突触智能 (Synaptic Intelligence, SI) 。 它们的基本逻辑如下:
- 在学习完一个任务后,识别哪些权重 (突触) 最关键;
- 在后续训练中,通过在损失函数中添加惩罚项,抑制对这些关键权重的修改。
数学表达式如下:
\[ \mathcal{L} = \mathcal{L}_k + c \sum_i \Omega_i (\theta_i - \theta_i^{\text{prev}})^2 \]公式: 总损失结合当前任务的损失与对重要参数的稳定惩罚项。
其中,\(\mathcal{L}_k\) 为当前任务损失,\(\theta_i\) 表示权重,\(\Omega_i\) 衡量其对先前任务的重要性,参数 \(c\) 控制权重保护的强度。
这些稳定化方法效果显著——大幅减少遗忘。然而,它们仍有局限: 随着学习任务增多,许多突触会积累高重要性分数,网络逐渐僵化,难以有效学习新任务。虽然旧知识被保护,但可塑性 (即适应能力) 降低。问题从“遗忘”转变为“停滞”。
受大脑启发的解决方案 2: 情境决定一切
大脑并非均匀地处理所有信息。当切换情境——例如从解谜到开车——不同行为网络会被激活,而其他网络则被抑制。这种情境依赖激活使得一个领域的学习不会干扰另一个领域的表现。
受此启发,论文提出了情境依赖门控 (Context-Dependent Gating, XdG) 。 其核心思想是: 让每个任务仅激活一个稀疏且大部分不重叠的神经元子集,从而最大限度地减少与已有任务的干扰。
XdG 的工作机制如下:
- 为每个任务分配独特的情境信号;
- 使用该信号“门控”——即将大量神经元的活动置零。这些被门控的神经元在该任务中处于不活跃状态;
- 不同任务对应不同且大部分不重叠的子集。
例如,在一个包含 2000 个神经元的层中,如果每个任务门控 80%,则仅 400 个保持活跃。每个新任务激活一组不同的 400 个神经元。这个简单机制为每个情境创建独立的网络通路,从而实现学习隔离。
为便于理解,论文测试了多种网络架构,如下图所示。

图 1: 评估的网络架构。(A) 标准多层网络。(B) 增加了情境信号。(C) 带独立子网的“分割”网络。(D) XdG 网络为每个任务随机门控一部分神经元。
与固定的分割网络不同,XdG 随机选择门控子集,可产生部分重叠,灵活性更高。
随后,作者将两种策略结合起来——突触稳定 (保护关键连接) 和 XdG (通过门控限制干扰) 。 它们形成双重防护:
- XdG : 通过独立的激活路径隔离任务;
- 稳定化 : 在这些活跃路径中保护最重要的突触。
本质上,XdG 减少任务冲突,而稳定化锁定关键知识。
实践检验: 置换 MNIST 挑战
为验证概念,作者采用了严格的基准测试——置换 MNIST (permuted MNIST) 任务。
此测试要求网络反复学习 MNIST 数字分类。完成一轮训练后,输入像素随机置换。输出标签 (0−9) 保持不变,但输入图像完全不同。整个过程重复 100 次。
模型必须学会分类这些置换版本,同时不遗忘以前的任务。

图 2: 置换 MNIST 基准测试表现。(A) EWC 和 SI 降低遗忘,但性能最终下降。(B, C) 情境信号和分割结构略有改善。(D) 结合 XdG 与稳定化的模型 (虚线品红与绿色) 在 100 个任务中实现约 95% 的平均准确率。
图 A 显示,EWC 和 SI 虽能部分缓解遗忘,但多任务后准确率仍跌至 80% 以下。图 B 和 C 仅略有改善。图 D 则展示出突破: 将 XdG 与 SI 或 EWC 结合后,平均准确率维持在 95% 以上。
这种协同效应使网络能顺序学习 100 个任务,同时保留既有知识——这是此前无法实现的。
理解原因: 稳定性与可塑性的权衡
这种组合为何如此有效?答案在于持续学习中的两难平衡:
- 稳定性 —— 保持旧知识不受破坏。
- 可塑性 —— 保持灵活,以学习新技能。
单独的突触稳定策略极度偏向稳定性。随着时间推移,越来越多的权重被标记为“重要”,网络变得僵硬,如同硬化的黏土——保护旧形态却难再塑。

图 3: 检验稳定性与可塑性。(A) 扰动高重要性突触降低准确率。(B) 单独稳定化削弱跨任务适应性。(C–E) XdG + SI (绿色) 生成大量低重要性突触,提升灵活性。网络自由调整这些突触,同时保持旧知识。
XdG 提供缺失的可塑性。通过对每个任务门控 80% 神经元,大多数突触处于未使用状态,因此未受保护,这些构成一个储备池,可自由用于未来学习。
在图 3C–E 中 (左侧面板) ,XdG + SI 网络包含大量低重要性突触 (绿色直方图) ,而单独 SI 则以品红色表示高重要性突触。右侧面板显示,这些“可支配”突触在新任务学习中变化最大。
本质上,XdG 创造了分离的工作空间: 部分突触被专门化并固化,另一些保持灵活以应对未来任务。这种双重机制巧妙解决了稳定性—可塑性困境,实现了无遗忘的持续学习。
扩大规模: 真实的 ImageNet 实验
MNIST 实验具有概念性,而真实世界数据更复杂。研究人员在更大数据集 ImageNet 上测试了 XdG + 稳定化,该数据集被划分为 100 个任务 (每个包含 10 个类别) 。
他们评估两种设置:
- 多头输出 : 每个类别拥有专用输出神经元——简单但不实用。
- 单头输出 : 仅有 10 个共享输出神经元在任务间复用——更困难但更现实。

图 4: ImageNet 持续学习结果。XdG 与稳定化结合 (虚线) 在挑战性单头设置下保持高准确率,优于其他方法。
在单头设置中,仅使用稳定化取得约 11–12% 准确率。加入 XdG 后,性能提升至 50% 以上,几乎接近多头上限。这证明该协同机制可推广至高维、重叠任务,适用于真实的 AI 场景。
扩展到循环与强化学习
为进一步验证通用性,作者训练了循环神经网络 (RNNs) 来完成受神经科学启发的 20 个认知任务 , 这些任务涉及决策、工作记忆与抑制控制,均需处理序列信息。
网络既以监督学习模式训练,也以强化学习 (RL) 模式训练,其中反馈为稀疏奖励。

图 5: RNN 在 20 个认知任务中的表现。采用稳定化 + XdG 的网络 (品红与黑色) 在监督和强化学习下均达近乎完美结果,优于稳定化 + 情境信号 (绿色) 。
使用稳定化和情境信号的监督 RNN 达到约 80% 平均准确率。加入 XdG 后提升至约 98%。值得注意的是,稳定化 + XdG 在强化学习中也同样出色,平均准确率达 96%。
这表明,XdG 不仅限于前馈分类网络,还能扩展到具备记忆机制的模型及更接近自然行为的学习范式。
结论: 来自大脑的启示
灾难性遗忘是 AI 领域的重大未解难题之一。这项研究通过融合两种互补的、受大脑启发的思想,提供了强有力的答案:
- 突触稳定 —— 保护关键参数免受破坏性更新。
- 情境依赖门控 (XdG) —— 激活稀疏、不重叠的子网络以隔离学习。
两者结合,实现了稳定性与可塑性的和谐: 既保留旧知识,又能灵活学习新任务。
XdG 结构简洁、计算开销低。其随机门控机制为未来改进提供基础——例如根据任务相似性自适应调整门控模式。这种潜力预示着向 迁移学习 的自然拓展,让模型在相关任务间重用知识——正如人类每天所做的那样。
通过模仿大脑的模块化与情境敏感机制,这种方法使 AI 更接近终身学习的理想——构建能够持续学习、保留记忆、并在与世界交互中不断成长的智能系统。
](https://deep-paper.org/en/paper/1802.01569/images/cover.png)