解锁 AI 的终身学习：受大脑启发的门控机制如何防止灾难性遗忘

你学会了骑自行车，却不会忘记如何行走。你掌握了一门新的编程语言，但仍记得自己的母语。人类和动物是天生的持续学习者——我们可以在一生中不断获取新技能，而不会抹去已有的知识。

作为现代人工智能引擎的人工神经网络 (ANNs) ，却难以做到这一点。当它们被训练解决新任务时，往往会覆盖掉之前学到的内容。这个问题甚至有一个戏剧性的名字: 灾难性遗忘 。它仍是构建能够随时间学习和成长的真正智能、自适应 AI 系统的最大障碍之一。

最近的一篇论文《使用情境依赖门控和突触稳定缓解灾难性遗忘》采取了一种引人入胜的方法——从终极持续学习者，也就是人脑中汲取灵感。作者提出结合两种互补的、受大脑启发的策略，使神经网络能够在学习新任务的同时保留旧知识。本文将解析这些思想如何运作、为何有效以及它们对 AI 未来的意义。

问题所在: 为什么 AI 会遗忘

想象一个被训练来识别鸟类的 AI。它能轻易区分知更鸟和麻雀。但现在，你重新训练它识别鱼类。当网络调整内部权重——相当于大脑中的突触——时，会改变那些对识别鸟类至关重要的权重。结果？它在识别鱼类方面变得很出色，却忘记了知更鸟。这就是灾难性遗忘的具体表现。

这种情况的发生，是因为像梯度下降这样的标准算法只为当前任务优化。算法会不惜改变任何权重来减少误差——却 unaware 它正在破坏之前学到的表示。每个新任务实际上都覆盖了旧知识，没有机制来保留宝贵的记忆。

受大脑启发的解决方案 1: 稳定重要连接

在大脑中，学习会改变突触连接，强化一些，削弱另一些。有些突触甚至可以稳定多年，构成长时记忆的生物学基础。

由此启发出一系列算法，旨在通过稳定重要连接来抵抗遗忘。其中两个最成功的算法是弹性权重巩固 (Elastic Weight Consolidation, EWC) 和 突触智能 (Synaptic Intelligence, SI) 。它们的基本逻辑如下:

在学习完一个任务后，识别哪些权重 (突触) 最关键；
在后续训练中，通过在损失函数中添加惩罚项，抑制对这些关键权重的修改。

数学表达式如下:

\[ \mathcal{L} = \mathcal{L}_k + c \sum_i \Omega_i (\theta_i - \theta_i^{\text{prev}})^2 \]

公式: 总损失结合当前任务的损失与对重要参数的稳定惩罚项。

其中，\(\mathcal{L}_k\) 为当前任务损失，\(\theta_i\) 表示权重，\(\Omega_i\) 衡量其对先前任务的重要性，参数 \(c\) 控制权重保护的强度。

这些稳定化方法效果显著——大幅减少遗忘。然而，它们仍有局限: 随着学习任务增多，许多突触会积累高重要性分数，网络逐渐僵化，难以有效学习新任务。虽然旧知识被保护，但可塑性 (即适应能力) 降低。问题从“遗忘”转变为“停滞”。

受大脑启发的解决方案 2: 情境决定一切

大脑并非均匀地处理所有信息。当切换情境——例如从解谜到开车——不同行为网络会被激活，而其他网络则被抑制。这种情境依赖激活使得一个领域的学习不会干扰另一个领域的表现。

受此启发，论文提出了情境依赖门控 (Context-Dependent Gating, XdG) 。其核心思想是: 让每个任务仅激活一个稀疏且大部分不重叠的神经元子集，从而最大限度地减少与已有任务的干扰。

XdG 的工作机制如下:

为每个任务分配独特的情境信号；
使用该信号“门控”——即将大量神经元的活动置零。这些被门控的神经元在该任务中处于不活跃状态；
不同任务对应不同且大部分不重叠的子集。

例如，在一个包含 2000 个神经元的层中，如果每个任务门控 80%，则仅 400 个保持活跃。每个新任务激活一组不同的 400 个神经元。这个简单机制为每个情境创建独立的网络通路，从而实现学习隔离。

为便于理解，论文测试了多种网络架构，如下图所示。

四种网络架构图: A) 基线模型，B) 带有情境信号，C) 分割网络，D) 带有情境依赖门控 (XdG)。

图 1: 评估的网络架构。(A) 标准多层网络。(B) 增加了情境信号。(C) 带独立子网的“分割”网络。(D) XdG 网络为每个任务随机门控一部分神经元。

与固定的分割网络不同，XdG 随机选择门控子集，可产生部分重叠，灵活性更高。

随后，作者将两种策略结合起来——突触稳定 (保护关键连接) 和 XdG (通过门控限制干扰) 。它们形成双重防护:

XdG : 通过独立的激活路径隔离任务；
稳定化 : 在这些活跃路径中保护最重要的突触。

本质上，XdG 减少任务冲突，而稳定化锁定关键知识。

实践检验: 置换 MNIST 挑战

为验证概念，作者采用了严格的基准测试——置换 MNIST (permuted MNIST) 任务。

此测试要求网络反复学习 MNIST 数字分类。完成一轮训练后，输入像素随机置换。输出标签 (0−9) 保持不变，但输入图像完全不同。整个过程重复 100 次。

模型必须学会分类这些置换版本，同时不遗忘以前的任务。

图表显示了不同方法在 100 个置换 MNIST 任务上的平均任务准确率。

图 2: 置换 MNIST 基准测试表现。(A) EWC 和 SI 降低遗忘，但性能最终下降。(B, C) 情境信号和分割结构略有改善。(D) 结合 XdG 与稳定化的模型 (虚线品红与绿色) 在 100 个任务中实现约 95% 的平均准确率。

图 A 显示，EWC 和 SI 虽能部分缓解遗忘，但多任务后准确率仍跌至 80% 以下。图 B 和 C 仅略有改善。图 D 则展示出突破: 将 XdG 与 SI 或 EWC 结合后，平均准确率维持在 95% 以上。

这种协同效应使网络能顺序学习 100 个任务，同时保留既有知识——这是此前无法实现的。

理解原因: 稳定性与可塑性的权衡

这种组合为何如此有效？答案在于持续学习中的两难平衡:

稳定性 —— 保持旧知识不受破坏。
可塑性 —— 保持灵活，以学习新技能。

单独的突触稳定策略极度偏向稳定性。随着时间推移，越来越多的权重被标记为“重要”，网络变得僵硬，如同硬化的黏土——保护旧形态却难再塑。

对 XdG 和突触稳定化之间相互作用的分析。

图 3: 检验稳定性与可塑性。(A) 扰动高重要性突触降低准确率。(B) 单独稳定化削弱跨任务适应性。(C–E) XdG + SI (绿色) 生成大量低重要性突触，提升灵活性。网络自由调整这些突触，同时保持旧知识。

XdG 提供缺失的可塑性。通过对每个任务门控 80% 神经元，大多数突触处于未使用状态，因此未受保护，这些构成一个储备池，可自由用于未来学习。

在图 3C–E 中 (左侧面板) ，XdG + SI 网络包含大量低重要性突触 (绿色直方图) ，而单独 SI 则以品红色表示高重要性突触。右侧面板显示，这些“可支配”突触在新任务学习中变化最大。

本质上，XdG 创造了分离的工作空间: 部分突触被专门化并固化，另一些保持灵活以应对未来任务。这种双重机制巧妙解决了稳定性—可塑性困境，实现了无遗忘的持续学习。

扩大规模: 真实的 ImageNet 实验

MNIST 实验具有概念性，而真实世界数据更复杂。研究人员在更大数据集 ImageNet 上测试了 XdG + 稳定化，该数据集被划分为 100 个任务 (每个包含 10 个类别) 。

他们评估两种设置:

多头输出 : 每个类别拥有专用输出神经元——简单但不实用。
单头输出 : 仅有 10 个共享输出神经元在任务间复用——更困难但更现实。

图表显示了在 100 个任务的 ImageNet 基准测试上的平均任务准确率。

图 4: ImageNet 持续学习结果。XdG 与稳定化结合 (虚线) 在挑战性单头设置下保持高准确率，优于其他方法。

在单头设置中，仅使用稳定化取得约 11–12% 准确率。加入 XdG 后，性能提升至 50% 以上，几乎接近多头上限。这证明该协同机制可推广至高维、重叠任务，适用于真实的 AI 场景。

扩展到循环与强化学习

为进一步验证通用性，作者训练了循环神经网络 (RNNs) 来完成受神经科学启发的 20 个认知任务 , 这些任务涉及决策、工作记忆与抑制控制，均需处理序列信息。

网络既以监督学习模式训练，也以强化学习 (RL) 模式训练，其中反馈为稀疏奖励。

一个 RNN 在 20 个顺序认知任务上训练的任务准确率。

图 5: RNN 在 20 个认知任务中的表现。采用稳定化 + XdG 的网络 (品红与黑色) 在监督和强化学习下均达近乎完美结果，优于稳定化 + 情境信号 (绿色) 。

使用稳定化和情境信号的监督 RNN 达到约 80% 平均准确率。加入 XdG 后提升至约 98%。值得注意的是，稳定化 + XdG 在强化学习中也同样出色，平均准确率达 96%。

这表明，XdG 不仅限于前馈分类网络，还能扩展到具备记忆机制的模型及更接近自然行为的学习范式。

结论: 来自大脑的启示

灾难性遗忘是 AI 领域的重大未解难题之一。这项研究通过融合两种互补的、受大脑启发的思想，提供了强有力的答案:

突触稳定 —— 保护关键参数免受破坏性更新。
情境依赖门控 (XdG) —— 激活稀疏、不重叠的子网络以隔离学习。

两者结合，实现了稳定性与可塑性的和谐: 既保留旧知识，又能灵活学习新任务。

XdG 结构简洁、计算开销低。其随机门控机制为未来改进提供基础——例如根据任务相似性自适应调整门控模式。这种潜力预示着向 迁移学习 的自然拓展，让模型在相关任务间重用知识——正如人类每天所做的那样。

通过模仿大脑的模块化与情境敏感机制，这种方法使 AI 更接近终身学习的理想——构建能够持续学习、保留记忆、并在与世界交互中不断成长的智能系统。

问题所在: 为什么 AI 会遗忘#

受大脑启发的解决方案 1: 稳定重要连接#

受大脑启发的解决方案 2: 情境决定一切#

实践检验: 置换 MNIST 挑战#

理解原因: 稳定性与可塑性的权衡#

扩大规模: 真实的 ImageNet 实验#

扩展到循环与强化学习#

结论: 来自大脑的启示#