想象一下,你先教一个孩子认识猫,然后是狗,再然后是鸟。每认识一种新动物,他们对世界的理解都会加深——当他们学习狗的时候,并不会忘记猫是什么。事实上,学习狗甚至可能会优化他们对“四条腿的宠物”这一概念的理解。这种能够在不抹去旧知识的基础上逐步构建新知识的能力,是人类智能的基础。
现在,试着对一个最先进的 AI 模型做同样的事情。你用海量的猫图片数据集将它训练到完美,它成为了世界级的“猫专家”。接着,你用狗的图片训练它。突然间,它成了出色的“狗识别器”,但它在识别猫时的表现却急剧下降——它忘记了如何识别猫。这种现象被称为 灾难性遗忘 (catastrophic forgetting) , 是现代机器学习中的一个关键缺陷。
当今的大多数强大 AI 模型都是在固定的、静态的数据集上训练的——所有数据都经过精心打乱并一次性呈现。它们就像为了一场考试拼命记忆的学生——能掌握那场考试的内容,但当他们开始为下一场考试学习时,就无法保留之前的知识。然而,现实世界并不是一场单一、静态的考试;它是一个连续、不断变化的信息流。
最近的一篇综述论文《拥抱变化: 深度神经网络中的持续学习》 (“Embracing Change: Continual Learning in Deep Neural Networks”) 全面地回顾了致力于解决这一问题的研究领域。该论文探讨了我们如何构建能够顺序学习、适应新信息、并在整个生命周期中不断积累知识的 AI 系统——就像人类一样。本文将解读该论文中的核心思想,探讨 AI 为何会遗忘,以及研究人员借鉴生物学机制正在采用的四大策略,使机器拥有更好的记忆力。
拉锯战: 标准神经网络为何会失败
要理解神经网络为何会遭受灾难性遗忘,我们需要窥探其学习机制的内部。训练神经网络的本质是一个 优化 过程。模型通过一种名为 梯度下降 (gradient descent) 的算法来最小化 损失函数 (衡量预测误差的指标) ,该算法逐步调整数百万个参数 (或“权重”) 。
你可以把参数想象成微小的旋钮,而梯度则是提示要如何转动每个旋钮以让模型变得更好。学习过程包括向模型展示一批数据,计算该批数据的平均“提示”,然后将所有旋钮朝着正确方向轻微调整。

图 3. 不同任务的梯度下降优化示意图。(A) 单任务训练。(B) 顺序训练第二任务导致遗忘。(C) 同时训练显示了任务间的拉锯战动态。
作者们用了一个绝妙的比喻: 梯度下降的行为就像一场 拉锯战 。 每个数据样本或任务都将模型的参数拉向其最佳配置。当任务被同时学习时,双方都会拉动参数。模型最终稳定在一个折衷的均衡点——兼顾两个任务。
这仅在数据是 独立同分布 (Independent and Identically Distributed, IID) 的情况下才有效,也就是每批数据都能代表整个问题。此时,两支“队伍”始终在场上拉扯。
持续学习打破了这个 IID 假设。你先在猫的数据上训练了数千步,然后突然切换到狗。此时,只有狗的“队伍”在拉动参数,将它们拉向自己的理想位置,推翻了猫队之前的工作。均衡消失,猫的知识也随之丢失——这便是灾难性遗忘。
要解决持续学习问题,就必须更智能地管理这场拉锯战——在不需要所有任务同时存在的情况下,合理分配“功劳”,并有策略地更新参数。
愿望清单: 优秀的持续学习者应具备什么?
在探讨解决方案之前,首先要明确优秀的持续学习系统应达成的目标。防止遗忘只是其中的一部分。真正的终身学习需要在多个相互竞争的目标间取得平衡。

图 2. 顺序持续学习中不同结果的示例。(A) 灾难性遗忘。(C) 完美回忆。(D) 任务间的正向迁移。(E) 反向迁移提升了旧任务的性能。
理想的终身学习者简化愿望清单如下:
- 最小化灾难性遗忘: 当学习新任务时,旧任务的表现应保持稳定。
- 实现正向迁移: 过去的知识应能让学习新任务更快、更高效。
- 实现反向迁移: 学习新任务可以优化旧任务,利用后来获得的洞见。
- 提高效率: 模型不应为每个任务都创建单独的副本,必须在存储和计算限制下具备可扩展性。
- 快速适应: 当接触少量新数据时,能迅速学习或重新学习任务。
找到同时满足这些要求的方法是持续学习研究的终极目标。该综述指出了四种主要策略,每一种都源于生物学机制的启发。
让 AI 保持记忆的四大策略
正如人类大脑通过多个系统协同处理学习与记忆,AI 的持续学习也可能需要多种策略的结合。论文总结了四种主要范式。

图 1. 持续学习的四种策略——基于梯度、模块化、基于记忆和元学习——与标准 IID 多任务学习的对比。
1. 基于梯度的方案: 保护重要连接
生物学类比: *突触可塑性 (Synaptic Plasticity) *。在大脑中,某些神经元间的连接会随时间被增强和巩固,变得更难改变,从而保护重要记忆。
基于梯度的持续学习方法借鉴了这一原理。它们识别出哪些参数对先前任务最关键,并在后续训练中加以保护。
例如, 弹性权重巩固 (Elastic Weight Consolidation, EWC) 会在完成一个任务后估算每个权重的重要性,在学习新任务时抑制对这些重要参数的更改。这确保关键知识得以保存,相当于在优化过程中保留了旧任务的“影子”。
其他方法则通过任务间梯度对齐或使用 知识蒸馏 (knowledge distillation) 来保持旧任务模块的功能,同时学习新的任务。
缺点: 当任务数量过多或差异过大时,这些方法可能性能下降,因为它们对“重要性”的近似开始失效。
2. 模块化架构: 各司其职
生物学类比: *功能专化 (Functional Specialization) *。大脑由不同的专门区域组成——视觉、语言、运动控制——各自执行不同的功能,同时信息互通。
模块化思想将这一概念应用到神经网络中。不是所有任务共享同一个网络,而是将不同功能分配给不同的组件。
最简单的实现是为每个任务建立完全独立的模型,这样可以彻底避免遗忘,但代价是迁移能力和可扩展性极低。更高级的系统会采用通用特征的 共享主干网络,再为特定任务添加新的模块。
动态架构更进一步: 网络可以随着时间演化和扩展,在遇到新的、无关联的任务时增加容量。稀疏激活——即每个任务仅激活网络中的一小部分神经元——有助于隔离并减少干扰,使模块自然形成。
缺点: 设计模块化系统需要权衡何时扩展、如何重用组件及如何保持效率。
3. 记忆系统: 重演过去
生物学类比: *情景记忆与复习 (Episodic Memory and Rehearsal) *。人类通过回忆和重放具体经历 (尤其是在睡眠中) 来巩固长期记忆。
基于记忆的方法让神经网络具备类似能力。最简单的策略是 经验回放 (experience replay) , 它会保存过去任务的样本。在学习新任务时,模型将旧样本与新样本混合,从而模拟 IID 训练环境,防止遗忘。
主要变体包括:
- 生成式回放 (Generative Replay) : 不存储真实数据,而由生成模型重建旧样本以复习旧任务。
- 可学习记忆系统 (Learned Memory Systems) : 高级架构如 可微神经计算机 (Differentiable Neural Computer, DNC) , 能够端到端学习何时以及如何存储、检索记忆。
缺点: 回放方法可能占用大量存储空间,生成模型训练困难,而可学习记忆系统则是机器学习中最复杂的模型之一。
4. 元学习: 学习如何学习
生物学类比: 人类不仅学习知识,还总结出如何更有效学习的策略——在不同经验中提炼出适应规律。
元学习 (learning to learn) 在计算层面上实现了这一思想。它包含两个时间尺度:
- 一个 内循环 , 模型在其中学习具体任务;
- 一个 外循环 , 优化模型在多任务间的学习能力。
在持续学习场景中,外循环会搜索能最小化遗忘并最大化知识迁移的超参数、架构或表示。这样,模型能 发现 有益的归纳偏置——例如模块化或稀疏性——而无需显式设计。
缺点: 元学习需要巨大的计算资源和复杂的任务分布,使大规模应用面临挑战。
结论: 终身学习的挑战
通向真正人工智能的道路不能依赖于静态数据集。智能,按定义,即是适应性的。《拥抱变化》这篇综述出色地阐明了灾难性遗忘问题,并提出了四种受生物学启发的解决方案:
- 基于梯度: 在突触层面保护重要知识。
- 模块化: 为不同技能隔离并专门化组件。
- 基于记忆: 重演与复习以巩固学习。
- 元学习: 从经验中发现普适的适应原则。
每种范式都在记忆保持、适应性与计算效率之间存在权衡。最终的解决方案很可能融合这些方法——就像人脑将可塑性、模块化与记忆系统整合为一个协调统一的整体。
持续学习不仅是学术探索的热点,更是实现现实世界 AI 的必要条件。想象一下: 家用机器人可以不断扩展技能,医疗系统能适应新疾病,或者自动驾驶汽车能在多年经验中安全地进化。教会机器拥抱变化,意味着我们正迈出关键一步,致力于构建能够在不停变化的世界中学习、成长与繁荣的 AI。
