想象一下,你每周都教一个学生一门新课程。你从代数开始,再到几何,然后是微积分。但每到周一,当你开始新主题时,学生却把之前学过的一切都彻底忘掉。代数?没了。几何?消失了。
这就是当今大多数人工智能模型所面临的令人沮丧的现实。这种现象被称为 灾难性遗忘 (catastrophic forgetting) ,它是阻碍我们构建真正智能、自主代理的最大障碍之一。
与人类不同,人工智能模型无法在遇到新事物时从头开始重新训练。为了能在现实世界中有效运作,它必须持续学习、适应变化的环境,并在既有知识基础上不断积累经验。这正是 持续终身学习 (continual lifelong learning) 的终极目标。
一种常见的对抗灾难性遗忘的方法是 经验回放 (experience replay) : 模型会存储一些过去的样本,在训练新数据时“重播”这些样本。这就像在学生学习微积分时,顺便复习一下代数。这种方法确实有效,但它有一个硬性瓶颈: 内存。存储原始、高维度的数据 (如图像或文本样本) 代价高昂,随着智能体不断学习,它的回放缓冲区很快会变成瓶颈。
这引出了 IBM 研究团队的一个令人兴奋的构想: ** 《可扩展的回忆: 面向持续终身学习》 ** , 由 Matthew Riemer 等人提出。
研究人员提出了一个简单却深刻的问题: 如果人工智能不存储一份完美“照片”式的过去经验,而是存储一个压缩、抽象的“记忆”,会怎样?
这样的人工智能能否高效地存储和回忆大量经验,从而无限制地学习而不耗尽空间?他们通过严谨实验给出的答案是——一个响亮的 “是” 。
本文将探讨他们的解决方案: 可扩展回忆模块 (SRM) 。 你将看到它如何运用生成模型将高维经验压缩成微小的“索引”,这些索引又如何重建逼真的“回忆”,以及这一优雅机制如何在受限内存条件下实现业界领先的持续学习性能。
挑战: 如何学习而不遗忘 (或耗尽内存)
一个真正的终身学习系统必须做到三件事:
- 适应: 从源源不断的新数据流中学习。
- 保留: 避免忘记已经学到的内容。
- 高效: 在长时间运行中合理管理计算与内存资源。
大多数研究都集中在前两点。经验回放通过保存真实样本来帮助记忆保持,但其扩展性是线性的 : 如果想记住两倍的样本,就需要两倍的内存。对于要学习数年的智能体而言,这显然不可行。
如果一个典型的经验需要 \(O(n)\) 比特 (例如一张 256×256 图像) ,存储成千上万个样本将很快变得不现实。我们需要一种让增加新经验的成本随时间亚线性增长的机制。
IBM 的研究人员正是提出了这样的方法: 将每条记忆压缩到 \(O(k)\) 比特,其中 \(k \ll n\)。这些紧凑的记忆构成了可扩展回忆的基础。
核心思想: 可扩展回忆模块 (SRM)
这项研究的核心是一种用于高效记忆的神经架构——可扩展回忆模块 (SRM) 。 它的灵感来源于海马体的生物学理论: 人脑并不直接存储原始经验,而是存储精简的索引,之后可以利用这些索引重建完整记忆。
SRM 通过三个核心组件模拟这一机制: 一个 编码器、一个 索引缓冲区 和一个 解码器 。

图 1: 可扩展回忆模块。真实经验被编码为紧凑的内存索引并存储,之后通过解码器“回忆”出来。
让我们来看一下整个过程:
写入内存 (蓝色路径) : 当新的经验到来时——例如一张数字“6”的图像——编码器将其压缩为一个微小的离散索引,并存入索引缓冲区 。 原始图像不被保存,只保存超紧凑的表示。
读取内存 (红色路径) : 为了“记忆”,系统从缓冲区中抽取一个索引并传递给解码器 , 由解码器重建该经验。 这种回忆并非完美副本,但逼真度足以作为训练数据。
编码器和解码器构成了一个 离散变分自编码器 (VAE) 。 VAE 是一种生成模型,它学习将数据编码到潜变量中并能重建回原型。使用离散潜变量让记忆更加紧凑且存储更高效。
SRM 的持续学习过程
SRM 可以平滑地集成进标准的 经验回放 框架。当新数据到来时,模型会经历两个训练阶段:
阶段 1: 稳定记忆系统。 在使用存储的回忆之前,记忆系统本身必须防止遗忘。VAE (编码器‑解码器) 将在缓冲区中旧的回忆与新的输入样本之间进行混合训练——确保即使数据分布发生变化,它仍能保持重建旧记忆的能力。
阶段 2: 训练预测模型。 随后,预测模型 (用于分类等任务) 会在一批回忆样本加上当前新样本上进行训练。 这与标准回放类似——只是 SRM 使用轻量级的重建经验,而非原始数据。
每个新的经验都会被编码、压缩,并添加进缓冲区以供今后回忆。系统智能水平不断提升却不变臃肿。
为什么 SRM 表现如此出色?
两项关键设计使 SRM 拥有独特优势:
1. 学习式压缩优于静态压缩
为何要学习压缩,而不直接使用标准方法如 JPEG?
研究人员在 MNIST 数据集上比较了 JPEG、连续 VAE 以及 离散 VAE 的性能。

图 3: 在相同失真度下,离散 (分类) VAE 相比连续潜变量或 JPEG 实现了远高的压缩比。
JPEG 在中等压缩率下表现不错,但高压缩时质量迅速下降。学习式方法——尤其是离散 VAE——则表现得更稳健,因为它们能够适应数据的结构 。 离散 VAE 能识别哪些特征重要、哪些可以安全忽略,从而在极限压缩条件下仍保持最小损失。
这对于终身学习至关重要,因为智能体可能需要在严格资源约束下保存数百万条记忆。
2. 索引缓冲区提高采样效率
如果 VAE 能生成经验,那为什么还要保留一个缓冲区?
因为随机采样潜变量几乎不会得到真实的数据。VAE 的潜空间极为庞大,随机采样通常对应不合理的输入。
而 索引缓冲区 存储了训练中真实出现过的潜变量代码,因此从中采样生成的回忆更符合真实分布。
研究团队比较了 代码采样 (随机生成) 与 缓冲区采样 (使用存储代码) :
| 潜变量表示 | 采样策略 | 重建失真度 | 最近邻失真度 |
|---|---|---|---|
| 38 × 2D 变量 | 代码采样 | 0.058 | 0.074 |
| 缓冲区采样 | 0.058 | 0.054 | |
| 168 × 2D 变量 | 代码采样 | 0.021 | 0.081 |
| 缓冲区采样 | 0.021 | 0.021 |
表 4: 缓冲区采样生成的回忆更接近真实样本,因此用于训练更有效。
使用真实索引的采样显著提高了重建经验的逼真度,从而带来更快的学习速度和稳定表现。

图 4: 缓冲区采样比随机代码采样能实现更快的学习。
SRM 的实证评估
IBM 团队在多个持续学习基准上严格测试了 SRM,包括 MNIST‑Rotations 和 Incremental CIFAR‑100。
他们将 SRM‑驱动的系统与领先方法 Gradient Episodic Memory (GEM) 与 Elastic Weight Consolidation (EwC) 在相同存储预算下进行比较。
保留性能
| 方法 | 增量存储 | 项目数 | 保留率 (%) |
|---|---|---|---|
| GEM 真实存储 | 100 | 100 | 62.5 |
| GEM 回忆 | 100 | 3000 | 79.0 |
| 回放 真实存储 | 200 | 200 | 71.3 |
| 回放 回忆 | 200 | 3000 | 81.1 |
| EwC (Kirkpatrick 等) | 18 288 | 1000 | 54.6 |
表 1: 在 MNIST‑Rotations 上,SRM 压缩让可回放样本数量大幅增加,从而显著提升准确率。
在 Incremental CIFAR‑100 上也呈现类似趋势:
| 模型 | 增量存储 | 项目数 | 保留率 (%) |
|---|---|---|---|
| 回放 真实存储 | 200 | 200 | 43.0 |
| 回放 回忆 | 200 | 5000 | 51.6 |
| GEM 真实存储 | 200 | 200 | 48.7 |
| GEM 回忆 | 200 | 5000 | 59.0 |
表 2: 在 CIFAR‑100 上,使用相同内存占用时,回忆效果优于真实存储。
在两项实验中,压缩经验可让系统存储 数千条记忆 , 而原始回放只能保存几百条——长期准确率显著提高。
长期保留
持续学习不应随着时间而崩塌。为了测试持久性,研究团队让在 CIFAR‑100 上训练的模型继续在 CIFAR‑10 上长期训练。

图 2: CIFAR‑10 长期训练后 CIFAR‑100 的保留准确率。SRM 能更平缓地维持知识。
尽管所有模型最终都会遗忘,但 SRM 的知识衰减速度更慢,甚至超过容量大六倍的真实存储系统。记忆的多样性比单纯的规模更重要。
克服 VAE 的开销
另一个疑虑是: VAE 本身不是也占用内存吗? 答案是是的——但研究人员证明可以通过 迁移学习 克服这种开销。
在相关数据集 (如 CIFAR‑10) 上预训练自编码器,并将其迁移到 CIFAR‑100,可让系统从强健的表示开始,极大降低资源占用。
| 模型 | 项目数 | 保留率 (%) |
|---|---|---|
| 回放 真实存储 | 200 | 43.0 |
| 回放 回忆 – 无迁移 | 1392 | 43.7 |
| 回放 回忆 – CIFAR‑10 迁移 | 1392 | 49.7 |
| GEM 真实存储 | 200 | 48.7 |
| GEM 回忆 – CIFAR‑10 迁移 | 1392 | 54.2 |
表 3: 在严格内存条件下,迁移学习显著提升了回忆性能。
可扩展回忆的重要性
从理论与实验中可总结出三条关键原则:
压缩,而非仅存储: 紧凑、生成式的“回忆”取代笨重原始数据,使同等存储量可容纳更丰富的记忆内容。
缓冲区采样至关重要: 存储真实经验的索引能确保生成的回忆更贴近真实、有用模式,不同于随机潜变量采样。
离散 VAE 是理想选择: 在极高压缩条件下,采用离散潜变量的学习式压缩优于连续 VAE 及静态编解码器如 JPEG。
这些共同奠定了 SRM 作为持续终身学习基础的坚实根基。
超越遗忘: 迈向终身适应
SRM 解决了大多数终身学习方法中被忽视的效率难题。通过实现内存增长的亚线性扩展并维持长期知识,它让智能体能够:
- 无限期学习 , 不再遭遇灾难性遗忘。
- 轻松存储数百万条经验 。
- 有效迁移已学表示到不同任务。

图 6: 结合 SRM 的迁移训练可显著稳定学习过程,并以更少内存接近离线性能。
结论
IBM 研究团队提出的 可扩展回忆 框架为人工智能的记忆难题提供了一个优雅、数据驱动的解决方案。它不是用蛮力扩展存储来对抗遗忘,而是让记忆更聪明 。
通过离散变分自编码器和真实经验索引缓冲区,SRM 能高效压缩、回忆并回放信息,在严苛资源限制下实现卓越表现。
这项研究让人工智能迈出了从临时修补到真正实用的终身学习系统的关键一步——系统能够数年学习而不丧失过去。
当你再看到一个人工智能忘记昨天学过的内容时,请记住: 解决方案或许不是 更大的内存 , 而是 更好的回忆 。
](https://deep-paper.org/en/paper/1711.06761/images/cover.png)