永不止步的 Transformer：深入探讨在线持续学习

引言: 一个不断变化的世界带来的挑战

如今，大多数机器学习模型都是在静态数据集 (如 ImageNet 或维基百科) 上训练，然后作为固定系统进行部署。这种设置依赖于独立同分布 (i.i.d.) 假设 : 即认为真实世界中的数据分布与训练数据相似。但实际上，我们的世界是动态的、不断变化的。股票价格每秒都在波动，语言在持续演变，自动驾驶汽车的摄像头永远不会两次看到完全相同的场景。

一个使用去年数据训练的模型可能在几周内就会失去相关性。这时, 在线持续学习 (online continual learning) 就显得尤为重要——这是一种为连续、顺序学习而设计的范式。在这种范式中，模型一次接收一个数据样本，随时从每个实例中学习，并不断调整。其目标是在整个数据序列上最小化累积误差 , 从而在生命周期内持续学习与提升。

Transformer 已经彻底改变了对序列数据 (如文本和音频) 的深度学习方式，甚至在图像分类等非序列任务中也表现出色。它们具备执行上下文学习 (in-context learning) 的能力——即在输入的上下文中学习新任务，使其极具灵活性。但这些特性是否能扩展到在线持续学习领域？

研究论文 Transformers for Supervised Online Continual Learning 正是对此进行了探讨。作者提出了一种混合方法，将 Transformer 快速的上下文适应能力与基于梯度的渐进式长期学习相结合。他们的研究成果在一个复杂而现实的基准测试上取得了显著提升，展示了 Transformer 如何能够“永不止步地学习”。

背景: 两种学习模式

要理解这项研究的核心思想，首先需要了解在线持续学习的机制以及 Transformer 学习的双重属性。

在线持续学习: 边走边学

设想一个连续的数据点序列 \((x_1, y_1), (x_2, y_2), \dots, (x_T, y_T)\)。在每个时间步 \(t\)，模型必须:

接收一个输入 \(x_t\)
做出预测 \(\hat{y}_t\)
观察真实标签 \(y_t\)
根据预测计算损失
在处理 \(x_{t+1}\) 之前更新参数

与传统训练不同，模型不会重新访问过去的数据。它必须在保持已学知识的同时适应新信息。这种方法直接衡量模型最小化累积预测误差的能力，并奖励其快速适应与抵抗灾难性遗忘 (即神经网络在学习新任务时遗忘旧知识的倾向) 。

Transformer: 上下文学习 vs. 权重学习

Transformer 凭借其注意力机制在序列建模中表现卓越，该机制能在处理上下文时有选择地关注相关令牌。这让 Transformer 能够进行上下文学习 (in-context learning) ——一种基于输入的临时学习。例如，一个预训练的 Transformer 只需看到几个示例对，就能立即执行英法翻译，而无需更新其参数。

这种短暂学习能力与权重学习 (in-weight learning) 形成对比，后者通过跨越大量样本的梯度下降实现缓慢的参数化学习。权重学习在模型参数中存储通用知识，而上下文学习则依赖于当前上下文表示的动态作用。

本研究的目标是结合这两种学习方式 :

上下文学习 : 快速适应短期变化。
权重学习 : 通过持续的梯度更新实现长期巩固与稳定。

核心方法: 混合式 Transformer 学习器

提出的方法对 Transformer 进行了修改，使其能够实现在线学习，同时结合上下文条件和梯度下降的权重更新。作者探索了两种面向序列监督预测的主要架构变体。

两种用于在线预测的架构

双令牌 (2-Token) 方法 在这种配置中，每个输入-标签对 \((x_t, y_t)\) 由两个连续的令牌表示。Transformer 处理完整的序列 \(x_1, y_1, x_2, y_2, \dots\)，忽略 \(x_t\) 令牌的损失，仅训练模型预测对应的 \(y_t\)。这种结构简单而有效，将监督学习自然地转化为序列建模问题。
特权信息 (pi) Transformer pi-transformer 对标准 Transformer 模块进行了修改。每个输入图像 \(x_t\) 作为一个令牌输入，其对应标签 \(y_t\) 提供了额外的特权信息，影响注意力机制。标签的投影被添加到键 (keys) 和值 (values) 中，但不添加到查询 (queries) 。重要的是，一个对角线为零的注意力掩码会阻止模型在时间步 \(t\) 访问自己的标签，从而确保因果预测，同时保留对所有先前标签投影 \(y_{< t}\) 的访问。

定义 pi-transformer 模块的方程。核心思想是将标签 y_t 添加到键 (key) 和值 (value) 的投影中，但不添加到查询 (query) 中。

pi-transformer 通过额外的键和值投影将标签信息引入注意力机制，同时掩盖未来标签以保持序列的因果性。

训练: Transformer-XL 与重放流结合

在连续数据流上进行训练计算量很大，尤其是当数据量达到数千万时。研究人员采用了 Transformer-XL 风格的方法 (Dai 等人，2019) ，将训练拆分为较小的顺序片段 (如 100 个令牌) 。与此同时，通过 KV-cache 机制，注意力模块可以关注更大的窗口 (如 1024 个令牌) ，在不显著增加计算成本的前提下保留长期上下文。

为了保持流学习的效果，作者引入了重放流 (replay streams) ——这是对经验重放的创新改编。模型同时在多个并行“数据流”上训练:

流 0 按时间顺序处理新数据，并用于性能评估。
其他流 则随机重置到较早的位置，重放旧数据。

这种随机重放有效模拟了多轮 (multi-epoch) 学习，同时保持时间顺序一致性。它促使模型构建能在当前和过去上下文中都表现良好的参数，与元学习原理高度契合。

实验: 从玩具世界到真实数据

作者在两种主要场景中验证了方法: 合成的分段平稳数据集与真实的大规模持续学习基准。

玩具数据: Split-EMNIST

为了观察模型的适应行为，作者使用了 Split-EMNIST 数据集，它被分为 100 个任务。每个任务随机将 10 类图像映射到 10 个标签。当新任务开始时，映射关系会完全改变——造成突发的分布偏移。

瞬时误差 (蓝色) 在任务边界处激增，但很快恢复。平均误差 (橙色) 保持稳定，显示了模型适应突变变化的能力。

图 1: 预测误差在任务边界处激增，但很快稳定，显示模型能在标签映射突然变化后快速适应。

随着时间的推移，模型从早期任务中的困难逐渐过渡到后期任务的优异表现。

左图: 任务间平均误差随着任务数量增加而下降。右图: 在任务内部，后期任务的适应速度更快，展现了出色的小样本学习能力。

图 2: 随着 Transformer 不断“学会学习”，任务间的性能稳步提升——在约 30 个任务后展现出小样本适应能力。

重放机制在此起到了关键作用。没有重放时，模型性能会急剧下滑，如下图所示。

不同重放流数量下的平均准确率与学习率关系。仅使用一个流 (蓝色) 性能较差；多流重放显著提升准确率。

图 3: 重放流通过重访过去序列，使在线模型达到稳定且高准确率的表现。

该实验揭示了元学习行为的出现——模型学会了在任务内分布变化时高效适应。

真实世界基准: CLOC 数据集

最终测试使用了 CLOC (Continual Localization) 数据集，包含约 3700 万张按时间顺序排列的图像，这些图像按地理位置标注。数据高度非平稳，体现了自然的时间与空间漂移。本任务要求模型具备极佳的泛化与适应能力。

在 CLOC 数据集上使用预训练与冻结特征的平均准确率曲线。pi-transformer 变体达到了最高性能 (约 70%) ，远超前人方法。

图 4: 在使用预训练特征的 CLOC 任务上，pi-transformer 达到了近乎之前最佳两倍的准确率。

结果总结

方法	预训练	微调	平均准确率
Experience Replay (Cai et al., 2021)	✓	✓	20%
Approx. kNN (Prabhu et al., 2023)	✓	-	26%
Replay Streams (Bornschein et al., 2022)	✓	-	~38%
Kalman Filter (Titsias et al., 2023)	✓	-	30%
我们的 pi-Transformer (ResNet 特征)	✓	-	59%
我们的 pi-Transformer (MAE ViT-L 特征)	✓	-	70%
我们的 Transformer (从零开始学习)	-	✓	67%

性能飞跃十分显著——尤其在采用现代预训练特征 (如 MAE ViT-L) 时，pi-transformer 大幅超越此前方法。

剖析学习动态

1. 上下文 vs. 权重学习的贡献

为了评估两种学习机制的作用，作者在处理一定数量样本后冻结模型权重，从而强制模型仅依赖上下文学习。

在不同训练阶段 (如 50 万至 2000 万样本) 停止梯度更新后的性能。训练时间越长，性能越好，验证了持续的权重学习效应。

图 5: 即便处理数百万样本后，基于梯度的权重学习仍在持续带来性能提升。

两者均有显著贡献: 上下文学习应对即时变化，而梯度更新确保长期稳定。

2. 超参数影响

更大的注意力窗口 (\(C\)) 与更多的重放流均能带来更好结果。

左图: 更大的注意力窗口提升了适应性。右图: 更多重放流增强鲁棒性和准确率。

图 6: 注意力大小与重放数量共同影响模型的稳定性与预测性能。

3. 从零开始训练

当模型从零开始训练 (同时学习特征提取器与 Transformer) 时，依然保持竞争力，达到约 67% 的准确率，几乎媲美预训练版本。

从零开始训练的模型 (橙色) 与使用预训练特征的模型 (绿色) 的学习曲线。两者最终准确率均较高。

图 11: 从零开始训练的模型性能几乎与基于预训练特征的模型相当。

4. pi-Transformer vs. 双令牌模型

两种架构展现出不同的学习动态。双令牌模型出现离散阶跃——可能与归纳头 (induction head) 的形成相关——而 pi-transformer 则表现出平滑改进。

pi-transformer (蓝色) 的准确率平滑增长，而双令牌模型 (橙色) 出现离散跳跃，且受随机种子影响。

图 8: pi-transformer 学习过程更稳定，而双令牌变体则经历明显的性能突变，可能反映了归纳头的涌现。

5. 效率比较

研究团队还分析了计算成本与准确率之间的权衡，绘制帕累托前沿。

展示准确率与计算成本关系的帕累托前沿。pi-Transformer 和双令牌架构均具高效率，使用预训练 ViT-L 特征的模型性能最佳。

图 7: 帕累托分析显示，两种架构在宽范围的计算量下均具出色效率。

结论与展望

本研究表明，Transformer 的确能够有效实现监督式在线持续学习 。通过结合短期上下文适应与长期权重优化，所提出的方法在合成与真实任务上都达到了当前最优的表现。

主要结论如下:

混合学习有效 : 快速上下文适应与缓慢参数学习的结合能构建强大的持续学习模型。
架构创新 : pi-transformer 提出了一种在遵循因果约束的同时融合标签信息的原则性设计。
重放机制至关重要 : 多流重放在严格顺序数据流中高效模拟多轮训练。
可扩展与鲁棒 : 该方法在处理大规模数据 (数千万样本) 和多样超参数时依然表现稳定。

总体而言，这项研究弥合了大型 Transformer 涌现的元学习能力与应对非平稳序列数据学习挑战之间的差距，为构建能够持续学习与改进的自适应人工智能系统铺平了道路，真正拥抱了现实世界信息不断变化的本质。

引言: 一个不断变化的世界带来的挑战#

背景: 两种学习模式#

在线持续学习: 边走边学#

Transformer: 上下文学习 vs. 权重学习#

核心方法: 混合式 Transformer 学习器#

两种用于在线预测的架构#

训练: Transformer-XL 与重放流结合#

实验: 从玩具世界到真实数据#

玩具数据: Split-EMNIST#

真实世界基准: CLOC 数据集#

结果总结#

剖析学习动态#

结论与展望#