人工智能已变得异常强大,但大多数模型却出奇地静态。它们在海量数据集上训练一次后便被冻结,当世界发生变化时无法适应。这是一个巨大的问题,因为现实是动态的: 数据流在演变,趋势在变化,新信息每秒钟都在涌现。我们如何才能构建像人类一样能够持续学习、吸收新知识的 AI 系统,而无需每次都从头开始重新训练呢?

这个挑战定义了 持续学习 (Continual Learning, CL) , 也称为终身学习或增量学习。CL 的目标是使模型能够从一系列任务中学习,同时保留先前的知识。然而,这一目标面临一个主要障碍: 灾难性遗忘 。 在一个新任务上训练神经网络会覆盖掉之前学到的信息,从而严重降低在旧任务上的性能。

研究人员提出了许多策略来减轻遗忘,通常通过巧妙的记忆或正则化机制从头训练模型。但随着 预训练模型 (Pre-Trained Models, PTM) 的出现,格局发生了改变——这些如 Vision Transformer (ViT) 一样的大型模型在庞大的数据集上训练,并形成了对世界丰富且通用的表示。

使用 PTM 进行持续学习,就像教一个经验丰富的成年人一项新技能,而不是从婴儿的白板状态开始。成年人已经拥有广泛的先验知识,使学习更高效,更不易出错。综述论文 《Continual Learning with Pre-Trained Models: A Survey》 对这一令人振奋的新方向进行了全面的概述。

本文将解读该综述的关键洞察,探讨 PTM 如何重塑持续学习,并剖析推动这一革命的三大主要方法类别。

一张示意图,比较了传统持续学习与基于 PTM 的持续学习,突出了从随机初始化训练与利用预训练权重跨序列任务之间的差异。

图 1: 传统持续学习从随机初始化开始——如同从零教一个婴儿。基于 PTM 的学习则从一个拥有广泛知识的预训练“成人”模型出发,实现更快、更可靠的适应。


场景设定: 持续学习的基础

在持续学习设置中,模型面临一系列任务流 \( \mathcal{D}^1, \mathcal{D}^2, \dots, \mathcal{D}^B \)。在第 b 阶段,模型只看到当前任务 \( \mathcal{D}^b \) 的数据。最终目标是在迄今为止遇到的 所有 任务上都能表现良好。形式上,模型旨在最小化期望风险:

\[ f^* = \underset{f \in \mathcal{H}}{\operatorname{argmin}} \ \mathbb{E}_{(\mathbf{x}, y) \sim \mathcal{D}_{t}^{1} \cup \cdots \cup \mathcal{D}_{t}^{b}} \mathbb{I}(y \neq f(\mathbf{x})) \]

持续学习的不同场景取决于任务的变化方式:

  • 类增量学习 (Class-Incremental Learning, CIL): 每个新任务都会引入新的类别 (例如,先分类猫和狗,然后是鸟和鱼) 。在测试时,模型必须在不知道图像属于哪个任务的情况下识别所有类别。
  • 任务增量学习 (Task-Incremental Learning, TIL): 与 CIL 类似,但测试时任务 ID 已知,使分类更简单。
  • 域增量学习 (Domain-Incremental Learning, DIL): 类别集合保持不变,但领域发生变化——例如,从真实照片变为同类物体的素描。

预训练模型的力量

大多数现代基于 PTM 的 CL 方法都采用 Vision Transformer (ViT) 架构。ViT 将图像划分为不重叠的图块 (patch) ,附加特殊的 [CLS] 令牌,并通过 Transformer 层处理。[CLS] 嵌入作为通用的图像表示。

概念上,一个 PTM 可分解为:

\[ f(\mathbf{x}) = W^{\top} \phi(\mathbf{x}) \]

其中 \( \phi(\cdot) \) 是特征提取器 (在 CL 期间保持冻结) ,而 \( W \) 是分类头。

PTM 为持续学习带来两大优势:

  1. 卓越的泛化能力 — 训练于庞大且多样的数据集,PTM 本身已具备强大可迁移特征。
  2. 轻量化适应 — 架构支持通过小型模块进行高效微调,从而能以增量方式适应新任务,而不丢失旧知识。

基于 PTM 的持续学习方法分类

作者将基于 PTM 的持续学习方法分为三大类别,每类通过不同方式平衡稳定性与可塑性:

使用 PTM 进行持续学习的方法分类图,分为基于提示、基于表示和基于模型混合的方法。

图 2: 使用预训练模型进行持续学习的三种主要方法类别。

  1. 基于提示 (Prompt-Based) 的方法 — 调整少量可训练的“提示”,同时保持 PTM 权重冻结。
  2. 基于表示 (Representation-Based) 的方法 — 直接利用 PTM 的特征嵌入进行分类。
  3. 基于模型混合 (Model Mixture-Based) 的方法 — 通过集成或参数合并结合多个模型。

下面我们深入探讨每一种方法。


1. 基于提示的方法 —— 指引巨人

该方法将 PTM 视作冻结的引擎,通过学习小型可训练模块——提示 (prompt) ——来高效编码新任务。

视觉提示调优 (Visual Prompt Tuning, VPT) 中,可学习的提示向量 \( P \) 被前置到图块嵌入上。模型处理连接后的输入,而 PTM 主干保持冻结状态:

\[ \min_{P \cup W} \sum_{(\mathbf{x}, y) \in \mathcal{D}^{b}} \ell \left( W^{\top} \phi \left( \mathbf{x}; P \right), y \right) \]

冻结主干可以最大程度地减少遗忘,但随着任务增多,提示的管理也变得复杂。

提示池 (Prompt Pool) : 研究者维护一个提示池 \( \mathbf{P} = \{P_1, P_2, \dots, P_M\} \),每个提示代表不同任务。选择使用哪种提示成为一个检索问题。

提示选择 —— “学会提示” (Learning to Prompt, L2P) : L2P 为每个提示分配一个可学习键向量 \( k_m \)。给定查询特征 \( \phi(\mathbf{x}) \),系统根据相似度检索最相关的提示:

\[ \mathbf{K}_{\mathbf{x}} = \operatorname*{argmin}_{\{s_i\}_{i=1}^{N}} \sum_{i=1}^{N} \gamma(\phi(\mathbf{x}), \mathbf{k}_{s_i}) \]

键向量会随任务特征更新以更好对齐,从而缓解跨任务遗忘。

提示组合 —— CODA-Prompt: CODA-Prompt 不进行硬选,而是计算所有提示的注意力加权组合:

\[ P = \sum_{m=1}^{M} \gamma(\phi(\mathbf{x}) \odot \mathbf{a}_m, \mathbf{k}_m) P_m \]

这种连续加权增强了跨任务间的灵活性与多样性。

提示生成 —— DAP: 动态注意力提示 (Dynamic Attention-based Prompting, DAP) 模型更进一步,使用元网络为每个实例 自动生成 独立提示:

\[ P = (\gamma_e \operatorname{MLP}(\operatorname{LN}(\phi(\mathbf{x}))^{\top}) + \beta_e)^{\top} \]

图表展示了不同的提示机制——查询-键匹配、共享与任务特定、加权组合以及实例特定生成——如何引导 PTM。

图 3: 从基于检索的选择到动态生成,主流提示策略的视觉概览。

优点:

  • 参数效率极高,仅需训练少量提示。
  • 保持 PTM 的全局知识。
  • 可作为任务特定适应的外部记忆。

缺点:

  • 提示选择可能不稳定,导致“元遗忘”。
  • 提示池越来越大可能导致训练与测试不一致。
  • 领域偏移较大的任务可能超出固定提示空间的表达能力。

2. 基于表示的方法 —— 信任特征

此类方法直接利用 PTM 强大的特征提取能力,而不修改其参数。

SimpleCIL: 最直接的方法是冻结 PTM,并为每个类别计算一个原型 (即平均嵌入) :

\[ c_i = \frac{1}{K} \sum_{j=1}^{|\mathcal{D}^{b}|} \mathbb{I}(y_j = i) \phi(\mathbf{x}_j) \]

这些原型即分类器权重——方法简单但效果惊人,常常超越复杂的提示类系统。

ADAM: 为引入任务特定适应性,ADAM 将冻结特征与经轻量微调的特征连接起来:

\[ c_i = \frac{1}{K} \sum_{j=1}^{|\mathcal{D}^{b}|} \mathbb{I}(y_j = i) [\phi(\mathbf{x}_j), \phi(\mathbf{x}_j; \text{PEFT})] \]

这种混合表示结合 PTM 的通用性与任务特定知识。

增强方法:

  • RanPAC: 使用随机投影与线性判别分析降低类原型间的相关性。
  • EASE: 汇聚多任务特定主干网络的表示以增强鲁棒性。
  • SLCA: 极慢地微调主干,快速更新分类器,进一步减少遗忘。

优点:

  • 简洁高效,具备良好的可解释性。
  • 大部分参数冻结,训练成本低。
  • 常作为强基线用于公平比较。

缺点:

  • 特征连接可能产生冗余。
  • 对任务间较大领域偏移的适应性有限。

3. 基于模型混合的方法 —— 众智共进

此类方法通过维护多个模型或参数集合并融合其知识来应对遗忘。

模型集成 (Model Ensemble) : 为每个任务训练独立分类器或主干网络,并在推理阶段进行结果聚合。例如:

  • ESN: 针对每个任务训练独立分类器,并通过基于温度的投票融合预测。
  • PromptFusion: 通过加权混合结合不同 PTM (如 ViT 与 CLIP) 的输出。

模型合并 (Model Merging) : 相比保留多个模型,模型合并方法将它们压缩为单一网络。 LAE 提出在线与离线模型——在当前任务上训练在线模型,并通过指数移动平均合并参数:

\[ \boldsymbol{\theta}^{\text{Offline}} \leftarrow \alpha \boldsymbol{\theta}^{\text{Offline}} + (1 - \alpha) \boldsymbol{\theta}^{\text{Online}} \]

这种平滑合并在整合新更新的同时保留旧知识。

其他变体如 HiDe-Prompt 在每轮学习后执行提示级合并; CoFiMA 使用费舍信息衡量参数重要性以指导精确合并。

优点:

  • 多样化模型降低遗忘,提升鲁棒性。
  • 最终推理成本可控,因为模型被整合成单一网络。
  • 能灵活平衡新旧知识。

缺点:

  • 模型集成耗费大量计算与内存资源。
  • 合并启发式方法易不稳定,且敏感于超参数。

实验见解

该综述在七个基准数据集上评估了代表性方法: CIFAR-100、CUB-200、ImageNet-R、ImageNet-A、ObjectNet、OmniBenchmark 和 VTAB。这些数据集与 ImageNet 的领域相似度差异较大,可揭示模型应对分布变化的能力。

比较表显示了多种方法在七个数据集上的平均和最终准确率。方法按类别用颜色标注。

表 1: 七个基准上的实验结果。\( \bar{\mathcal{A}} \) 表示跨任务平均准确率,\( \mathcal{A}_B \) 表示学习最后一个任务后的最终准确率。

关键发现:

  1. 艰难基准至关重要: 在诸如 CIFAR-100 的标准数据集上性能较高,但模型在 ImageNet-A 和 ObjectNet 等存在大领域差距的数据集上表现不佳。未来 CL 研究应聚焦更具挑战的基准。
  2. 基于表示的方法表现突出: 如 ADAM 与 RanPAC 常优于大多数替代方案,凸显 PTM 表示的强大潜力。
  3. 简单制胜: 简单的 SimpleCIL 基线取得意料之外的卓越成绩,证明 PTM 时代丰富特征往往胜过复杂调优策略。

公平性不可忽视: 作者指出 DAP 报告结果存在关键问题。其提示生成网络在测试阶段使用了 批次级信息,无意间暴露任务身份,导致准确率虚高。重新以公平条件 (批次大小=1,无信息泄露) 评估后,性能显著下降,低于更简单的方法。这一发现强调了 与批次无关的评估 对于真实基准的重要性。


前路展望: 未来方向

大型语言模型 (LLM) 的持续学习: 类似 GPT 的大型模型同样面临挑战——需在不重新训练的情况下更新世界知识。开发任务感知的持续学习机制能显著减少资源消耗并提高响应效率。

超越单模态: 多模态 PTM (如 CLIP) 结合了视觉与文本学习。将持续学习应用于此类模型可实现跨模态增量适应,促进跨模态推理与检索等任务。

边缘端学习: PTM 通常计算量巨大。设计可在资源受限设备上高效运行的 CL 算法,将让个性化自适应 AI 成为现实。

超越 PTM 既有知识的新基准: 由于 PTM 在海量数据上训练,其接触新概念的机会极少。构建具显著领域差距的基准,将能真正检验持续学习是否能“学习新知识”。


结论

预训练模型已将持续学习从抗遗忘的战斗转化为追求自适应知识增长的旅程。借助本身具备全球知识的模型,研究者能专注于轻量适应、公平评估及真实场景应用。

综述 《Continual Learning with Pre-Trained Models: A Survey》 系统地将方法分为基于提示、基于表示和基于模型混合三类。实验结果显示,简单与公平尤为重要——冻结的 PTM 表示能力往往与复杂调优机制不相上下,甚至更胜一筹。

AI 的未来将属于那些能够 持续、智能、可持续地学习 的系统。随着预训练模型引领方向,让机器“永不遗忘”的梦想正逐步成为现实。