想象一下,你教一个 AI 助手识别不同种类的鸟。它很快掌握了知更鸟,然后你教它麻雀,它也学得很好。但当你再次问它关于知更鸟的问题时,它却完全答不上来。这种令人沮丧的现象被称为 灾难性遗忘 , 是在构建能够像人类一样从新数据中持续学习的 AI 系统时面临的最大挑战之一。
持续学习 (Continual Learning, CL) 领域旨在解决这个问题,通过创建能够在获取新技能的同时不丢失旧技能的模型。这个问题中一个特别困难的分支是 无排练持续学习 (Rehearsal-Free Continual Learning, RFCL) , 即模型必须在不存储任何先前任务数据的情况下学习新任务。这一限制对于有严格数据隐私要求或存储资源有限的场景至关重要。
最近的研究方法依赖于大型预训练模型 (如视觉 Transformer) 与“提示 (prompting)”技术的结合。这些方法会冻结庞大的主干网络,并添加一些小型、可训练的“提示”,使模型能够适应新任务。它们使用一种“键-查询匹配”过程来决定为每个输入应用哪个提示。尽管这些方法取得了成功,但它们存在两个主要缺点: (1) 匹配不完美会导致错误,(2) 由于需要两次独立的前向传播,训练速度缓慢。
在论文《超越提示学习: 用于高效无排练持续学习的持续适配器》(Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning) 中,来自西安交通大学的研究人员提出了一个全新的视角: 持续适配器 (Continual Adapter, C-ADA) 。 他们的方法完全规避了基于提示的方法的局限性,引入了一种简单而高效的架构,该架构学习速度更快、遗忘更少,并取得了业界领先的成果。让我们来看看它的工作原理。
基于提示的持续学习存在的问题
在理解 C-ADA 的创新之前,让我们先审视一下它试图取代的方法。现代基于提示的 RFCL 技术遵循以下流程:
- 冻结预训练模型: 主干网络 (通常是在像 ImageNet 这样的大型数据集上训练的视觉 Transformer (ViT)) 保持冻结,以防止遗忘。
- 构建提示池: 一组小型可学习向量,作为轻量级适配器。
- 键-查询匹配: 输入图像通过冻结的主干网络一次,生成一个“查询”嵌入,然后将其与学习到的“键”嵌入进行比较。最相似的键决定了使用哪个 (或哪些) 提示。
- 第二次前向传播: 将图像与选定的提示一起 再次 通过主干网络。这第二次传播使模型能够适应新任务。

图 1: 基于提示的方法需要两次前向传播——一次用于选择提示,另一次用于使用提示进行训练——而 C-ADA 在单次传播中完成学习,并在新任务上实现更高的准确率。
这种“键-查询”匹配本质上是不可靠的,因为它依赖于一个在不同数据集上预训练的模型的特征嵌入。当目标任务不同时 (例如素描与照片) ,不匹配的提示可能会减慢学习速度或降低性能。另一方面,两次通过模型的前向传播也使计算代价翻倍,导致这些方法在大规模应用中效率低下。
C-ADA 框架: 无需匹配的学习
C-ADA 架构完全舍弃了键-查询匹配。它通过 适配器层 直接集成新知识,并随着每个新任务而扩展。该框架由两个简单而强大的模块组成,附加在一个冻结的 ViT 上: 缩放与平移 (Scale & Shift, S&S) 模块和 持续适配器层 (Continual Adapter Layer, CAL) 。

图 2: C-ADA 将轻量级 S&S 和 CAL 模块与 ViT 的现有模块并行集成。对于每个新任务,CAL 会扩展新的可训练权重 (红色) ,而已有权重保持冻结 (蓝色雪花) 。
1. 缩放与平移 (S&S) 模块: 弥合领域差距
持续学习中的一个主要挑战是,新任务可能来自与预训练数据集不同的数据领域。为纠正这种不匹配,C-ADA 引入了 缩放与平移 (S&S) 模块,它在增量训练开始前调整特征空间。
S&S 模块学习两个小向量,即缩放因子 \(\alpha\) 和平移因子 \(\beta\),用于修改输入特征:
在第一个任务训练完成后,这些参数将被冻结。这个一次性的校准步骤“重新对齐”了预训练模型的特征空间,使随后任务的微调更加高效。尽管结构简单,该模块极大地提升了模型的 可塑性,即快速学习新信息的能力。
2. 持续适配器层 (CAL): 核心创新
持续适配器层 (CAL) 是 C-ADA 的核心创新。传统的适配器是用于微调大型模型的轻量模块,而 C-ADA 使其可扩展且持久。
每个 CAL 包含:
- 一个 降维投影层 (减少维度)
- 一个 ReLU 激活函数 (增强非线性)
- 一个 升维投影层 (恢复维度)
对于每个新任务 \(t\),CAL 会附加两组新的权重——一组用于降维投影 (\(\mathbf{W}_{dp}^{t}\)),一组用于升维投影 (\(\mathbf{W}_{up}^{t}\))——同时冻结所有之前学习过的权重。每个任务的知识因此存储在自己独立且不可修改的参数片中。

图 3: 随着任务的推进,新的权重被添加到 CAL 的投影矩阵中,在保持旧知识的同时实现新知识的学习。
这种可扩展结构完美平衡了 稳定性 与 可塑性 :
- 冻结权重以保存已有知识。
- 新增权重以快速适应新任务。
CAL 模块与 ViT 的投影层和 MLP 块并行运作,能够在不干扰底层预训练参数的情况下微调输出。

图 4: CAL 与投影层和 MLP 模块协同工作,为冻结的 Transformer 特征添加可学习的修正。
3. 正交损失: 分离新旧知识
尽管每个任务都有独立的适配器权重,但新任务训练时产生的梯度仍可能影响早期任务的表示。为避免这种干扰,C-ADA 引入 正交损失 (Orthogonal Loss) , 在数学上将任务间的知识分离。
正交损失鼓励新的权重向量 \(\mathbf{W}^{t}\) 与旧权重保持 正交,即不重叠、相互独立:

图 5: 正交损失惩罚新旧权重之间的相似性,确保任务间干扰最小。
通过让新权重向量保持与旧权重正交,模型保证学习新知识时不会破坏已掌握的内容。总体训练目标结合了此正交损失与标准分类损失:

图 6: C-ADA 的优化目标结合了分类准确性 (
L_ce) 与知识分离 (L_or)。
结果: 学习更快、遗忘更少
研究团队在多个标准持续学习基准上评估了 C-ADA,并与 L2P、DualPrompt 和 CODA 等常用方法进行了比较。结果显示,C-ADA 在准确率和效率上均有显著提升。
类增量学习
C-ADA 在 Split CIFAR-100 和 Split ImageNet-R 基准上进行了测试,这些基准要求模型在连续任务中学习不同类别集。

表 1: C-ADA 在平均准确率上优于所有先前方法,同时将计算成本 (FLOPs) 减半。单次传播结构实现了更高精度与更快训练。
在多项实验设置中,C-ADA 的平均准确率比现有最佳方法 CODA 提高了约 2–3%,且所需计算量减少 近一半 , 训练速度提升一倍而性能无损。
域增量学习
为验证鲁棒性,研究团队将 C-ADA 应用于域增量数据集 (如 CORe50 和 DomainNet) ,这些任务中类别不变但数据分布发生变化。

表 2: C-ADA 甚至超越了为域增量学习设计的 S-Prompts,展现出出色的通用性与适应性。
值得注意的是,C-ADA 不仅优于无排练方法,还超越了专门为域适应设计的算法 S-Prompts。这说明 C-ADA 的架构在其最初应用之外也具有良好的泛化能力。
工作原理: 消融研究与分析
作者进行了系列 消融实验 , 通过逐一禁用模块来验证各组件的重要性。

表 3: 移除 CAL 导致性能降幅最大,证实其核心作用。正交损失与 S&S 也对整体稳定性和可塑性贡献显著。
研究结果如下:
- 移除 CAL: 准确率急剧下降,证明其是核心学习机制。
- 移除正交损失: 导致严重遗忘,验证其在知识保持中的关键作用。
- 移除 S&S 模块: 准确率略有下降,表明特征空间对齐有助于后续任务。
进一步的指标表明,C-ADA 在 前向迁移 能力上表现更佳,能更有效地利用已有知识学习新任务。
核心要点
C-ADA 为持续学习引入了一个简洁、高效、可扩展的架构:
- 直接知识注入: 通过为每个任务直接扩展适配器权重,避免了高风险的提示选择。
- 高效率: 仅需一次前向传播,使训练速度约为先前方法的两倍。
- 正交保护: 确保新旧技能在数学上保持独立,防止相互干扰。
- 强泛化能力: 在类增量和域增量场景中均表现卓越。
结论: 迈向终身学习系统
持续适配器 (C-ADA) 代表了实现实用终身学习 AI 的重要一步。通过结合可扩展的适配器层、正交正则化与轻量校准步骤,它以优雅且高效的方式解决了稳定性与可塑性的平衡难题。
对于开发者和研究人员而言,C-ADA 提供了一种简洁而强大的插件机制,可将现有的预训练模型转变为持续可适应的学习者——而无需担心旧知识丢失。
本质上,持续学习的未来可能不在于复杂的提示匹配方案,而在于模块化、可扩展的适配器,使 AI 系统能稳健、持续地进化。C-ADA 是向这一方向迈出的里程碑,让机器学会真正的 不遗忘式学习。
](https://deep-paper.org/en/paper/2407.10281/images/cover.png)