想象一下,你教一个 AI 助手识别不同种类的鸟。它很快掌握了知更鸟,然后你教它麻雀,它也学得很好。但当你再次问它关于知更鸟的问题时,它却完全答不上来。这种令人沮丧的现象被称为 灾难性遗忘 , 是在构建能够像人类一样从新数据中持续学习的 AI 系统时面临的最大挑战之一。

持续学习 (Continual Learning, CL) 领域旨在解决这个问题,通过创建能够在获取新技能的同时不丢失旧技能的模型。这个问题中一个特别困难的分支是 无排练持续学习 (Rehearsal-Free Continual Learning, RFCL) , 即模型必须在不存储任何先前任务数据的情况下学习新任务。这一限制对于有严格数据隐私要求或存储资源有限的场景至关重要。

最近的研究方法依赖于大型预训练模型 (如视觉 Transformer) 与“提示 (prompting)”技术的结合。这些方法会冻结庞大的主干网络,并添加一些小型、可训练的“提示”,使模型能够适应新任务。它们使用一种“键-查询匹配”过程来决定为每个输入应用哪个提示。尽管这些方法取得了成功,但它们存在两个主要缺点: (1) 匹配不完美会导致错误,(2) 由于需要两次独立的前向传播,训练速度缓慢。

在论文《超越提示学习: 用于高效无排练持续学习的持续适配器》(Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning) 中,来自西安交通大学的研究人员提出了一个全新的视角: 持续适配器 (Continual Adapter, C-ADA) 。 他们的方法完全规避了基于提示的方法的局限性,引入了一种简单而高效的架构,该架构学习速度更快、遗忘更少,并取得了业界领先的成果。让我们来看看它的工作原理。


基于提示的持续学习存在的问题

在理解 C-ADA 的创新之前,让我们先审视一下它试图取代的方法。现代基于提示的 RFCL 技术遵循以下流程:

  1. 冻结预训练模型: 主干网络 (通常是在像 ImageNet 这样的大型数据集上训练的视觉 Transformer (ViT)) 保持冻结,以防止遗忘。
  2. 构建提示池: 一组小型可学习向量,作为轻量级适配器。
  3. 键-查询匹配: 输入图像通过冻结的主干网络一次,生成一个“查询”嵌入,然后将其与学习到的“键”嵌入进行比较。最相似的键决定了使用哪个 (或哪些) 提示。
  4. 第二次前向传播: 将图像与选定的提示一起 再次 通过主干网络。这第二次传播使模型能够适应新任务。

一张图表,比较了先前的基于提示的方法与新的持续适配器 (C-ADA)。基于提示的方法显示了两次前向传播和一个复杂的匹配步骤,而 C-ADA 显示了集成 CAL 和 S&S 模块的单次传播,从而取得了更好的结果。

图 1: 基于提示的方法需要两次前向传播——一次用于选择提示,另一次用于使用提示进行训练——而 C-ADA 在单次传播中完成学习,并在新任务上实现更高的准确率。

这种“键-查询”匹配本质上是不可靠的,因为它依赖于一个在不同数据集上预训练的模型的特征嵌入。当目标任务不同时 (例如素描与照片) ,不匹配的提示可能会减慢学习速度或降低性能。另一方面,两次通过模型的前向传播也使计算代价翻倍,导致这些方法在大规模应用中效率低下。


C-ADA 框架: 无需匹配的学习

C-ADA 架构完全舍弃了键-查询匹配。它通过 适配器层 直接集成新知识,并随着每个新任务而扩展。该框架由两个简单而强大的模块组成,附加在一个冻结的 ViT 上: 缩放与平移 (Scale & Shift, S&S) 模块和 持续适配器层 (Continual Adapter Layer, CAL)

C-ADA 方法的整体框架图。输入图像由视觉 Transformer 处理,其中特殊的 S&S 和 CAL 模块与标准的 MLP 和投影层并行连接。图中显示 CAL 模块会为每个新任务进行扩展。

图 2: C-ADA 将轻量级 S&S 和 CAL 模块与 ViT 的现有模块并行集成。对于每个新任务,CAL 会扩展新的可训练权重 (红色) ,而已有权重保持冻结 (蓝色雪花) 。


1. 缩放与平移 (S&S) 模块: 弥合领域差距

持续学习中的一个主要挑战是,新任务可能来自与预训练数据集不同的数据领域。为纠正这种不匹配,C-ADA 引入了 缩放与平移 (S&S) 模块,它在增量训练开始前调整特征空间。

S&S 模块学习两个小向量,即缩放因子 \(\alpha\) 和平移因子 \(\beta\),用于修改输入特征:

\[ y = \alpha \odot x + \beta \]

在第一个任务训练完成后,这些参数将被冻结。这个一次性的校准步骤“重新对齐”了预训练模型的特征空间,使随后任务的微调更加高效。尽管结构简单,该模块极大地提升了模型的 可塑性,即快速学习新信息的能力。


2. 持续适配器层 (CAL): 核心创新

持续适配器层 (CAL) 是 C-ADA 的核心创新。传统的适配器是用于微调大型模型的轻量模块,而 C-ADA 使其可扩展且持久。

每个 CAL 包含:

  • 一个 降维投影层 (减少维度)
  • 一个 ReLU 激活函数 (增强非线性)
  • 一个 升维投影层 (恢复维度)

对于每个新任务 \(t\),CAL 会附加两组新的权重——一组用于降维投影 (\(\mathbf{W}_{dp}^{t}\)),一组用于升维投影 (\(\mathbf{W}_{up}^{t}\))——同时冻结所有之前学习过的权重。每个任务的知识因此存储在自己独立且不可修改的参数片中。

展示持续适配器层 (CAL) 结构的方程。权重矩阵 W_dp 和 W_up 显示为每个任务权重的拼接。

图 3: 随着任务的推进,新的权重被添加到 CAL 的投影矩阵中,在保持旧知识的同时实现新知识的学习。

这种可扩展结构完美平衡了 稳定性可塑性 :

  • 冻结权重以保存已有知识。
  • 新增权重以快速适应新任务。

CAL 模块与 ViT 的投影层和 MLP 块并行运作,能够在不干扰底层预训练参数的情况下微调输出。

展示 CAL 模块输出如何与 Transformer 模块中标准投影层和 MLP 层的输出相加的方程。

图 4: CAL 与投影层和 MLP 模块协同工作,为冻结的 Transformer 特征添加可学习的修正。


3. 正交损失: 分离新旧知识

尽管每个任务都有独立的适配器权重,但新任务训练时产生的梯度仍可能影响早期任务的表示。为避免这种干扰,C-ADA 引入 正交损失 (Orthogonal Loss) , 在数学上将任务间的知识分离。

正交损失鼓励新的权重向量 \(\mathbf{W}^{t}\) 与旧权重保持 正交,即不重叠、相互独立:

正交损失的方程,它衡量新权重与旧权重集合点积的 L2 范数。

图 5: 正交损失惩罚新旧权重之间的相似性,确保任务间干扰最小。

通过让新权重向量保持与旧权重正交,模型保证学习新知识时不会破坏已掌握的内容。总体训练目标结合了此正交损失与标准分类损失:

C-ADA 的最终优化目标,即最小化分类损失和正交损失之和。

图 6: C-ADA 的优化目标结合了分类准确性 (L_ce) 与知识分离 (L_or)。


结果: 学习更快、遗忘更少

研究团队在多个标准持续学习基准上评估了 C-ADA,并与 L2P、DualPrompt 和 CODA 等常用方法进行了比较。结果显示,C-ADA 在准确率和效率上均有显著提升。

类增量学习

C-ADA 在 Split CIFAR-100 和 Split ImageNet-R 基准上进行了测试,这些基准要求模型在连续任务中学习不同类别集。

表 1 展示了 C-ADA 与其他方法在 ImageNet-R 和 CIFAR-100 上的性能。C-ADA 取得了最高的准确率 (A_N),且计算成本 (FLOPs) 仅为一半。

表 1: C-ADA 在平均准确率上优于所有先前方法,同时将计算成本 (FLOPs) 减半。单次传播结构实现了更高精度与更快训练。

在多项实验设置中,C-ADA 的平均准确率比现有最佳方法 CODA 提高了约 2–3%,且所需计算量减少 近一半 , 训练速度提升一倍而性能无损。

域增量学习

为验证鲁棒性,研究团队将 C-ADA 应用于域增量数据集 (如 CORe50 和 DomainNet) ,这些任务中类别不变但数据分布发生变化。

表 2 展示了 C-ADA 在域增量基准 CORe50 和 DomainNet 上的性能。C-ADA 的表现优于所有其他方法,包括那些专门为该场景设计的方法。

表 2: C-ADA 甚至超越了为域增量学习设计的 S-Prompts,展现出出色的通用性与适应性。

值得注意的是,C-ADA 不仅优于无排练方法,还超越了专门为域适应设计的算法 S-Prompts。这说明 C-ADA 的架构在其最初应用之外也具有良好的泛化能力。


工作原理: 消融研究与分析

作者进行了系列 消融实验 , 通过逐一禁用模块来验证各组件的重要性。

消融研究的表 3。移除 CAL、正交损失或 S&S 模块都会导致性能下降,其中 CAL 是最关键的组件。

表 3: 移除 CAL 导致性能降幅最大,证实其核心作用。正交损失与 S&S 也对整体稳定性和可塑性贡献显著。

研究结果如下:

  • 移除 CAL: 准确率急剧下降,证明其是核心学习机制。
  • 移除正交损失: 导致严重遗忘,验证其在知识保持中的关键作用。
  • 移除 S&S 模块: 准确率略有下降,表明特征空间对齐有助于后续任务。

进一步的指标表明,C-ADA 在 前向迁移 能力上表现更佳,能更有效地利用已有知识学习新任务。


核心要点

C-ADA 为持续学习引入了一个简洁、高效、可扩展的架构:

  1. 直接知识注入: 通过为每个任务直接扩展适配器权重,避免了高风险的提示选择。
  2. 高效率: 仅需一次前向传播,使训练速度约为先前方法的两倍。
  3. 正交保护: 确保新旧技能在数学上保持独立,防止相互干扰。
  4. 强泛化能力: 在类增量和域增量场景中均表现卓越。

结论: 迈向终身学习系统

持续适配器 (C-ADA) 代表了实现实用终身学习 AI 的重要一步。通过结合可扩展的适配器层、正交正则化与轻量校准步骤,它以优雅且高效的方式解决了稳定性与可塑性的平衡难题。

对于开发者和研究人员而言,C-ADA 提供了一种简洁而强大的插件机制,可将现有的预训练模型转变为持续可适应的学习者——而无需担心旧知识丢失。

本质上,持续学习的未来可能不在于复杂的提示匹配方案,而在于模块化、可扩展的适配器,使 AI 系统能稳健、持续地进化。C-ADA 是向这一方向迈出的里程碑,让机器学会真正的 不遗忘式学习