想象一下,你教一个智能助手识别不同的鸟类。它首先学会了识别知更鸟。然后,你教它认识麻雀。但当你再次让它识别知更鸟时,它却完全忘记了知更鸟长什么样。

这种令人沮丧的现象被称为 灾难性遗忘 (catastrophic forgetting) , 是创建真正智能且自适应的 AI 系统时最大的障碍之一。

在一个不断变化的世界里,我们需要 AI 能够持续学习——在不覆盖旧知识的情况下获取新技能和新知识。这就是持续学习 (Continual Learning, CL) 的精髓。虽然人类可以毫不费力地做到这一点,但深度学习模型仍然举步维艰,通常需要从头开始完全重新训练,这既缓慢、昂贵又不切实际。

最近的一篇研究论文 “FM-LoRA: Factorized Low-Rank Meta-Prompting for Continual Learning” 提出了一个紧凑而强大的框架来解决这一问题。作者设计了一种方法,使大型预训练模型——尤其是视觉 Transformer (ViT)——能够高效地学习一系列任务,无需存储旧数据,也不会发生灾难性遗忘。

让我们来看看它是如何做到的。


AI 的两难境地: 稳定性 vs. 可塑性

持续学习的核心在于一个称为稳定性–可塑性困境 (stability–plasticity dilemma) 的根本权衡:

  • 稳定性: 模型必须保留先前学到的知识。
  • 可塑性: 模型必须保持足够的灵活性以学习新任务。

可塑性过强会导致遗忘;稳定性过强则会导致停滞。

研究人员尝试了几种方法来寻求平衡:

  1. 回放方法: 在训练新任务时重用一小部分过去的数据。有效但占用大量内存且具有隐私风险。
  2. 正则化方法: 对先前任务中重要参数的过大更新进行惩罚。稳定但限制性强。
  3. 架构方法: 为每个任务附加新的模块或适配器。理论上可扩展,但会迅速使模型变得臃肿。

最近,一种新思路出现了: 参数高效微调 (PEFT, Parameter-Efficient Fine-Tuning) 。 与其重新训练庞大的预训练模型的所有参数,PEFT 只更新一小部分——例如 LoRA (低秩自适应, Low-Rank Adaptation) 模块——从而大大提高了效率。

然而,像 LoRA 这样的 PEFT 方法并非为顺序、终身学习而设计,在跨多个任务时仍然会遇到困难。

这正是 FM-LoRA 发挥作用的地方。


FM-LoRA 的核心: 三重奏式的和谐机制

FM-LoRA 通过三个协同模块实现终身学习:

  1. 分解式低秩自适应 (F-LoRA)
  2. 动态秩选择器 (DRS)
  3. 动态元提示 (DMP)

它们共同使模型能够高效学习、快速适应并持久记忆。

让我们分别来看。


1. F-LoRA: 在共享、稳定的子空间中学习

标准的 LoRA 会为每个新任务引入小矩阵 \(A_t\) 和 \(B_t\),来计算权重矩阵的增量变化:

\[ \Delta W_t = A_t B_t^{\top} \]

这帮助模型高效学习,但在任务之间容易产生冗余和干扰。

F-LoRA 对这一思路进行了改进。与为每个任务单独学习适配器不同,FM-LoRA 将低秩更新分解为共享和任务特定组件:

\[ \Delta W_t = A_{\text{shared}} M_t N_t^{\top} B_{\text{shared}}^{\top} \]
  • \(A_{\text{shared}}\)\(B_{\text{shared}}\) 是全局低秩基,只在第一个任务时学习一次并随后冻结,表示所有任务通用的稳定适应方向。
  • \(M_t\)\(N_t\) 是小型任务特定矩阵,用以为每个任务调整这些共享基。

通过固定共享基,所有更新都保持在一个受控且一致的低维子空间内。

对比标准 LoRA 和 FM-LoRA 的示意图。标准 LoRA 为每个任务学习新的适配器,而 FM-LoRA 只学习一次共享基,然后通过任务特定的小矩阵进行调整。

图 1: FM-LoRA 在第一个任务上学习共享基 \(A_{\text{shared}}\) 和 \(B_{\text{shared}}\)。后续任务仅学习小矩阵 \(M_t\) 和 \(N_t\),使所有更新都保持在一个稳定、共享的子空间内。

F-LoRA 的优势:

  1. 极致高效: 每个任务只增加很少的参数——仅 \(2r^2\),相比传统方法的几十万参数要轻得多。
  2. 减少干扰: 任务更新被限制在共享基内,最大限度地减少了新旧知识之间的冲突。

可以把 F-LoRA 看成一个安全的适应区——确保新知识的学习与已有经验和谐共存。


2. 动态秩选择器 (DRS): 适应任务的复杂性

接下来的问题是: 这个子空间需要多大? 秩 (r) 决定了适配器的灵活性——更高的秩允许更多的表现力,但也需要更多参数。

为所有任务使用固定秩无法反映任务复杂性的多样性。 这时便需要 动态秩选择器 (DRS)

DRS 通过评估任务复杂性自动调整每个任务的秩 \(r_t\)。作者用一次短暂预训练中的验证损失来衡量复杂性: 较难的任务会产生更高的损失。模型通过 Gumbel-Softmax 机制以概率方式选择秩:

\[ p(r|\mathcal{T}_t) = \frac{\exp\left(\frac{w_r H(\mathcal{T}_t)}{\tau}\right)}{\sum_{r'} \exp\left(\frac{w_{r'} H(\mathcal{T}_t)}{\tau}\right)} \]

其中,\(H(\mathcal{T}_t)\) 表示任务复杂性,\(w_r\) 是不同候选秩的可学习权重,\(\tau\) 控制平滑度。 模型最终选择概率最高的秩 \(r_t\)。

这种自适应策略使模型具备任务相似性感知能力 :

  • 当新任务与旧任务相似时,DRS 选择较小的秩,以节省容量并避免冗余。
  • 当任务较独特或更复杂时,DRS 则选择更高的秩来捕获新的信息。

最终,使模型能够动态调整自己的容量,在保持稳定性的同时具备灵活性。


3. 动态元提示 (DMP): 构建隐式记忆

即使具备稳定的适应机制,没有回放的模型仍可能发生表示漂移——跨任务的表示逐渐失去对齐。 FM-LoRA 使用 动态元提示 (DMP) 来解决这一问题,它是一组共享的可学习 token,在输入序列进入 Transformer 前被添加到序列开头。

一张示意图,展示了提示 token 在输入序列进入 Transformer 模型前被添加到序列开头。

图 2: 动态元提示 (DMP) 在每个输入前添加可学习的 token。它们在所有任务中持续演化,充当共享上下文,锚定并稳定表示。

这些 token 就像共享记忆的锚点 , 在跨任务的表示中保持稳定。 它们会随每个新任务更新,逐渐形成一个贯穿所有经验的通用上下文。 随着时间推移,DMP 提供稳定的提示信号,减少漂移并帮助模型保留已学知识。


实验与结果: 实践检验

研究人员在多个持续学习基准上评估了 FM-LoRA,包括 ImageNet-RCIFAR100CUB200DomainNet , 涵盖类增量和域增量两种场景。

主要的两个指标是:

  • 准确率 (Acc): 序列化训练结束后在所有任务上的整体性能。
  • 平均随时准确率 (AAA): 学习全过程中的平均性能,用于衡量遗忘程度。

压力下的表现: 更长任务序列

ImageNet-R 基准上,FM-LoRA 随任务数量增加仍保持卓越的稳定性。

一张表格,展示 FM-LoRA 与其他方法在 ImageNet-R 上处理 5、10 和 20 个任务时的性能对比。

当大多数方法随着任务增多而性能急剧下降时,FM-LoRA 依然保持稳定——甚至随着任务序列变长,其优势更加明显。

折线图显示不同持续学习方法的准确率随任务数量增加的变化。FM-LoRA 的曲线更高且更稳定。

图 3: 随着任务数量增加,FM-LoRA 保持高准确率。普通微调 (灰线) 则彻底崩溃,出现严重遗忘。FM-LoRA 的曲线稳健,证明其出色的稳定性。

在 20 个任务情况下,FM-LoRA 在准确率上比领先的对比方法 SD-LoRA 高出约 1% , 在 AAA 上高出 0.7% , 证明了其在长期学习场景中的鲁棒性。


跨数据集的通用性

更令人瞩目的是 FM-LoRA 在不同基准上的一致表现 。 作者在 CIFAR100 (通用物体类别) 、CUB200 (细粒度鸟类数据集) 以及 DomainNet (包含六个风格域) 上进行了测试。

一张表格,总结 FM-LoRA 在 CIFAR100、CUB200 和 DomainNet 上的性能。

无论是处理新类别标签还是全新域迁移,FM-LoRA 在所有场景中都取得了领先或接近领先的结果。 该框架展现了强大的泛化能力,证明其在终身学习中的普适性和可扩展性。


各组件的重要性验证: 消融实验

任何强大的框架都要经过严格验证。研究人员进行了多项消融实验 , 评估各组件的贡献。

  • DRS 的影响: 将使用固定秩的 F-LoRA 与 F-LoRA + DRS 对比,结果显示 DRS 始终优于所有固定秩的版本,能够精准地根据任务复杂性动态分配容量。

一张表格显示带有 DRS 的 F-LoRA 性能优于任何固定秩版本。

  • DMP 的影响: 评估不同提示 token 数量的效果,结果表明 DMP 确实带来提升。适中的 token 数量能在效率与性能之间取得最佳平衡。

图表显示准确率随 DMP token 数量变化。性能通常在中等 token 数量时达到峰值。

图 4: 改变提示 token 数量 \(m\) 会影响性能。较多的 token 有助于更长任务序列,而较少的 token 足以应对较短序列。

这些实验确认 FM-LoRA 的三大组件——F-LoRADRSDMP——均对整体性能有重要贡献。它们共同构成了一个紧密且自适应的系统。


结论: 迈向真正的终身学习

FM-LoRA 是 AI 迈向终身学习的重要一步。 通过结合:

  • F-LoRA : 将学习限制在稳定的低秩子空间,
  • DRS : 智能地为每个任务调整模型容量,
  • DMP : 通过共享提示锚定表征,

该框架在稳定性可塑性之间实现了精妙的平衡——这是真正持续学习的核心。

FM-LoRA 不仅能学新东西,还能在学习过程中记忆适应改进——无需旧数据,也不依赖庞大模型。 这种统一的理念让我们距离构建像人类一样,随经验增长而愈加智慧、不再遗忘的 AI 系统又近了一步。