简介
想象一下你正在学习一门新语言,比如法语。当你全神贯注于法语语法和词汇时,突然发现你两年前学的西班牙语开始变得生疏了。这种学习新信息干扰了旧知识回忆的现象,在认知科学中被称为“倒摄抑制” (retroactive interference) 。
在人工智能领域,具体来说在大语言模型 (LLM) 中,这个问题要严重得多。它被称为灾难性遗忘 (Catastrophic Forgetting) 。 当一个 LLM 针对一系列新任务 (先任务 A,再任务 B,最后任务 C) 进行顺序微调时,它往往会覆盖掉完成任务 A 所需的权重,以适应任务 C。结果就是模型在最新的任务上表现出色,但实际上已经“遗忘”了其他所有内容。
为了使 LLM 真正适用于长期部署,它们需要具备持续学习 (Continual Learning, CL) 能力——即随着时间推移积累知识,而无需从头开始进行昂贵的重新训练。目前最常见的解决方案是“数据回放” (data replay) ,即定期让模型复习旧数据。然而,这种方法效率低下,且需要存储大量的历史数据。
在这篇文章中,我们将深入探讨一篇题为 “SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models” (SEEKR: 用于大语言模型持续学习的选择性注意力引导知识保留) 的论文。研究人员提出了一种新颖的方法,通过深入 Transformer 的“大脑”——具体来说是注意力头 (attention heads) ——来精准地保留记忆。

如图 1 所示,研究人员发现,简单地将旧模型的注意力权重嫁接到新模型上,就能恢复丢失的性能。这一关键洞察驱动了 SEEKR 的诞生: 通过选择性地仅蒸馏最“有价值”的注意力头,我们可以用极少的数据实现最先进的持续学习效果。
背景: 持续学习的挑战
在了解解决方案之前,我们必须先明确问题的背景。
标准方法: 数据回放
在标准的持续学习设置中,模型 \(\theta\) 学习一系列任务。当在任务 \(i\) 上训练时,我们要最小化当前任务的损失,同时确保之前任务 (\(1\) 到 \(i-1\)) 的损失不会飙升。
当前任务的标准目标函数为:

为了防止遗忘,工程师使用记忆缓冲区来存储少量来自先前任务的数据 (\(R_k\)) 。在训练期间,模型会“回放”这些旧数据:

输出蒸馏的局限性
为了进一步稳定模型,研究人员使用了知识蒸馏 (Knowledge Distillation, KD) 。 这涉及将旧模型 (在学习新任务之前) 视为“教师”,将当前模型视为“学生”。学生模型试图匹配教师模型的输出概率 (Logits) 。
基于回放的蒸馏 (如流行的 DER++ 方法) 的标准损失函数如下所示:

问题在于: 大多数现有方法仅蒸馏最终输出 (Logits) 或通用的特征图。它们将 LLM 的内部推理过程视为黑盒。它们没有保留模型的功能,只保留了结果。因此,这些方法需要相对大量的回放数据 (通常为 10% 或更多) 才能有效工作。
核心方法: SEEKR
SEEKR (SElective attEntion-guided Knowledge Retention,选择性注意力引导的知识保留) 的作者认为,要真正保留知识,我们必须保留模型的内部机制——具体来说,就是自注意力机制 (Self-Attention Mechanism) 。
然而,标准的 LLM 拥有大量的注意力头 (例如,LLaMA-2-7B 有 32 层,每层 32 个头) 。蒸馏所有这些头在计算上极其昂贵 (\(O(n^2)\) 复杂度) ,而且在很大程度上是不必要的,因为并非所有头对每个任务都同等重要。
SEEKR 通过回答两个问题解决了这个问题:
- 哪些注意力头真正有价值?
- 我们如何高效地蒸馏它们?
1. 注意力蒸馏
首先,让我们看看我们要保留什么。层 \(l\) 和头 \(h\) 的注意力权重 \(A_{l,h}\) 代表模型如何关联序列中的不同 token。

SEEKR 使用 KL 散度对齐旧模型 (教师) 和当前模型 (学生) 的注意力分布。这强制当前模型像旧模型一样“关注”相同的事物。

2. 识别重要注意力头
这是论文的核心。SEEKR 引入了一种二维重要性度量来决定保留哪些头。
维度 A: 任务敏感性 (它重要吗?)
有些头对性能至关重要;改变它们会破坏模型的准确性。其他的头则是冗余的。研究人员使用泰勒展开来估计损失函数对特定注意力头变化的敏感程度。

如果梯度 (损失相对于注意力权重的导数) 很高,意味着任务对该头非常敏感。我们基于回放数据为每个头计算敏感度分数 \(S\):

然后我们将所有先前任务的分数加总,得到总敏感度分数:

维度 B: 遗忘性 (它有风险吗?)
这是一个迷人且反直觉的贡献。研究人员假设有些头本质上是稳定的——即使在学习新任务时,它们也不会发生太大变化。这些头可能编码了通用知识 (如语法) ,不需要主动保护。
然而,其他的头是“可塑的”或不稳定的。它们变化剧烈。这些是最容易发生灾难性遗忘的头。研究人员通过测量训练期间注意力权重的累积变化来定义遗忘性 (\(F\)) :

逻辑: 一个具有高遗忘性的注意力头表明更需要进行蒸馏,因为它很可能在没有监督的情况下偏离其原始状态。
综合重要性分数
为了识别“最有价值的注意力头” (MVH) ,SEEKR 结合了这两个指标。如果一个头既对任务重要 (高敏感性) 又容易被覆盖 (高遗忘性) ,那么它就是有价值的。

3. 分层预算分配
由于内存和计算限制,我们无法蒸馏所有内容。SEEKR 使用分层策略来分配蒸馏“预算”:
- 层选择: 选择总重要性分数最高的 top-\(B_L\) 层。
- 头选择: 在这些层中,选择 top-\(B_H\) 个特定的头。

研究人员还引入了 Query 预算 (\(B_T\)) 。 他们不针对完整的注意力图 (其随序列长度呈二次方增长) 进行对齐,而是随机选择一部分 Query 进行蒸馏。这大幅降低了计算开销。
最终的 SEEKR 损失函数仅针对选定的头 (\(H\)) 和选定的 Query (\(T\)) 求和:

总目标函数
综上所述,模型使用组合损失函数进行训练。它试图学习新任务 (\(L_{task}\)) ,通过回放记忆旧数据 (\(L_{replay}\)) ,保持输出一致性 (\(L_{ld}\)) ,并且关键是,通过 SEEKR 保留内部注意力机制 (\(L_{seekr}\)) 。

实验与结果
研究人员在两个主要基准上测试了 SEEKR: TRACE (专门的 LLM 持续学习基准) 和 SuperNI (传统 NLP 任务) 。他们使用了 LLaMA-2-7B 和 Vicuna-7B 模型。
指标
他们使用以下指标衡量成功:
- OP (整体性能) : 训练完成后所有任务的平均准确率。
- BWT (后向迁移) : 衡量遗忘的指标。负数意味着模型在旧任务上的表现变差了。理想情况下,这个值应接近零。

TRACE 基准上的表现
在 TRACE 基准上的结果非常令人印象深刻。

观察表 1 , 注意 Replay (1%) 和 SEEKR (1%) 这两行。
- 使用 1% 数据的标准 Replay 得到的整体性能 (OP) 大约为 48.47 。
- 使用同样 1% 数据的 SEEKR 达到了 54.99 。
- 事实上,使用 1% 数据的 SEEKR 表现与使用 10% 数据的其他方法相当 (甚至有时更好) 。
这展示了巨大的数据效率 。 SEEKR 从每个回放样本中榨取了更多的知识保留,因为它强制了内部一致性,而不仅仅是输出匹配。
保持通用能力
针对特定任务微调 LLM 的一个常见副作用是它们会失去“通用智能” (例如,推理或编码能力) 。

如表 2 (上图) 所示,标准的顺序微调 (SeqFT) 导致通用能力 (GA) 显著下降。SEEKR 比 Replay 更好地缓解了这种下降,保留了模型的推理能力 (MMLU, GSM 等) 。
消融研究: 为什么它有效?
预算的影响
人们可能会问: 我们真的需要有选择性吗?为什么不蒸馏所有内容?

图 2(a) 显示性能趋于平稳。增加蒸馏头的数量超过 128 个 (总共数百个) 后,收益递减。这验证了稀疏性很重要的假设——只有一部分头在为知识保留“承担重任”。
图 2(b) 强调了数据效率。即使在极低的数据回放比例下 (x 轴左侧) ,SEEKR (橙色线) 相比标准 Replay (绿色线) 仍保持了高性能。
重要性可视化
研究人员可视化了他们的算法实际选择了哪些头。

图 5 揭示了一个有趣的模式。重要的头 (深蓝色) 聚集在中间层和深层 。 浅层 (y 轴底部) 几乎完全被忽略。这与理论相符,即浅层处理通用的特征 (如句法) ,这些特征变化不大,而深层处理容易遗忘的任务特定推理。
那些头真的保持稳定吗?
研究人员通过声称某些头是稳定的来证明其“遗忘性”指标的合理性。

图 4 证实了这一点。绝大多数注意力头的累积变化接近于零 (左侧的高柱) 。只有一小部分“长尾”的头发生了显著变化。SEEKR 针对的就是这部分易变的尾部,忽略稳定的多数以节省计算资源。
结论
SEEKR 论文为持续学习迈出了令人信服的一步。通过超越“黑盒”蒸馏并深入 Transformer 架构的内部,研究人员证明了在哪里进行保护与如何进行保护同样重要。
主要收获:
- 注意力即记忆: 保留注意力权重比仅保留输出 Logits 更有效。
- 选择性即效率: 我们不需要保存每一个参数。识别那些既对任务敏感又容易遗忘的头,可以实现高效训练。
- 数据效率: SEEKR 允许模型仅使用 1% 的历史数据来保留知识,这使得它在数据存储受限或涉及隐私问题的现实应用中变得可行。
随着 LLM 继续融入需要随时学习的动态环境,像 SEEKR 这样的技术对于确保它们在学习未来的同时不遗忘过去将至关重要。
](https://deep-paper.org/en/paper/2411.06171/images/cover.png)