如何让旧的大语言模型永远学会新把戏：LEMoE 介绍

引言

想象一下，你正试图向一个大语言模型 (LLM) 传授关于世界的知识。你用截至 2023 年的数据训练了它。到了 2024 年，某国的总理换人了。你教会了模型这个新事实。2025 年，一种新的科学元素被发现，你也教给了它。

问题来了: 在当前的深度学习架构中，当你教给模型新事实时，它有一个糟糕的习惯，就是忘记旧事实——或者更糟，它的通用推理能力开始退化。这就是所谓的灾难性遗忘 (Catastrophic Forgetting) 。

每当事实发生变化时，从头开始重新训练整个模型不仅成本高昂，而且速度极慢。我们需要一种能够进行终身模型编辑 (Lifelong Model Editing) 的方法——在不破坏模型现有知识的前提下，高效地持续更新其知识库。

在这篇文章中，我们将探讨一篇名为 “LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models” (LEMoE: 面向大语言模型终身模型编辑的高级混合专家适配器) 的新论文。研究人员提出了一种新颖的架构，允许 LLM 按顺序进行学习，在保持“头脑清醒”的同时保持知识的新鲜度。

当前编辑方法存在的问题

现有的模型编辑方法 (如 ROME 或 MEMIT) 通常是为批量编辑 (Batch Editing) 设计的，即一次性修复大量错误。当你尝试将它们用于终身编辑 (Lifelong Editing) (即随着时间推移连续不断的更新流) 时，它们就会失效。

为了理解其中的原因，论文作者进行了深入的诊断分析。他们找出了三个主要罪魁祸首:

灾难性遗忘: 新的编辑覆盖了用于先前编辑的权重。
路由不一致 (Inconsistent Routing) : 在混合专家 (MoE) 模型中，决定由哪个“专家”处理查询的机制会随着模型的更新而改变。昨天交给专家 A 的问题，今天可能会交给专家 B，导致丢失了已学习的上下文。
顺序敏感性 (Order Sensitivity) : 模型的性能会根据教授事实的顺序发生剧烈波动。

可视化失败原因

研究人员在终身编辑任务上测试了一个标准的混合专家 (MoE) 适配器。结果非常有说服力。

Analysis of reliability and routing consistency.

图 1 分析:

左图 (可靠性) : 看左边的图表。绿线 (“即时评估”) 显示模型完美地学习了当前事实 (100%) 。但蓝线 (“最终评估”) 显示，经过 100 次更新后，模型已经忘记了许多早期事实，可靠性显著下降。
右图 (路由一致性) : 热力图显示了模型将同一问题发送给同一专家的一致性程度。“批量”图 (右下) 呈对角线状，意味着一致性高。“终身”图 (右上) 则是散乱的，意味着路由混乱且不一致。

编辑顺序的影响

研究人员还发现，何时教授事实与教授什么事实同样重要。

Performance variability under different editing orders.

如上图 (左) 的小提琴图所示，仅仅打乱完全相同数据集的顺序，就能导致可靠性波动超过 20 个点。这表明模型更喜欢将相关的主题放在一起学习，而不是在不相关的事实之间随机跳跃。

解决方案: LEMoE

为了解决这些问题，作者引入了 LEMoE (终身混合专家，Lifelong Mixture of Experts) 。

LEMoE 的核心理念很简单: 不要改动已生效的部分。 LEMoE 不是不断地重写相同的神经元，而是为新信息增加新的容量，并将旧信息锁定以妥善保存。

The conceptual framework for LEMoE.

如上图的概念框架所示，LEMoE 将编辑视为一条时间线。当 Data \(i\) 到达时，它会分配一个特定的模块 (FFN \(i\)) 来处理它。

LEMoE 建立在三大支柱之上:

新模块插入 (冻结专家)
KV 锚点路由
基于聚类的顺序规划

1. 新模块插入

在标准的 Transformer 中，前馈网络 (FFN) 层通常是存储“知识”的地方。LEMoE 利用了混合专家 (MoE) 方法，其中存在多个 FFN (专家) 。

然而，与传统的 MoE (所有专家一起训练) 不同，LEMoE 采用了一种顺序策略。

Comparison of LEMoE architecture vs Conventional MoE.

工作原理:

当新的一批编辑到达时，LEMoE 会在模型中插入一个新专家 (FFN) 。
关键在于，它会冻结负责先前数据的专家。
只有新专家和路由器是可训练的。

通过物理冻结先前专家的参数，新数据在数学上就不可能覆盖旧数据的权重。这直接解决了灾难性遗忘问题。

2. KV 锚点路由

冻结专家只是成功了一半。我们仍然需要确保当用户询问关于旧事实的问题时，模型确切知道将其发送给哪个被冻结的专家。这是路由器 (Router) 的工作。

标准路由器的行为会随着训练而改变，从而导致我们之前看到的“路由不一致”问题。LEMoE 引入了 KV (键-值) 锚点路由 。

概念:

键 (Key, \(k\)) : 每个专家被分配一个永久的、可学习的键向量。
值 (Value, \(v\)) : 输入查询被投影为一个“值”嵌入。

路由器计算输入的值与专家的键之间的相似度。

\[ g ( i \mid e _ { j } ) = \mathrm { T o p } _ { k } ( \frac { \mathrm { e } ^ { k _ { j } v _ { j } } } { \sum _ { i = 1 } ^ { t } \mathrm { e } ^ { k _ { i } v _ { i } } } ) \]

因为先前专家的键是被冻结的 (就像专家本身一样) ，旧知识的“地址”永远不会改变。如果模型学习到“巴黎在法国”存储在专家 1 中，路由机制会确保关于巴黎的查询继续流向专家 1，即使在添加了第 100 个专家之后也是如此。

3. 基于聚类的顺序规划

还记得“顺序敏感性”问题吗？研究人员发现，当语义相似的项目被归为一组 (高批次内相似度) ，且不同组之间有明显区别 (低批次间相似度) 时，模型的学习效果更好。

LEMoE 使用 K-means 聚类算法来组织编辑流。在应用编辑之前，它们按主题进行分组。这为模型创建了一个“课程表”，使其能够让某个专家专门负责特定主题 (例如，一个专家负责“地理更新”，另一个负责“流行文化更新”) 。

实验与结果

它真的有效吗？研究人员使用 LLaMA-2-7B 和 Mistral-7B 模型，将 LEMoE 与 ROME、MEMIT 和 GRACE 等顶尖基准方法进行了对比测试。

他们测量了三个关键指标:

可靠性 (Rel) : 模型学会编辑的内容了吗？
泛化性 (Gen) : 它能回答改写后的编辑内容吗？
局部性 (Loc) : 编辑是否破坏了不相关的知识？ (越高越好，1.00 为完美) 。

主要结果

Lifelong editing results table.

上表显示了 100 次连续编辑步骤后的结果。

LEMoE (底部加粗行) 实现了最佳平衡。
局部性: LEMoE 在局部性上获得了完美的 1.00 分。因为以前的专家被冻结了，它在物理上无法产生幻觉或破坏不相关的事实。
对比: 虽然像 GRACE 这样的方法具有很高的可靠性，但它们在泛化性上表现糟糕 (0.00) 。像 MEMIT 这样的方法得分尚可，但随着序列变长，难以维持性能。

扩展到 3,000 次编辑

“终身”编辑的真正考验是耐力。经过数千次更新后，模型的表现如何？

Scaling to 3K edits results.

在 3,000 次编辑时，差距进一步拉大。

GRACE 保持了可靠性，但泛化性基本上为零 (0.03) ——它实际上只是死记硬背了确切的句子，而没有理解任何内容。
MEMIT 的局部性下降到 0.47，这意味着它正在破坏模型现有的知识库。
LEMoE 保持了高可靠性 (0.70) 、不错的泛化性 (0.48) 和完美的局部性 (1.00) 。

结论

LEMoE 论文在使大语言模型适应不断变化的世界方面迈出了重要一步。通过摒弃“覆盖”知识的想法，转而采用模块化、增量式的方法，研究人员创建了一个既能记住过去又能学习未来的系统。

关键要点:

不要覆盖，要添加: 冻结旧专家可防止灾难性遗忘。
一致的路由: KV 锚点路由确保总能找到旧事实。
规划顺序: 按主题对编辑进行分组有助于模型更高效地学习。

随着大语言模型融入日常生活，在不进行全面重新训练的情况下廉价且安全地更新它们的能力将成为一项关键要求。LEMoE 为如何实现这一目标提供了一个稳健的蓝图。

引言#

当前编辑方法存在的问题#

可视化失败原因#

编辑顺序的影响#

解决方案: LEMoE#

1. 新模块插入#

2. KV 锚点路由#

3. 基于聚类的顺序规划#

实验与结果#

主要结果#

扩展到 3,000 次编辑#

结论#

引言