LLM 的手术刀级修复——Tailored Knowledge Editing 如何在不破坏模型的情况下修正事实

像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 常被比作现代百科全书。它们存储着关于世界的通过海量信息，从历史日期到科学常数，无所不包。但这个类比有一个致命的缺陷: 数字百科全书可以通过敲击几下键盘进行更新，而 LLM 却被冻结在时间里。

当首相换届了怎么办？如果模型在训练中学到了错误信息怎么办？更糟糕的是，如果它记住了需要清除的用户隐私数据怎么办？

传统的解决方案是重新训练或微调模型，但这在计算上既昂贵又缓慢。这就好比仅仅为了修正一本书里的一个错别字，就要重建整个图书馆。这催生了知识编辑 (Knowledge Editing) 领域——旨在通过外科手术般地修改模型内部的特定事实，而无需重新训练的技术。

然而，目前的方法往往像是钝器。它们要么松散地将新信息“粘贴”在旧信息上 (导致不稳定性) ，要么激进地重写神经权重 (导致不相关区域受损) 。

在这篇深度文章中，我们将探讨伦敦大学学院的研究人员提出的一种新方法: 定制化知识编辑 (Tailored Knowledge Editing, TailoredKE) 。该方法利用模型可解释性——窥探 Transformer 的“大脑”内部——来执行精确、持久的动态编辑。

问题: 为什么编辑 LLM 如此困难

要理解为什么需要 TailoredKE，我们首先需要了解 LLM 如何存储知识，以及为什么现有的编辑方法举步维艰。

研究表明，Transformer 模型中的前馈网络 (MLP) 充当了键-值记忆 (Key-Value memories) 。

键 (Key) 是主体 (例如，“iPod”) 。
值 (Value) 是与之关联的属性或知识 (例如，“Apple”、“设备”、“音乐”) 。

当你问 LLM“谁发明了 iPod？”时，模型的内部层会检索这些属性来生成答案。

上下文学习的不稳定性

一种在不触及权重的情况下“编辑”模型的方法是上下文学习 (In-Context Learning, ICL) 。这涉及在提示词中提供正确的信息，例如: “想象一下 iPod 是 Microsoft 发布的产品。谁发布了 iPod？”

虽然简单，但这种方法是肤浅的。研究人员分析了使用 ICL 时 token 的内部概率，发现模型并没有真正“忘记”旧知识；它只是暂时抑制了旧知识。

表 1: GPT-J token 表示中得分最高的 token。

如上方的 表 1 所示，研究人员追踪了试图将 iPod 的创造者从 Apple 改为 Microsoft 时 GPT-J 内部层中的“最高得分 token”。

第一行 (原始模型) : 模型自信地将“iPod”与“Apple”和“Steve”联系起来。
第二行 (ICL) : 即使被告知要想象是 Microsoft 创造了它，模型的内部分布也是混乱的。“Apple”仍然与“Microsoft”一起出现。编辑是不稳定的。

重锤痛击: 参数编辑与过度编辑

提示词的替代方案是参数编辑 (如 ROME 或 MEMIT 等方法) 。这些技术通过数学计算更新模型的权重矩阵，以硬编码新事实。

虽然有效，但这些方法存在过度编辑 (Over-Editing) 的问题。因为有效的概念通常共享相似的内部表示 (例如，“iPod”、“iPhone”和“iPad”在嵌入空间中数学上是相似的) ，激进地编辑“iPod”的参数可能会意外破坏关于“iPhone”的事实。

表 2: 评估显示编辑方法会导致过度编辑。

表 2 强调了这个问题。当编辑特定事实时，像 ROME 和 MEMIT 这样的方法会导致不相关但相似对象 (\(s_{others}\)) 发生约 10% 的概率偏移。这意味着修复一个 bug 可能会引入五个新 bug。

解决方案: 定制化知识编辑 (TailoredKE)

TailoredKE 论文的核心洞察是: 并非所有知识都存储在同一个地方 , 以及并非所有知识都应该通过单个句子来学习。

以前的方法倾向于编辑一组固定的层 (例如，无论内容如何，总是编辑第 13-17 层) 。但 TailoredKE 认为知识检索是动态的。“iPod 作为音乐播放器”的概念可能存在于浅层，而“iPod 作为 Apple 产品”可能存在于更深层。

该方法 TailoredKE 引入了一个三步流程来解决这个问题:

多形式知识 (Multi-Form Knowledge): 通过改写新事实来建立稳健的记忆。
动态编辑窗口 (Dynamic Editing Window): 利用可解释性来准确找到在哪里需要进行编辑。
定向注入 (Targeted Injection): 仅在那些特定层中更新权重。

图 1: 这概述了我们的方法 TailoredKE 的主要结构。

让我们详细分解这些步骤。

第 1 步: 多样化的知识形式 (“改写”策略)

人类不会通过死记硬背一个句子来学习复杂的概念。我们通过在不同的语境中看到一个概念的使用来学习。TailoredKE 模仿了这一点。

系统不仅仅向模型输入更新目标“太空针塔位于Palace”，而是自动生成该事实的多种变体。

表 3: 提示词描述及对应的回答。

如 表 3 所示，系统提示 LLM 自身来改写新知识。它创建了诸如“坐落于”、“矗立在”或“俯瞰着”等变体。

目标是计算一个共享的权重更新，同时满足所有这些变体。研究人员优化了以下目标函数:

目标权重优化的方程。

在这里，算法搜索一个权重矩阵 \(W_{target}\)，该矩阵能最小化保留的原始知识 (第一个求和) 以及新的、改写后的知识 (第二个求和) 的误差。这防止了模型仅仅死记硬背特定的词序，并鼓励它学习底层的语义事实。

第 2 步: 精确选择 (“动态窗口”)

这是论文中最具创新性的部分。标准的编辑方法 (如 MEMIT) 对每个样本都将编辑应用于固定的层范围。但 Transformer 内部的信息流并不是静态的。

为了使编辑精确，TailoredKE 追踪主体丰富过程 (Subject Enrichment Process) 。

在 Transformer 中，第 \(l+1\) 层的 token \(X\) 的表示是前一状态、MLP 输出和 Attention 输出的总和:

Transformer 层输出的方程。

研究人员专注于 MLP 输出 (\(M_i^l\))，因为这被认为是检索事实知识的地方。

MLP 输出的方程。

通过将这些 MLP 层的输出投影到词汇空间，研究人员可以确切地看到模型何时“意识到”某个事实。

在第 5 层，模型可能只知道“iPod”是一个名词。
在第 10 层，它可能知道“iPod”是电子产品。
在第 20 层，它可能开始大量回忆起“Apple”。

TailoredKE 为每个特定样本动态选择一个编辑窗口 。它寻找原始对象 (例如，“Apple”) 的概率出现激增的层。

层选择的方程。

它计算所有层的概率 (\(Probs\)):

概率集的方程。

算法选择相关属性概率最高的层 (\(i\) 和 \(j\)) ，并将该范围定义为要编辑的“窗口”。通过仅触及那些正在主动回忆我们要更改的特定属性的层，该方法大幅减少了对其他概念的“过度编辑”附带损害。

实验结果

研究人员使用两个流行的模型: GPT-J (6B) 和 LLaMA-2 (7B) , 将 TailoredKE 与 ROME、MEMIT 和 MEND 等最先进的基准方法进行了测试。

他们使用几个关键指标评估了该方法:

有效性 (Efficacy): 模型是否成功学会了新事实？
泛化性 (Generalization): 模型能否回答关于新事实但措辞不同的问题？
特异性 (Specificity): 编辑是否保留了不相关的知识 (比如关于 iPhone 的具体细节) ？

CounterFact 数据集上的表现

表 4 展示了主要的比较结果。

表 4: TailoredKE 在 COUNTERFACT 数据集上的表现。

结果令人瞩目:

泛化性: TailoredKE 显著优于 ROME 和 MEMIT。在 GPT-J 上，它达到了 73.5% 的泛化性，而 MEMIT 为 64.1%。在 LLaMA-2 上，它达到了 91.0% 。这证实了“改写”策略帮助模型真正理解了新事实，而不仅仅是记住一个句子。
特异性: TailoredKE 保持了很高的特异性 (在 GPT-J 上为 74.5%) ，这意味着它比像 ROME (降至 49.1%) 这样激进的方法更不容易破坏不相关的知识。

大规模编辑的稳定性

知识编辑面临的最大挑战之一是大规模编辑 (Mass Editing) 。编辑一个事实很容易；在不破坏模型的情况下编辑 10,000 个事实却很难。

研究人员进行了压力测试，执行了多达 10,000 次连续编辑。

图 2: 展示在不同知识编辑次数下比较的图表。

图 2 可视化了这种持久性。

有效性 (左上) : 大多数方法在 100-1,000 次编辑后崩溃。TailoredKE (紫线) 及其变体保持较高有效性的时间更长。
特异性 (左下) : 这是最显著的胜利。随着编辑数量的增加，TailoredKE 保持了高度的特异性，而其他方法导致模型知识流失，修改了不该修改的内容。

可移植性的力量

最后，团队引入了一个名为可移植性 (Portability) 的指标。这衡量的是推理能力。如果我们编辑模型让它相信“太空针塔位于巴黎”，模型能否有效地推理出“太空针塔在法国”？

表 6: 考虑可移植性问题时在 ZsRE 和 COUNTERFACT 数据集上的结果。

表 6 显示 TailoredKE 在可移植性方面占据主导地位 (在 ZsRE 上为 67.91 , 而 MEMIT 为 52.70 )。

该表中的消融研究 (比较 TailoredKE_Rephrase 与 TailoredKE_Targeted) 揭示了一个有趣的动态:

改写 (Rephrase) 策略是可移植性和泛化性的主要驱动力。
目标层 (Targeted Layer) 策略是特异性 (防止过度编辑) 的主要驱动力。

两者结合，构成了一个完整的系统。

结论与启示

这篇“基于可解释性的定制化 Transformer 知识编辑”论文为维护大型语言模型迈出了成熟的一步。通过摒弃“一刀切”的编辑层和死记硬背，作者创造了一种尊重 Transformer 内部机制的方法。

主要收获:

不要只是覆盖；要教导。 使用多样化的改写句子为新事实创建了稳健、多维度的记忆痕迹。
位置很重要。 知识并非均匀存储。利用可解释性找到特定事实存在的位置，可以进行外科手术式的编辑，从而保护模型的其余部分。
稳定性是关键。 随着我们迈向需要每日更新的 LLM (例如新闻机器人、个性化助手) ，能够处理数千次编辑而不退化的方法至关重要。

尽管挑战依然存在——例如处理模型从未见过的全新实体——但 TailoredKE 为未来动态、可更新的知识库提供了一个充满希望的蓝图。我们无需为了每次修正都重新训练庞大的模型，现在只需执行一次定制的外科手术即可。

问题: 为什么编辑 LLM 如此困难#

上下文学习的不稳定性#

重锤痛击: 参数编辑与过度编辑#

解决方案: 定制化知识编辑 (TailoredKE)#

第 1 步: 多样化的知识形式 (“改写”策略)#

第 2 步: 精确选择 (“动态窗口”)#

实验结果#

CounterFact 数据集上的表现#

大规模编辑的稳定性#

可移植性的力量#

结论与启示#