像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 常被比作现代百科全书。它们存储着关于世界的通过海量信息,从历史日期到科学常数,无所不包。但这个类比有一个致命的缺陷: 数字百科全书可以通过敲击几下键盘进行更新,而 LLM 却被冻结在时间里。

当首相换届了怎么办?如果模型在训练中学到了错误信息怎么办?更糟糕的是,如果它记住了需要清除的用户隐私数据怎么办?

传统的解决方案是重新训练或微调模型,但这在计算上既昂贵又缓慢。这就好比仅仅为了修正一本书里的一个错别字,就要重建整个图书馆。这催生了知识编辑 (Knowledge Editing) 领域——旨在通过外科手术般地修改模型内部的特定事实,而无需重新训练的技术。

然而,目前的方法往往像是钝器。它们要么松散地将新信息“粘贴”在旧信息上 (导致不稳定性) ,要么激进地重写神经权重 (导致不相关区域受损) 。

在这篇深度文章中,我们将探讨伦敦大学学院的研究人员提出的一种新方法: 定制化知识编辑 (Tailored Knowledge Editing, TailoredKE) 。 该方法利用模型可解释性——窥探 Transformer 的“大脑”内部——来执行精确、持久的动态编辑。

问题: 为什么编辑 LLM 如此困难

要理解为什么需要 TailoredKE,我们首先需要了解 LLM 如何存储知识,以及为什么现有的编辑方法举步维艰。

研究表明,Transformer 模型中的前馈网络 (MLP) 充当了键-值记忆 (Key-Value memories)

  • 键 (Key) 是主体 (例如,“iPod”) 。
  • 值 (Value) 是与之关联的属性或知识 (例如,“Apple”、“设备”、“音乐”) 。

当你问 LLM“谁发明了 iPod?”时,模型的内部层会检索这些属性来生成答案。

上下文学习的不稳定性

一种在不触及权重的情况下“编辑”模型的方法是上下文学习 (In-Context Learning, ICL) 。 这涉及在提示词中提供正确的信息,例如: “想象一下 iPod 是 Microsoft 发布的产品。谁发布了 iPod?”

虽然简单,但这种方法是肤浅的。研究人员分析了使用 ICL 时 token 的内部概率,发现模型并没有真正“忘记”旧知识;它只是暂时抑制了旧知识。

表 1: GPT-J token 表示中得分最高的 token。

如上方的 表 1 所示,研究人员追踪了试图将 iPod 的创造者从 Apple 改为 Microsoft 时 GPT-J 内部层中的“最高得分 token”。

  • 第一行 (原始模型) : 模型自信地将“iPod”与“Apple”和“Steve”联系起来。
  • 第二行 (ICL) : 即使被告知要想象是 Microsoft 创造了它,模型的内部分布也是混乱的。“Apple”仍然与“Microsoft”一起出现。编辑是不稳定的。

重锤痛击: 参数编辑与过度编辑

提示词的替代方案是参数编辑 (如 ROME 或 MEMIT 等方法) 。这些技术通过数学计算更新模型的权重矩阵,以硬编码新事实。

虽然有效,但这些方法存在过度编辑 (Over-Editing) 的问题。因为有效的概念通常共享相似的内部表示 (例如,“iPod”、“iPhone”和“iPad”在嵌入空间中数学上是相似的) ,激进地编辑“iPod”的参数可能会意外破坏关于“iPhone”的事实。

表 2: 评估显示编辑方法会导致过度编辑。

表 2 强调了这个问题。当编辑特定事实时,像 ROME 和 MEMIT 这样的方法会导致不相关但相似对象 (\(s_{others}\)) 发生约 10% 的概率偏移。这意味着修复一个 bug 可能会引入五个新 bug。

解决方案: 定制化知识编辑 (TailoredKE)

TailoredKE 论文的核心洞察是: 并非所有知识都存储在同一个地方 , 以及并非所有知识都应该通过单个句子来学习。

以前的方法倾向于编辑一组固定的层 (例如,无论内容如何,总是编辑第 13-17 层) 。但 TailoredKE 认为知识检索是动态的。“iPod 作为音乐播放器”的概念可能存在于浅层,而“iPod 作为 Apple 产品”可能存在于更深层。

该方法 TailoredKE 引入了一个三步流程来解决这个问题:

  1. 多形式知识 (Multi-Form Knowledge): 通过改写新事实来建立稳健的记忆。
  2. 动态编辑窗口 (Dynamic Editing Window): 利用可解释性来准确找到在哪里需要进行编辑。
  3. 定向注入 (Targeted Injection): 仅在那些特定层中更新权重。

图 1: 这概述了我们的方法 TailoredKE 的主要结构。

让我们详细分解这些步骤。

第 1 步: 多样化的知识形式 (“改写”策略)

人类不会通过死记硬背一个句子来学习复杂的概念。我们通过在不同的语境中看到一个概念的使用来学习。TailoredKE 模仿了这一点。

系统不仅仅向模型输入更新目标“太空针塔位于Palace”,而是自动生成该事实的多种变体。

表 3: 提示词描述及对应的回答。

表 3 所示,系统提示 LLM 自身来改写新知识。它创建了诸如“坐落于”、“矗立在”或“俯瞰着”等变体。

目标是计算一个共享的权重更新,同时满足所有这些变体。研究人员优化了以下目标函数:

目标权重优化的方程。

在这里,算法搜索一个权重矩阵 \(W_{target}\),该矩阵能最小化保留的原始知识 (第一个求和) 以及新的、改写后的知识 (第二个求和) 的误差。这防止了模型仅仅死记硬背特定的词序,并鼓励它学习底层的语义事实。

第 2 步: 精确选择 (“动态窗口”)

这是论文中最具创新性的部分。标准的编辑方法 (如 MEMIT) 对每个样本都将编辑应用于固定的层范围。但 Transformer 内部的信息流并不是静态的。

为了使编辑精确,TailoredKE 追踪主体丰富过程 (Subject Enrichment Process)

在 Transformer 中,第 \(l+1\) 层的 token \(X\) 的表示是前一状态、MLP 输出和 Attention 输出的总和:

Transformer 层输出的方程。

研究人员专注于 MLP 输出 (\(M_i^l\)),因为这被认为是检索事实知识的地方。

MLP 输出的方程。

通过将这些 MLP 层的输出投影到词汇空间,研究人员可以确切地看到模型何时“意识到”某个事实。

  • 在第 5 层,模型可能只知道“iPod”是一个名词。
  • 在第 10 层,它可能知道“iPod”是电子产品。
  • 在第 20 层,它可能开始大量回忆起“Apple”。

TailoredKE 为每个特定样本动态选择一个编辑窗口 。 它寻找原始对象 (例如,“Apple”) 的概率出现激增的层。

层选择的方程。

它计算所有层的概率 (\(Probs\)):

概率集的方程。

算法选择相关属性概率最高的层 (\(i\) 和 \(j\)) ,并将该范围定义为要编辑的“窗口”。通过仅触及那些正在主动回忆我们要更改的特定属性的层,该方法大幅减少了对其他概念的“过度编辑”附带损害。

实验结果

研究人员使用两个流行的模型: GPT-J (6B)LLaMA-2 (7B) , 将 TailoredKE 与 ROME、MEMIT 和 MEND 等最先进的基准方法进行了测试。

他们使用几个关键指标评估了该方法:

  1. 有效性 (Efficacy): 模型是否成功学会了新事实?
  2. 泛化性 (Generalization): 模型能否回答关于新事实但措辞不同的问题?
  3. 特异性 (Specificity): 编辑是否保留了不相关的知识 (比如关于 iPhone 的具体细节) ?

CounterFact 数据集上的表现

表 4 展示了主要的比较结果。

表 4: TailoredKE 在 COUNTERFACT 数据集上的表现。

结果令人瞩目:

  • 泛化性: TailoredKE 显著优于 ROME 和 MEMIT。在 GPT-J 上,它达到了 73.5% 的泛化性,而 MEMIT 为 64.1%。在 LLaMA-2 上,它达到了 91.0% 。 这证实了“改写”策略帮助模型真正理解了新事实,而不仅仅是记住一个句子。
  • 特异性: TailoredKE 保持了很高的特异性 (在 GPT-J 上为 74.5%) ,这意味着它比像 ROME (降至 49.1%) 这样激进的方法更不容易破坏不相关的知识。

大规模编辑的稳定性

知识编辑面临的最大挑战之一是大规模编辑 (Mass Editing) 。 编辑一个事实很容易;在不破坏模型的情况下编辑 10,000 个事实却很难。

研究人员进行了压力测试,执行了多达 10,000 次连续编辑。

图 2: 展示在不同知识编辑次数下比较的图表。

图 2 可视化了这种持久性。

  • 有效性 (左上) : 大多数方法在 100-1,000 次编辑后崩溃。TailoredKE (紫线) 及其变体保持较高有效性的时间更长。
  • 特异性 (左下) : 这是最显著的胜利。随着编辑数量的增加,TailoredKE 保持了高度的特异性,而其他方法导致模型知识流失,修改了不该修改的内容。

可移植性的力量

最后,团队引入了一个名为可移植性 (Portability) 的指标。这衡量的是推理能力。如果我们编辑模型让它相信“太空针塔位于巴黎”,模型能否有效地推理出“太空针塔在法国”?

表 6: 考虑可移植性问题时在 ZsRE 和 COUNTERFACT 数据集上的结果。

表 6 显示 TailoredKE 在可移植性方面占据主导地位 (在 ZsRE 上为 67.91 , 而 MEMIT 为 52.70 )。

该表中的消融研究 (比较 TailoredKE_RephraseTailoredKE_Targeted) 揭示了一个有趣的动态:

  • 改写 (Rephrase) 策略是可移植性泛化性的主要驱动力。
  • 目标层 (Targeted Layer) 策略是特异性 (防止过度编辑) 的主要驱动力。

两者结合,构成了一个完整的系统。

结论与启示

这篇“基于可解释性的定制化 Transformer 知识编辑”论文为维护大型语言模型迈出了成熟的一步。通过摒弃“一刀切”的编辑层和死记硬背,作者创造了一种尊重 Transformer 内部机制的方法。

主要收获:

  1. 不要只是覆盖;要教导。 使用多样化的改写句子为新事实创建了稳健、多维度的记忆痕迹。
  2. 位置很重要。 知识并非均匀存储。利用可解释性找到特定事实存在的位置,可以进行外科手术式的编辑,从而保护模型的其余部分。
  3. 稳定性是关键。 随着我们迈向需要每日更新的 LLM (例如新闻机器人、个性化助手) ,能够处理数千次编辑而不退化的方法至关重要。

尽管挑战依然存在——例如处理模型从未见过的全新实体——但 TailoredKE 为未来动态、可更新的知识库提供了一个充满希望的蓝图。我们无需为了每次修正都重新训练庞大的模型,现在只需执行一次定制的外科手术即可。