修正事实：深入探讨 FAME 和 SKEME 以实现实用的 LLM 编辑

像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 是工程界的惊人壮举。它们可以写诗、用 Python 编程，还能总结历史。但它们有一个致命缺陷: 它们被冻结在时间里。一个在 2021 年训练的模型会认为乔·拜登是现任美国总统，但面对上周发生的事件它可能会无能为力。更糟糕的是，模型经常会产生幻觉，自信地断言错误的事实。

当模型弄错一个事实时，我们该如何修复它？重新训练整个模型——这需要耗资数百万美元并花费数月时间——对于纠正单个错误来说并不是一个可行的解决方案。这种困境催生了模型编辑 (Model Editing) 领域: 即在不重新训练的情况下，通过“手术”般的技术改变模型知识。

然而，该领域现有的研究存在一个“实用性”问题。大多数基准测试要求模型学习虚假事实 (例如，“埃菲尔铁塔在罗马”) 来测试其可塑性，而不是修复真实的错误。今天，我们将深入探讨一篇旨在解决这一问题的论文。我们将探索 FAME , 一个专注于现实世界事实性的基准测试，以及 SKEME , 一种利用缓存机制保持模型更新的新颖方法。

问题所在: 幻觉与过时知识

想象一下，你问一个 LLM: “谁是英国首相？”根据模型训练的时间，它可能会说是鲍里斯·约翰逊 (Boris Johnson) 、丽兹·特拉斯 (Liz Truss) 或里希·苏纳克 (Rishi Sunak) 。如果答案已经过时，模型就是在提供错误信息。

在法律或医学等关键领域，这些错误是不可接受的。我们需要一种方法来“编辑”模型。

图 1: FAME 示例。LLM 可能会随着时间推移产生事实性错误，这可以通过模型编辑来纠正。之前的据集使用的是伪造数据，而 FAME 利用现实世界的数据来提高 LLM 在实际使用中的性能。

如上图 1 所示，目标非常明确:

编辑前 (Pre-edit) : 模型回答错误 (例如，声称特朗普是总统) 。
编辑 (Edit) : 我们注入正确的知识 (拜登是总统) 。
编辑后 (Post-edit) : 模型回答正确，并且保持其回答其他问题 (如法国总统是谁) 的能力。

背景: 模型编辑的现状

在理解作者的贡献之前，我们需要对研究人员目前修复 LLM 的方式进行分类。通常有两大阵营:

参数修改方法 (Parameter-Modifying Methods，如 MEMIT, FT) : 这些方法将 LLM 的权重视为硬盘驱动器。它们使用梯度下降或超网络 (hyper-networks) 从物理上改变神经网络内部的数值，以“覆盖”特定的记忆。
参数保留方法 (Parameter-Preserving Methods，如 IKE, MeLLo) : 这些方法不对模型本身进行修改。它们使用外部存储器或检索系统 (如 RAG——检索增强生成) 在运行时为模型提供正确的上下文。

本文作者认为，以前用于测试这些方法的基准是存在缺陷的。像 CounterFact 或 ZsRE 这样的数据集使用的是“反事实 (counterfactuals) ”——即旨在查看模型能否改变，而不是是否应该改变的虚假数据。教模型“香蕉是蓝色的”在理论上很有趣，但在实际应用中却毫无用处。此外，这些数据集通常只测试简单的问答 (QA) 任务，忽略了对话或多跳推理等复杂场景。

为了解决这个问题，作者推出了 FAME 。

FAME: 面向现实的基准测试

FAME (FActual Multi-task model Editing) 是一个大规模数据集，旨在测试编辑方法在现实世界中的表现。与其前身不同，FAME 建立在实用性 (Practicality) 之上。

1. 现实世界的真相

FAME 包含 128,000 个源自 Wikidata 和 DBpedia 的真实数据项。研究人员收集了“三元组” (主语，关系，宾语) ——例如，* (美国，政府首脑，乔·拜登) *。他们对这些数据进行了严格过滤，以确保它们代表当前的、实际的事实，而非假设。

2. 多样的任务格式

真实用户不仅仅会问简单的问题。他们会进行对话，要求补全句子，或需要进行事实验证。FAME 测试跨多种任务的编辑性能:

单跳问答 (Single-hop QA) : “谁是总统？”
完形填空 (Cloze Tests) : “总统是 [MASK]。”
事实验证 (Fact Checking) : “判断正误: 特朗普是总统。”
会话对话 (Conversational Dialogue) : 引用了该事实的聊天记录。

3. 多跳推理 (Multi-Hop Reasoning)

这是对知识整合的终极测试。如果你教模型“美国总统是拜登”，而它已经知道“拜登的妻子是吉尔”，它是否能自动知道“谁是美国第一夫人”这个问题的答案？

这需要模型从美国 \(\rightarrow\) 总统 \(\rightarrow\) 配偶进行跳跃推理。

图 11: FAME 和 MQuAKE 中多跳数据的比较。图表的纵轴代表关系组合的数量。FAME 包含了更多的组合，包括 5 跳问题，有效地展示了我们数据集增强的多样性。

如图 11 所示，与 MQuAKE 等之前的基准相比，FAME 显著扩展了推理链的复杂性，测试了高达 5 跳的推理。

核心方法: SKEME

为了征服这一新的、高难度的基准测试，作者提出了 SKEME (Structured Knowledge retrieved by Exact Matching and reranking Editing，通过精确匹配检索和重排序编辑的结构化知识) 。

SKEME 属于“参数保留”阵营。它不尝试对 LLM 的神经元进行脑外科手术。相反，它给模型提供了一份动态的、最新的“参考表”。

SKEME 的灵感来自于计算机操作系统——特别是缓存 (Cache) 的概念。

SKEME 的架构

图 2: SKEME 概览。SKEME 首先从问题中提取关键实体。随后，它在知识库中检索与实体相关的事实。然后对适用的知识项进行排序，并利用上下文学习来修改模型的输出。此外，我们从外部数据库和现实世界更新知识，以确保本地知识库反映现实世界的变化。

让我们分解图 2 中展示的工作流程:

实体提取 (Entity Extraction) : 当用户问，“谁是美国的总统？”，SKEME 首先识别关键主语。通过一个轻量级的提取过程，它将“美国”隔离为感兴趣的实体。这过滤掉了问题措辞中的噪音。
知识库检索 (缓存机制) : 这是 SKEME 的主要创新点。它维护一个本地结构化知识库 (即缓存) 。

快表与慢表: 类似于 CPU 拥有快速缓存和较慢的主存 (RAM) ，SKEME 首先在其本地缓存中查找。如果事实不在那里 (即“缓存未命中”) ，它会查询庞大的外部数据库 (Wikidata/DBpedia) ，检索事实，并更新本地缓存。
同步: 系统确保本地缓存与现实世界同步。如果总统换了，外部数据库更新，SKEME 就会将新事实拉入其本地缓存。

知识排序与利用 (Knowledge Rank and Utilization) : 一旦检索到相关事实 (三元组) ，SKEME 会按相关性对它们进行排序。然后它使用上下文学习 (In-Context Learning) 。它构建一个提示词 (prompt) ，有效地告诉 LLM: “这是一些经过验证的信息: (美国，总统，乔·拜登) 。请使用此信息回答用户的问题。”

形式化编辑过程

从数学上讲，模型编辑试图将模型函数 \(f\) 更改为新函数 \(f'\)。

描述基于输入 x 和输出 y 的模型编辑函数 f prime 的方程

这个方程定义了目标:

如果输入 \(x_e\) 对应于我们要编辑的事实 (\(I\)) ，则输出新的目标 \(y_f\)。
如果输入依赖于该事实进行推理 (\(EX\)，或扩展集合) ，则输出从新事实推导出的答案。
对于其他所有内容 (\(O\)，或外部集合) ，保持模型的行为完全不变。

评估成功: SURE 指标

我们如何知道一次编辑是否“好”？有两个相互竞争的力量:

准确性 (EM) : 模型是否弄对了新事实？
局部性/性能下降 (Drawdown, DD) : 我们是否意外破坏了其他东西？ (例如，我们更新了总统，但现在模型忘记了法国首都是哪里) 。

作者认为，这两者之间的平衡取决于应用场景。医疗机器人需要高准确性；创意写作机器人需要稳定性。他们引入了 SURE (Statistical and Unbiased Real-world Evaluation，统计且无偏的现实世界评估) 。

SURE 指标方程: SURE = a * EM^alpha - b * DD^beta

该指标允许用户调整参数 (\(\alpha\) 和 \(\beta\)) ，以根据具体需求权衡准确性与副作用。

实验与结果

研究人员将 SKEME 与 FT (微调) 、MEMIT (大规模编辑 Transformer 记忆) 和 MeLLo (另一种检索方法) 等流行方法进行了比较。

1. 处理时间与事实转换

对于“权重修改”方法 (如 MEMIT 或 FT) 来说，最难的事情之一是多次更新同一个事实。如果美国总统从奥巴马 \(\rightarrow\) 特朗普 \(\rightarrow\) 拜登，你必须反复覆盖相同的神经元。

图 3: RQ1 的结果。X 轴表示对同一事实的编辑次数。

图 3 展示了一个戏剧性的结果。随着对同一事实编辑次数的增加 (X 轴) ，参数修改方法 (MEMIT, FT) 的性能崩溃了。它们本质上“破坏”了模型的权重。而 SKEME (蓝色菱形) 保持了完美的准确性。因为它使用缓存，更新事实就像覆盖数据库中的文本条目一样简单。

2. 规模扩展: 大规模编辑

如果我们需要一次更新 10,000 个事实怎么办？

图 4: RQ3 的结果。X 轴表示被编辑事实的数量。

图 4 表明，随着被编辑事实的数量增长到 \(10^5\) (100,000 个事实) ，传统的编辑方法完全失效。它们在权重中存储新知识的能力是有限的。SKEME 无论规模大小都能保持高性能，因为它将记忆卸载到了检索系统中。

3. 泛化能力

SKEME 在多跳推理中也表现出了卓越的性能。因为它检索的是结构化事实 (例如，拜登是总统) ，LLM 可以利用其内部推理引擎推断出拜登的妻子是第一夫人。那些只是试图将答案“拜登”过拟合到问题“谁是总统？”的方法，往往无法支持这种下游推理。

结论

论文“FAME: Towards Factual Multi-Task Model Editing”提出了令人信服的观点，主张将模型编辑的重心从理论上的“神经元手术”转移到实用的、基于检索的系统上。

通过引入 FAME , 作者为社区提供了一个严格、现实的基准测试，暴露了当前权重编辑技术的脆弱性。通过 SKEME , 他们提供了一个稳健的解决方案: 将知识视为一个独立的、动态的层 (缓存) ，而不是试图将每一个新事实固化到模型冻结的权重中。

对于学生和研究人员来说，结论很明确: 虽然修改神经权重是一项迷人的科学探索，但检索增强策略目前提供了一条最实用、可扩展的路径，以实现能够跟上我们不断变化的世界的 LLM。

问题所在: 幻觉与过时知识#

背景: 模型编辑的现状#

FAME: 面向现实的基准测试#

1. 现实世界的真相#

2. 多样的任务格式#

3. 多跳推理 (Multi-Hop Reasoning)#

核心方法: SKEME#

SKEME 的架构#

形式化编辑过程#

评估成功: SURE 指标#

实验与结果#

1. 处理时间与事实转换#

2. 规模扩展: 大规模编辑#

3. 泛化能力#

结论#