像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 是工程界的惊人壮举。它们可以写诗、用 Python 编程,还能总结历史。但它们有一个致命缺陷: 它们被冻结在时间里。一个在 2021 年训练的模型会认为乔·拜登是现任美国总统,但面对上周发生的事件它可能会无能为力。更糟糕的是,模型经常会产生幻觉,自信地断言错误的事实。
当模型弄错一个事实时,我们该如何修复它?重新训练整个模型——这需要耗资数百万美元并花费数月时间——对于纠正单个错误来说并不是一个可行的解决方案。这种困境催生了模型编辑 (Model Editing) 领域: 即在不重新训练的情况下,通过“手术”般的技术改变模型知识。
然而,该领域现有的研究存在一个“实用性”问题。大多数基准测试要求模型学习虚假事实 (例如,“埃菲尔铁塔在罗马”) 来测试其可塑性,而不是修复真实的错误。今天,我们将深入探讨一篇旨在解决这一问题的论文。我们将探索 FAME , 一个专注于现实世界事实性的基准测试,以及 SKEME , 一种利用缓存机制保持模型更新的新颖方法。
问题所在: 幻觉与过时知识
想象一下,你问一个 LLM: “谁是英国首相?”根据模型训练的时间,它可能会说是鲍里斯·约翰逊 (Boris Johnson) 、丽兹·特拉斯 (Liz Truss) 或里希·苏纳克 (Rishi Sunak) 。如果答案已经过时,模型就是在提供错误信息。
在法律或医学等关键领域,这些错误是不可接受的。我们需要一种方法来“编辑”模型。

如上图 1 所示,目标非常明确:
- 编辑前 (Pre-edit) : 模型回答错误 (例如,声称特朗普是总统) 。
- 编辑 (Edit) : 我们注入正确的知识 (拜登是总统) 。
- 编辑后 (Post-edit) : 模型回答正确,并且保持其回答其他问题 (如法国总统是谁) 的能力。
背景: 模型编辑的现状
在理解作者的贡献之前,我们需要对研究人员目前修复 LLM 的方式进行分类。通常有两大阵营:
- 参数修改方法 (Parameter-Modifying Methods,如 MEMIT, FT) : 这些方法将 LLM 的权重视为硬盘驱动器。它们使用梯度下降或超网络 (hyper-networks) 从物理上改变神经网络内部的数值,以“覆盖”特定的记忆。
- 参数保留方法 (Parameter-Preserving Methods,如 IKE, MeLLo) : 这些方法不对模型本身进行修改。它们使用外部存储器或检索系统 (如 RAG——检索增强生成) 在运行时为模型提供正确的上下文。
本文作者认为,以前用于测试这些方法的基准是存在缺陷的。像 CounterFact 或 ZsRE 这样的数据集使用的是“反事实 (counterfactuals) ”——即旨在查看模型能否改变,而不是是否应该改变的虚假数据。教模型“香蕉是蓝色的”在理论上很有趣,但在实际应用中却毫无用处。此外,这些数据集通常只测试简单的问答 (QA) 任务,忽略了对话或多跳推理等复杂场景。
为了解决这个问题,作者推出了 FAME 。
FAME: 面向现实的基准测试
FAME (FActual Multi-task model Editing) 是一个大规模数据集,旨在测试编辑方法在现实世界中的表现。与其前身不同,FAME 建立在实用性 (Practicality) 之上。
1. 现实世界的真相
FAME 包含 128,000 个源自 Wikidata 和 DBpedia 的真实数据项。研究人员收集了“三元组” (主语,关系,宾语) ——例如,* (美国,政府首脑,乔·拜登) *。他们对这些数据进行了严格过滤,以确保它们代表当前的、实际的事实,而非假设。
2. 多样的任务格式
真实用户不仅仅会问简单的问题。他们会进行对话,要求补全句子,或需要进行事实验证。FAME 测试跨多种任务的编辑性能:
- 单跳问答 (Single-hop QA) : “谁是总统?”
- 完形填空 (Cloze Tests) : “总统是 [MASK]。”
- 事实验证 (Fact Checking) : “判断正误: 特朗普是总统。”
- 会话对话 (Conversational Dialogue) : 引用了该事实的聊天记录。
3. 多跳推理 (Multi-Hop Reasoning)
这是对知识整合的终极测试。如果你教模型“美国总统是拜登”,而它已经知道“拜登的妻子是吉尔”,它是否能自动知道“谁是美国第一夫人”这个问题的答案?
这需要模型从 美国 \(\rightarrow\) 总统 \(\rightarrow\) 配偶 进行跳跃推理。

如图 11 所示,与 MQuAKE 等之前的基准相比,FAME 显著扩展了推理链的复杂性,测试了高达 5 跳的推理。
核心方法: SKEME
为了征服这一新的、高难度的基准测试,作者提出了 SKEME (Structured Knowledge retrieved by Exact Matching and reranking Editing,通过精确匹配检索和重排序编辑的结构化知识) 。
SKEME 属于“参数保留”阵营。它不尝试对 LLM 的神经元进行脑外科手术。相反,它给模型提供了一份动态的、最新的“参考表”。
SKEME 的灵感来自于计算机操作系统——特别是缓存 (Cache) 的概念。
SKEME 的架构

让我们分解图 2 中展示的工作流程:
实体提取 (Entity Extraction) : 当用户问,“谁是美国的总统?”,SKEME 首先识别关键主语。通过一个轻量级的提取过程,它将“美国”隔离为感兴趣的实体。这过滤掉了问题措辞中的噪音。
知识库检索 (缓存机制) : 这是 SKEME 的主要创新点。它维护一个本地结构化知识库 (即缓存) 。
- 快表与慢表: 类似于 CPU 拥有快速缓存和较慢的主存 (RAM) ,SKEME 首先在其本地缓存中查找。如果事实不在那里 (即“缓存未命中”) ,它会查询庞大的外部数据库 (Wikidata/DBpedia) ,检索事实,并更新本地缓存。
- 同步: 系统确保本地缓存与现实世界同步。如果总统换了,外部数据库更新,SKEME 就会将新事实拉入其本地缓存。
- 知识排序与利用 (Knowledge Rank and Utilization) : 一旦检索到相关事实 (三元组) ,SKEME 会按相关性对它们进行排序。然后它使用上下文学习 (In-Context Learning) 。 它构建一个提示词 (prompt) ,有效地告诉 LLM: “这是一些经过验证的信息: (美国,总统,乔·拜登) 。请使用此信息回答用户的问题。”
形式化编辑过程
从数学上讲,模型编辑试图将模型函数 \(f\) 更改为新函数 \(f'\)。

这个方程定义了目标:
- 如果输入 \(x_e\) 对应于我们要编辑的事实 (\(I\)) ,则输出新的目标 \(y_f\)。
- 如果输入依赖于该事实进行推理 (\(EX\),或扩展集合) ,则输出从新事实推导出的答案。
- 对于其他所有内容 (\(O\),或外部集合) ,保持模型的行为完全不变。
评估成功: SURE 指标
我们如何知道一次编辑是否“好”?有两个相互竞争的力量:
- 准确性 (EM) : 模型是否弄对了新事实?
- 局部性/性能下降 (Drawdown, DD) : 我们是否意外破坏了其他东西? (例如,我们更新了总统,但现在模型忘记了法国首都是哪里) 。
作者认为,这两者之间的平衡取决于应用场景。医疗机器人需要高准确性;创意写作机器人需要稳定性。他们引入了 SURE (Statistical and Unbiased Real-world Evaluation,统计且无偏的现实世界评估) 。

该指标允许用户调整参数 (\(\alpha\) 和 \(\beta\)) ,以根据具体需求权衡准确性与副作用。
实验与结果
研究人员将 SKEME 与 FT (微调) 、MEMIT (大规模编辑 Transformer 记忆) 和 MeLLo (另一种检索方法) 等流行方法进行了比较。
1. 处理时间与事实转换
对于“权重修改”方法 (如 MEMIT 或 FT) 来说,最难的事情之一是多次更新同一个事实。如果美国总统从奥巴马 \(\rightarrow\) 特朗普 \(\rightarrow\) 拜登,你必须反复覆盖相同的神经元。

图 3 展示了一个戏剧性的结果。随着对同一事实编辑次数的增加 (X 轴) ,参数修改方法 (MEMIT, FT) 的性能崩溃了。它们本质上“破坏”了模型的权重。而 SKEME (蓝色菱形) 保持了完美的准确性。因为它使用缓存,更新事实就像覆盖数据库中的文本条目一样简单。
2. 规模扩展: 大规模编辑
如果我们需要一次更新 10,000 个事实怎么办?

图 4 表明,随着被编辑事实的数量增长到 \(10^5\) (100,000 个事实) ,传统的编辑方法完全失效。它们在权重中存储新知识的能力是有限的。SKEME 无论规模大小都能保持高性能,因为它将记忆卸载到了检索系统中。
3. 泛化能力
SKEME 在多跳推理中也表现出了卓越的性能。因为它检索的是结构化事实 (例如,拜登是总统) ,LLM 可以利用其内部推理引擎推断出拜登的妻子是第一夫人。那些只是试图将答案“拜登”过拟合到问题“谁是总统?”的方法,往往无法支持这种下游推理。
结论
论文“FAME: Towards Factual Multi-Task Model Editing”提出了令人信服的观点,主张将模型编辑的重心从理论上的“神经元手术”转移到实用的、基于检索的系统上。
通过引入 FAME , 作者为社区提供了一个严格、现实的基准测试,暴露了当前权重编辑技术的脆弱性。通过 SKEME , 他们提供了一个稳健的解决方案: 将知识视为一个独立的、动态的层 (缓存) ,而不是试图将每一个新事实固化到模型冻结的权重中。
对于学生和研究人员来说,结论很明确: 虽然修改神经权重是一项迷人的科学探索,但检索增强策略目前提供了一条最实用、可扩展的路径,以实现能够跟上我们不断变化的世界的 LLM。
](https://deep-paper.org/en/paper/2410.10859/images/cover.png)