像 LLaMA 和 GPT 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。然而,它们有一个长期存在的缺陷: 它们的知识是静态的。如果一个模型是在 2020 年训练的,它会认为世界停滞在了那一年。当美国总统换届,或者有了新的科学发现时,模型仍然一无所知,经常会一本正经地胡说八道 (产生幻觉) ,给出过时的答案。
为每一个新事实从头开始重新训练这些庞大的模型,成本高昂且速度缓慢。于是, 模型编辑 (Model Editing) 应运而生——这是一种旨在无需全面重新训练即可在模型神经网络内通过“手术”更新特定事实的技术。这听起来像是一个完美的解决方案: 高效、有针对性且快速。
但是,正如论文 Model Editing Harms General Abilities of Large Language Models 所探讨的那样,天下没有免费的午餐。研究人员揭示了一个关键漏洞: 虽然模型编辑成功更新了事实,但它可能会悄无声息地破坏模型的通用推理能力。
在这篇文章中,我们将剖析这种情况发生的原因,可视化这种破坏,并探讨 RECT——作者提出的一种旨在挽救模型智能的新颖正则化方法。
模型编辑的希望与危机
模型编辑旨在将模型 \(f_\theta\) 的行为改变为新状态 \(f_{\theta_e}\),使其能正确回答特定查询 (如“美国总统是谁?”) ,同时——理论上——保持其他所有内容不变。
对这些方法的评估通常集中在三个指标上:
- 可靠性 (Reliability): 模型是否学会了新事实?
- 泛化性 (Generalization): 它能否回答关于新事实的重述版本?
- 局部性 (Locality): 它是否避免了改变无关的事实?
然而,研究人员认为这些指标是不够的。这就像只见树木,不见森林。如果只关注被编辑的知识,我们就会忽略模型的通用能力。

如上图 1 所示,模型可能成功学会了“乔·拜登”是总统 (由对勾标记) 。但请看右边的图表。编辑后,在问答 (QA) 、对话、命名实体识别 (NER) 和情感分析等任务上的性能显著下降。红色条柱 (编辑前) 很高;蓝色条柱 (编辑后) 显示出明显的退化。
核心问题在于 LLM 是紧密互联的系统。牵一发 (特定事实) 往往动全身 (通用推理能力) 。
调查副作用
为了了解这个问题的规模,作者进行了系统的压力测试。他们将四种流行的编辑方法——KN、MEND、ROME 和 MEMIT——应用于三种不同的 LLM (GPT-2 XL、LLaMA-1 和 LLaMA-2) 。
他们在不同的编辑配置下测试了这些模型,以模拟真实世界的使用场景:

- 单次编辑 (Single Editing): 一次改变一个事实。
- 顺序编辑 (Sequential Editing, 图 2b): 理想情况下,LLM 应该能够持续学习。此设置涉及一个接一个地进行多次编辑。
- 批量编辑 (Batch Editing, 图 2c): 同时更新数百或数千个事实。
通用智能的崩溃
结果令人触目惊心。当研究人员在通用任务——例如解决数学应用题 (GSM8K) 或总结文本 (SAMSum)——上测试编辑后的模型时,他们观察到性能出现了灾难性的下降。

图 3 展示了 顺序编辑 的影响。X 轴代表执行编辑的次数,Y 轴代表在各种任务上的性能 (彩色线条) 。
- 左图 (使用 KN 的 GPT-2 XL) : 仅通过单次编辑,使用知识神经元 (KN) 方法,几乎所有任务的性能都崩溃至接近零。这表明某些编辑方法对模型权重的破坏性极强。
- 右图 (使用 ROME 的 LLaMA-1) : ROME 方法相对稳定,但请注意下降趋势。随着对模型进行顺序编辑 (从 0 到 40 次编辑) ,推理能力 (棕色线) 和问答能力 (蓝色线) 稳步衰退。
这证实了假设: 当前的编辑算法难以在不牺牲模型基础智能的情况下提高事实准确性。
诊断: 为什么编辑会有害?
为什么教模型“埃菲尔铁塔在巴黎”会让它忘记如何总结对话?
研究人员认为,这种副作用源于过拟合 (overfitting) 。当编辑方法将新事实强行塞入参数时,它通常会过度地改变原始模型权重。该方法为了最小化特定事实的损失而“用力过猛”,从而在这个模型用于通用推理的精密权重矩阵中引入了噪声。
可视化权重破坏
为了证明这一点,作者分析了 权重相对变化 (\(\delta\))。该指标衡量更新矩阵 (\(\Delta W\)) 与原始权重矩阵 (\(W\)) 的差异程度。
\[ \delta = \left| \frac{\Delta W}{W} \right| \]如果 \(\delta\) 很高,说明相对于原始参数,编辑造成了巨大的变化。

图 5 展示了随着编辑次数增加 (从 ‘a’ 的 1 次编辑到 ’d’ 的 15 次编辑) ,权重变化的热力图。
- 观察: 更新权重是稀疏的 (大部分为空) ,但变化会累积。
- 趋势: 随着执行更多编辑 (从 a 到 d) ,热力图变得“更热” (更多红色/橙色) 。
这种权重扰动的累积扭曲了模型习得的表征。模型开始过拟合特定的编辑样本,实际上是以牺牲推理和逻辑所需的复杂模式为代价来“死记硬背”新事实。
解决方案: RECT (权重相对变化)
分析表明,并非更新矩阵 (\(\Delta W\)) 中的所有变化都是必要的。许多微小的、嘈杂的更新导致了过拟合,却并没有显著帮助模型记住事实。
为了解决这个问题,作者提出了一种名为 RECT 的正则化方法。
RECT 如何工作
RECT 背后的直觉很简单: 简单即是防止过拟合。 RECT 并不应用由 ROME 或 MEMIT 等方法生成的完整、嘈杂的更新矩阵,而是过滤更新以仅保留最重要的变化。
在标准编辑中,新权重 \(\overline{W}\) 计算如下:

其中 \(\Delta W\) 是由编辑算法计算出的更新。
RECT 引入了一个约束。它观察更新矩阵中每个元素的相对变化 (\(\delta\))。它假设具有最大相对变化的元素是“主要”编辑信息——即更新事实所需的核心逻辑。其余的则被视为噪声。
RECT 保留具有最高 \(\delta\) 的前 \(k\%\) 元素,将其余元素置为零。

这里,\(\Delta \overline{W}_{ij}\) 是正则化后的更新。如果变化处于前 \(k\%\),它保留。否则,它实际上变为零。
可视化修复

图 6 提供了一个清晰的矩阵比较:
- (a) 无正则化: 更新矩阵 \(\Delta W\) 充满了数值 (0.02, 0.6, 0.03 等) 。当加到原始权重上时,每一个参数都会发生轻微偏移。
- (b) RECT 正则化: RECT 识别出“重要”的更新 (以绿色高亮显示,例如 0.6, 0.8) 。它将微小的数值归零 (0.02 变为 0) 。得到的更新是稀疏且有针对性的。
通过防止模型进行成千上万次微小且不必要的调整,RECT 保护了原始预训练权重的完整性。
RECT 有效吗?实验结果
研究人员在两个方面评估了 RECT:
- 它还能起到编辑器的作用吗? (模型是否记住了事实?)
- 它能挽救通用能力吗? (模型是否仍然知道如何推理?)
1. 保持编辑性能
人们可能会担心“删除”部分更新矩阵会破坏编辑效果。然而,结果表明并非如此。

在图 7 中,我们看到了不同正则化策略的编辑性能 (可靠性、泛化性、局部性) :
- 灰色条柱: 无正则化 (标准 ROME/MEMIT) 。
- 红/粉/橙色条柱: 不同阈值下的 RECT (Top-20%, 40%, 60%, 80%) 。
关键发现: 与无正则化版本相比,RECT (特别是 Top-40% 或 Top-60% 设置) 保持了超过 94% 的可靠性和泛化性。在某些情况下 (局部性) ,它甚至提高了性能,因为它消除了可能触发无关事实的噪声。
2. 挽救通用能力
这是最关键的结果。RECT 能阻止推理能力的退化吗?

图 8 绘制了随着编辑次数增加 (X 轴) ,通用任务 (摘要、问答、情感分析) 的性能表现。
- 黑线 (无正则化) : 这代表标准编辑方法。注意随着编辑次数增加,它如何急剧下降。模型正在丧失其通用智能。
- 彩色线 (RECT) : RECT 的线条 (特别是 Top-20% 和 Top-60%) 保持得更加平坦。它们抵制了下降趋势。
例如,在 摘要 (a) 和 开放域问答 (b) 中,无正则化模型在约 10-15 次编辑后就崩溃了。而经 RECT 正则化的模型继续保持高水平表现。
通过简单地限制权重更新的复杂性,RECT 允许我们在注入新知识的同时,为 LLM 现有的能力提供一层保护盾。
结论
编辑大型语言模型的能力是其长期生存的先决条件;我们无法承受每次新闻变动都重新训练一个 700 亿参数的模型。然而,这就篇论文强调了一个被长期忽视的危险: 过度关注事实准确性可能会降低通用智能。
研究表明,目前的编辑方法在默认情况下会导致过拟合。它们破坏了基础模型精心调优的权重,导致一种“脑叶切除”般的效应,即模型知道新事实,但失去了对其进行推理的能力。
提出的解决方案 RECT 提供了一个出奇优雅的修复方法。通过过滤掉微小的权重更新并只关注最显著的相对变化,我们可以实现两全其美: 既有最新的知识,又有稳健的通用推理。这项工作是迈向“可信”模型编辑的关键一步,确保当我们的 AI 模型学习新事物时,它们不会忘记如何思考。
](https://deep-paper.org/en/paper/2401.04700/images/cover.png)