AI 的脆弱记忆：为什么编辑 LLM 比看起来更难

想象一下，你正在培训一名新员工。你告诉他们: “项目经理不再是 Alice 了，现在是 Bob。”人类员工会立即更新他们的心理模型。他们不会在午休时意外地称呼 Alice 为经理，也不会在你稍微换个说法问“谁是项目负责人？”时感到困惑。

现在，考虑一下大型语言模型 (LLM) 。我们通常将它们视为在海量数据集上训练而成的静态信息仓库。但事实是会改变的。首相会辞职，公司会更名，科学理论会演进。为每一个微小的更新重新训练整个包含数十亿参数的模型，在计算上是不可能的。

这就引出了模型编辑 (Model Editing) ——一种旨在不重新训练模型的情况下，像手术刀般精准修改模型中特定“记忆”的技术。它承诺能够像科幻小说一样，将新事实“上传”到大脑中。

然而，来自上海交通大学和百川智能的研究人员最近发表了一篇题为 《On the Robustness of Editing Large Language Models》 (关于编辑大型语言模型的鲁棒性) 的论文，表明我们可能高兴得太早了。他们的广泛研究表明，虽然我们可以在实验室环境中成功“编辑”一个事实，但这些编辑在现实世界中却极其脆弱。

在这篇深度文章中，我们将探讨为什么经过编辑的 LLM 难以保持一致性，想要“破坏”一个编辑有多容易，以及为什么越流行的知识越难被改变。

交际型 AI 的梦想

在观察事情是如何崩溃之前，我们先来理解我们试图构建什么。我们正迈向交际型 AI (Communicative AI) ——这些智能体不仅仅回答孤立的问题，还能进行多轮互动，模拟人类行为，并保持一致的人设。

如果一个 AI 充当客服代理或个人助理，它依赖于“知识记忆”。模型编辑方法 (如 ROME 或 MEMIT) 允许开发者高效地定制这种记忆。

但这正是研究人员发现的核心问题: 鲁棒性 (Robustness) 。

在标准基准测试中，如果你提示模型“英国首相是……”，而它能用新名字补全句子，那么这个编辑方法就被认为是成功的。但现实中的用户不会用基准测试的语言说话。他们会问复杂的问题，会质疑答案，还会提供上下文。

图1: 我们工作的概览。上半部分展示了对目标知识的编辑成功 (第3节) 。下半部分展示了我们在实际使用中对编辑后模型的研究。左侧展示了编辑后的 LLM 作为交际型 AI 的风险 (第4节) ，右侧展示了我们针对编辑的“攻击” (第5节) 。

如图 1 所示，研究人员着手回答三个关键的研究问题 (RQ) :

RQ1: 编辑后的 LLM 在现实对话中能表现出一致性吗？
RQ2: 改写或复杂的提示词会导致模型恢复到旧知识吗？
RQ3: 知识的哪些内在特征使其更难被编辑？

RQ1: 一致性测试

这篇论文的第一个主要贡献是将评估从真空环境移到了对话中。作者假设 LLM 中的知识并非存储在孤立的盒子里，而是相互交叉的。

他们用数学公式定义了这个问题:

\[ \forall k _ { 1 } = ( s , r , o o ^ { \prime } ) , \exists k _ { 2 } , S ( k _ { 1 } ) \cap S ( k _ { 2 } ) \neq \emptyset . \]

代表知识交集的方程

简单来说: 如果你编辑了知识 \(k_1\) (例如，“《头号书迷》(Misery) 的作者是理查德·道金斯”——这是一个反事实编辑) ，那么必然存在其他与它有交集的知识 \(k_2\) (例如，关于理查德·道金斯或《头号书迷》的一般事实) 。

聊天实验

为了测试这一点，研究人员设计了一个有趣的实验。他们使用 GPT-4 扮演“用户”的角色，并指示它与经过编辑的 Llama-2 模型聊天。用户 (GPT-4) 的目标是在不直接给出答案的情况下随意探究该话题，刺激相关知识的交集。

结果令人担忧。

图2: 编辑后的交际型 AI。上半部分展示了混淆和幻觉的比例。下半部分展示了一个出现知识逆转的案例。

如图 2 所示，编辑后的模型经常崩溃。

混淆 (38% 逆转) : 模型最初会给出新的 (编辑后的) 答案，但随着对话的继续，它会自相矛盾并恢复到旧的 (原始) 答案。
幻觉 (78%) : 当模型在原始权重和编辑注入的知识之间感到困惑时，它开始胡编乱造。例如，声称一个真实的人是虚构角色，以解决内在冲突。

仔细观察图 2 中的聊天记录。模型成功接受了理查德·道金斯写了《头号书迷》这一编辑。但是当用户询问道金斯的实际职业 (生物学家) 时，模型检索到了那个正确的“邻居”知识。突然间，模型意识到生物学家大概率不会写恐怖小说，于是它道歉并恢复到了原始事实，即斯蒂芬·金写了《头号书迷》。

编辑并不是永久性的覆盖；它只是一个脆弱的面具，一旦对话深入就会滑落。

RQ2: 攻击编辑

理想情况下，无论你如何提问，经过编辑的事实都应该是稳健的。如果你知道“巴黎在法国”，无论我问“巴黎在哪里？”还是“巴黎市位于哪个国家？”，你都应该知道。

研究人员开发了一个攻击性提示词的“武器库”，以观察这些编辑究竟有多脆弱。他们针对这些变体测试了几种编辑方法 (ROME、MEMIT、IKE 等) 。

攻击方法

上下文攻击 (Context Attacks) : 模型在回答问题前不仅接收简单的问题，还被喂入一段文本。

*相关上下文: * 主体的维基百科简介。
*噪声上下文: * 来自其他主题的随机文本。
*模拟对话: * 将问题嵌入到伪造的聊天记录中。

改写攻击 (Rephrasing Attacks) :

*完形填空 (Cloze) : * 填空式问题 (例如，“这本书由 [空白] 撰写，非常轰动……”) 。
*指代消解 (Reference Resolution) : * 使用代词如“他”或“它”代替实体名称。

质疑 (Doubting) :

用户明确提问: “你确定吗？我以为是 [原始答案]。”

结果: 系统性失败

结果非常鲜明。虽然像 ROME 和 MEMIT 这样的方法在标准基准测试 (直接提示) 中取得了近乎完美的分数，但在攻击下，它们的表现崩溃了。

上下文很重要: 仅仅添加一段相关的维基百科段落就会导致模型恢复到原始训练数据。这个“上下文”触发了强大的原始关联，而编辑未能完全抑制这些关联。
“完形填空”漏洞: 将问题改写为填空句可以显著绕过编辑机制。
指代消解: 如果你用“他”或“它”而不是名字来指代主体，编辑机制 (通常依赖于定位特定的主体 token) 往往无法触发。

也许最像人类的失败是对质疑的反应。当提示词质疑编辑后的事实时 (例如，“真的吗？我以为答案是 X”) ，模型几乎立即投降，道歉并提供原始的、未编辑的答案。

这证实了该领域许多人的怀疑: 模型编辑并不会“擦除”旧知识；它只是抑制了它。 在压力或复杂的措辞下，原始权重会压倒编辑。

RQ3: 流行度的诅咒

为什么有些事实比其他事实更难编辑？研究人员探索了知识的内在特征——特别是流行度 (Popularity) 。

他们假设，一个事实在训练数据中越“流行”，就越难被覆盖。他们通过三种方式衡量流行度:

频率 (Frequency) : 主体出现的频率 (例如，每月的维基百科浏览量) 。
连接度 (Connection) : 实体在知识图谱中拥有的边的数量 (它与其他概念的连接程度) 。
共现 (Co-occurrence) : 主体与原始客体之间的联系有多紧密 (例如，“巴黎”和“法国”) 。

流行巨星效应

图 4 展示的发现揭示了一个明显的趋势:

图4: 在不同水平的 (a) 频率、(b) 连接度和 (c) 共现下的编辑性能

观察线条向右移动时的下降趋势。

图表 (a) 频率: 随着主体变得更频繁 (流行) ，编辑性能 (线条) 下降，特别是对于改写的提示词。
图表 (b) 连接度: 强连接的实体更难进行鲁棒的编辑。

这对开发者来说是一个悖论。我们最常想要更新或纠正的知识通常是高知名度、流行的知识 (例如，著名名人、世界领导人、大品牌) 。然而，这正是 LLM 抓得最紧的知识类型。

研究人员探查了模型的潜在置信度 (困惑度) ，发现对于流行知识，模型对原始事实非常自信。轻量级的“编辑”就像试图用木栅栏阻挡货运列车。它可能看起来很坚固，但足够的压力 (或不同的切入角度) 就会将其粉碎。

图9: 通过 (a) 困惑度和 (b) 提示结果探查 Llama 中的知识。

图 9 进一步支持了这一点。它表明模型对这些流行事实拥有非常强的参数化记忆 (高 ICL 准确率) ，这与编辑它们的难度相关。

现实世界的影响

这篇论文是对部署编辑后 LLM 的一次重大现实检验。如果你正在构建一个依赖模型编辑来保持事实更新的应用程序，你必须意识到“CIA”风险:

机密性 (Confidentiality) : 如果你编辑模型以删除私人数据 (例如，“忘记 John Doe 在 X 公司工作”) ，简单的改写提示或“质疑”攻击可能会导致模型泄露原始信息。
完整性 (Integrity) : 极高的幻觉率 (聊天实验中达到 78%！) 意味着编辑后的模型可能变得不可靠，编造事实来弥合其相互冲突的记忆之间的鸿沟。
可用性 (Availability) : 编辑造成的混淆可能导致模型在特定主题上无法使用。

有修复方法吗？

作者并没有让我们绝望。他们尝试了一些潜在的缓解措施:

解纠缠 (Disentanglement) : 将复杂的用户查询分解为更小、更简单的步骤 (“第一，识别主体。第二，回忆事实。”) 有助于模型触发正确的编辑。
指代消解: 明确训练系统在查询知识之前解析代词 (“他” -> “总统”) 提高了鲁棒性。

然而，这些只是补丁，而非治愈良方。

结论

论文《On the Robustness of Editing Large Language Models》告诉我们，目前更新 AI 的方法类似于在书页上贴一张便利贴。它覆盖了文字，但下面的原始文字仍然存在。如果风一吹 (或者用户问了一个棘手的问题) ，便利贴就会掀起，露出原始文本。

对于进入这一领域的本科生和硕士生来说，这是一片肥沃的研究土壤。我们在技术上弄清楚了如何编辑模型，但还没有弄清楚如何使这些编辑在认知上具有鲁棒性。挑战不再仅仅是“我们可以改变权重吗？”，而是“我们可以一致地改变行为吗？”

在我们解决流行度的鲁棒性和上下文的脆弱性之前，能够即时学习的“交际型 AI”仍将是一个难以捉摸的目标。

交际型 AI 的梦想#

RQ1: 一致性测试#

聊天实验#

RQ2: 攻击编辑#

攻击方法#

结果: 系统性失败#

RQ3: 流行度的诅咒#

流行巨星效应#

现实世界的影响#

有修复方法吗？#

结论#