当事实发生碰撞：深入探讨大语言模型中的知识冲突

想象一下，你问一位值得信赖的朋友: “哪支球队赢得的 FIFA 世界杯冠军最多？”你期望他们回答巴西队。但在他们回答之前，你递给他们一叠剪报。有些剪报证实了是巴西队，但另一些则错误地声称是德国队或阿根廷队。突然间，你的朋友陷入了矛盾。他们是应该依赖自己已知的事实 (巴西队) ，还是相信你刚刚给他们的文件？

这个场景完美地诠释了人工智能领域中一个日益严峻的挑战: 知识冲突 (Knowledge Conflicts) 。

像 GPT-4 或 Llama 2 这样的大语言模型 (LLM) 是海量世界知识的宝库。然而，它们现在很少被单独使用。它们通常部署在为它们提供新的外部信息 (如搜索结果、用户提示或数据库检索内容) 的系统中。当这些外部信息与模型在训练期间学到的内容发生冲突，或者当外部来源之间相互矛盾时，模型就会面临知识冲突。

在这篇文章中，我们将探讨一篇题为《LLM 的知识冲突: 综述》 (Knowledge Conflicts for LLMs) 的全面调查报告，该报告对这些冲突进行了分类，分析了它们发生的原因，并回顾了研究人员如何试图解决这些问题。

冲突的格局

要理解知识冲突，我们首先需要定义 LLM 拥有的两种知识:

参数化知识 (记忆) : 这是存储在模型权重中的信息，来源于预训练过程。它是静态的，代表了模型在训练截止前对世界的“记忆”。
上下文知识 (上下文) : 这是在推理时通过用户提示、对话历史或检索增强生成 (RAG) 提供给模型的动态信息。

当上下文与记忆之间出现差异，或者上下文内部乃至记忆内部出现差异时，就会发生知识冲突。

如下图 1 所示，研究人员将这些冲突分为三种不同的类型: 上下文-记忆冲突 (Context-Memory Conflict) 、上下文间冲突 (Inter-Context Conflict) 和记忆内冲突 (Intra-Memory Conflict) 。

图 1: LLM 可能会遇到三种不同类型的知识冲突，源于知识来源——要么是上下文 (I. Context，黄色对话框) ，要么是 LLM 参数固有的 (II. Memory，蓝色对话框) 。当面对包含复杂冲突知识的用户问题 (紫色对话框) 时，LLM 需要解决这些差异以提供准确的回答。

在上面的例子中，用户询问关于世界杯的问题。模型的记忆 (II) 知道巴西是冠军。然而, 上下文 (I) 包含的文件却声称是德国、阿根廷和意大利。这就编织了一张冲突之网，模型必须在其中导航以提供值得信赖的答案。

冲突的生命周期

将知识冲突不仅仅视为错误，而是视为一个过程，这非常有帮助。如图 2 所示，冲突充当连接成因 (如虚假信息或过时数据) 与行为 (模型如何反应) 的纽带。

$图 2: 我们不仅将知识冲突视为一种独立的现象，而且将其视为连接各种因果触发因素 (成因) 与 LLM 行为的纽带。现有的文献主要集中在 \$I I .\$ 分析上，而我们的综述涉及系统地观察这些冲突，提供关于它们的出现及其对 LLM 行为影响的见解，以及理想的行为和相关的解决方案。$

理解这一流程类似于对 AI 进行精神分析。我们不能简单地盯着错误的输出；我们必须了解冲突的起源，以便设计出能鼓励“预期行为”的解决方案。

让我们细分综述中定义的这三种具体冲突类型。下面的分类树 (图 3) 为我们的深入探讨提供了路线图，概述了每个类别的成因、分析和解决方案。

$图 3: 知识冲突的分类体系。我们主要列出了 LLM 时代的著作。\$\\circledcirc\$ 表示事前 (pre-hoc) 解决方案，\$\\gamma\$ 表示事后 (post-hoc) 解决方案。$

1. 上下文-记忆冲突: 内部与外部的较量

这是研究最广泛的一种冲突类型。当提供给模型的外部信息 (上下文) 与其权重中存储的信息 (参数化知识) 相矛盾时，就会发生这种情况。

成因

该综述指出了这种冲突的两个主要驱动因素:

时间错位 (Temporal Misalignment) : 世界在变化，但模型的训练数据却冻结在过去。如果你问模型谁是英国首相，它的记忆可能说是“鲍里斯·约翰逊”，但检索到的新闻文章说是“里希·苏纳克”。上下文是正确的，而记忆过时了。
虚假信息污染 (Misinformation Pollution) : 相反，模型的记忆可能是正确的，但上下文被污染了。攻击者可以将假新闻注入检索到的文档中，或者用户可能会提供恶意的提示 (“想象地球是平的……”) 。在这种情况下，上下文是错误的，而记忆 (通常) 是正确的。

模型行为

LLM 如何在这场拉锯战中导航？研究结果微妙且复杂。早期的研究表明模型很固执，过度依赖其记忆。然而，针对更先进 LLM 的最新实验表明，它们非常容易接受外部证据。

关键在于, 确认偏误 (Confirmation bias) 在其中起了作用。如果外部证据与内部记忆一致，模型更有可能接受它。此外，如果外部上下文在语义上连贯且具有说服力，模型更有可能将其置于自身记忆之上，即使该上下文在事实上是错误的。

解决方案

解决方案取决于我们的目标。我们是希望模型相信上下文还是相信它的记忆？

忠实于上下文 (Faithful to Context) : 如果我们假设检索系统提供的是最新事实，我们会希望模型优先考虑上下文。这里的技术包括上下文感知解码 (CAD) (放大上下文中出现的输出 token 的概率) 和知识感知微调 (KAFT) (训练模型识别上下文何时相关) 。
忠实于记忆 (甄别虚假信息) : 如果我们担心上下文被污染，我们需要模型保持怀疑态度。解决方案包括提示策略 (警告模型验证信息) 和查询增强 (模型交叉引用来自多个来源的答案以识别不一致之处) 。

2. 上下文间冲突: “众说纷纭”的问题

随着检索增强生成 (RAG) 的兴起，模型通常会检索多个文档来回答单个查询。当文档 A 说“是”而文档 B 说“否”时会发生什么？这就是上下文间冲突 。

成因

虚假信息: RAG 系统可能会同时检索到有效新闻和假新闻网站。
过时信息: 检索可能会提取一份 2010 年的文件和一份 2023 年的文件。在撰写时两者都是真实的，但在现在它们发生了冲突。

模型行为

当面对相互矛盾的文档时，LLM 会陷入挣扎。研究表明，来源之间的不一致并不一定会降低模型的置信度分数，这很危险——这意味着模型可能会自信地产生幻觉般的答案。

模型通常表现出位置偏见 (positional bias) (偏爱首先或最后出现的信息) 或频率偏见 (frequency bias) (相信在检索文档中出现频率最高的说法) 。它们通常无法像理性的人类那样寻找引文或科学语气；相反，它们优先考虑与查询的相关性，而不是来源的可信度。

解决方案

这里的策略侧重于帮助模型在来源之间进行裁决:

消除冲突: 可以训练专门的模型在生成开始之前检测矛盾，从而有效地过滤掉“噪音”。
提高鲁棒性: 研究人员提议微调鉴别器——这是一种小型的辅助模型，在 LLM 使用文档生成答案之前判断文档的可靠性。

3. 记忆内冲突: 自相矛盾

也许最令人惊讶的冲突是记忆内冲突 。这发生在 LLM 对同一个问题给出不同答案时，仅仅因为问题的措辞不同。例如，问“谁是《盗梦空间》的导演？”可能会得到“克里斯托弗·诺兰”，而提示“《盗梦空间》是由……执导的”可能会导致一个不同或虚构的名字。

成因

训练语料库中的偏差: 互联网充满了矛盾。如果训练数据包含相互冲突的“事实”，模型就会同时学习这两者。
解码策略: Token 采样 (如 top-p 或 top-k 采样) 固有的随机性意味着输入提示的微小变化可能会使生成过程走上一条完全不同的概率路径。
潜在表征: 研究表明，事实知识存储在神经网络的特定层 (通常是中间层) 中。然而，不同的层可能编码了事实的细微变体，导致内部不协调。

模型行为

自相矛盾 (Self-inconsistency) 是一个主要问题。对 BERT 和 RoBERTa 的研究表明，一致性准确率仅为 50-60%。即使是 GPT-4 也可能通过重述问题而被诱导产生不一致。这种行为表明，LLM 往往依赖于虚假相关性 (词语共现) ，而不是对真理的深刻语义理解。

解决方案

一致性微调: 使用特定的损失函数训练模型，惩罚其对意译问题给出不同答案的行为。
解码干预: 像 DoLa (通过对比层进行解码) 这样的技术会在生成过程中动态选择包含“成熟”事实知识的层，过滤掉来自不成熟层的噪音。

评估冲突

为了研究这些现象，研究人员不能依赖标准基准测试。他们必须创建专门诱发冲突的数据集。

下表 1 列出了该领域使用的一些数据集。注意“Conflicts” (冲突) 一列。 CM (上下文-记忆) 数据集通常使用生成方法来创建与模型记忆对抗的虚假上下文。 IC (上下文间) 数据集通常使用人工标注来查找网络上的矛盾主张 (如 WikiContradiction) 。

表 1: 评估 LLM 在遇到知识冲突时行为的数据集。CM: 上下文-记忆冲突，IC: 上下文间冲突，IM: 记忆内冲突。

对性能的影响

当这些冲突发生时，损害有多大？如表 2 所示，影响是显著的。

上下文-记忆: 当上下文中引入虚假信息时，性能可能会下降高达 87% (Pan et al., 2023b)。
上下文间: 随着“噪音率” (冲突证据的百分比) 增加，性能急剧下降。当噪音超过 80% 时，模型性能可能下降超过 20%。
记忆内: 即使是像 GPT-4 这样强大的模型，也表现出约 15-22% 的不一致率 (提供相互矛盾的结果) 。

表 2: 各种类型知识冲突影响的定量结果比较。

缓解措施的有效性

解决方案有效吗？表 3 提供了当前进展的快照。

忠实于上下文: 像上下文感知解码 (Context-Aware Decoding) 这样的技术在迫使模型坚持提供的文本方面显示出巨大的改进 (在特定数据集上高达 128%) 。
甄别虚假信息: 训练鉴别器可以将性能提高约 5%，在假新闻破坏答案之前识别出它们。
解纠缠: 一些方法在简单地检测冲突存在方面已达到 80% 的 F1 分数，这是解决冲突的第一步。

表 3: 针对不同目标的各种缓解策略有效性的定量比较。

结论与未来方向

关于 $\aleph$ 知识冲突的综述表明，LLM 中的“幻觉”往往是不同信息源之间复杂的斗争。无论是训练数据与实时新闻之间的冲突，相互矛盾的搜索结果带来的困惑，还是模型自身的内部不一致，这些冲突都是 AI 可靠性面临的主要障碍。

目前的解决方案很有希望，但往往优先考虑一方 (例如，盲目相信上下文) 。作者建议该研究的未来在于:

“野生”环境 (真实场景) 分析: 从人工数据集转向实时搜索引擎结果中发现的真实世界冲突。
可解释性: 超越输出层面，观察神经元激活，以了解模型确切在何时以及为何决定从一个事实转向另一个事实。
多模态: 随着模型开始“看”和“听”，我们很快就会面临文本说一件事，但图像暗示另一件事的冲突。

对于进入该领域的学生和研究人员来说，解决知识冲突是构建不仅知识渊博，而且真正健壮和值得信赖的 AI 系统的关键。

冲突的格局#

冲突的生命周期#

1. 上下文-记忆冲突: 内部与外部的较量#

成因#

模型行为#

解决方案#

2. 上下文间冲突: “众说纷纭”的问题#

成因#

模型行为#

解决方案#

3. 记忆内冲突: 自相矛盾#

成因#

模型行为#

解决方案#

评估冲突#

对性能的影响#

缓解措施的有效性#

结论与未来方向#

冲突的格局

冲突的生命周期

1. 上下文-记忆冲突: 内部与外部的较量

成因

模型行为

解决方案

2. 上下文间冲突: “众说纷纭”的问题

成因

模型行为

解决方案

3. 记忆内冲突: 自相矛盾

成因

模型行为

解决方案

评估冲突

对性能的影响

缓解措施的有效性

结论与未来方向