在检索增强生成 (RAG) 时代,我们经常将大语言模型 (LLM) 视为能总结真相的复杂搜索引擎。我们提出一个问题,系统从网络上检索文档,然后 LLM 综合出一个答案。但是,当互联网自相矛盾时会发生什么?
想象一下,你问: “咖啡对你有好处吗?”检索到的一篇文章引用了一项声称咖啡能降低心脏病风险的研究;而另一篇则声称咖啡会导致高血压。这些就是证据间冲突 (inter-evidence conflicts) 。它们不是模型的幻觉,而是数据源中固有的矛盾。
最近的一篇研究论文,“ECON: On the Detection and Resolution of Evidence Conflicts” (ECON: 论证据冲突的检测与解决) ,正好解决了这个问题。研究人员引入了一个强大的框架来生成合成冲突,以测试 AI 模型在信息冲突时的检测能力,以及在被迫给出答案时的解决能力。
这篇博客文章将深入探讨 ECON 论文,探索他们如何构建这个数据集,当前 AI 在发现矛盾方面的局限性,以及 LLM 在陷入事实争论时表现出的偏见行为。
问题: RAG 的混乱现实
决策系统很少在完美信息的条件下运行。无论是维基百科的编辑、新闻报道还是医疗建议,相互冲突的信息无处不在。AI 生成内容的兴起又增加了一层复杂性: 恶意行为者可以批量生产令人信服的错误信息来污染搜索结果。
以前的研究主要集中在两个领域:
- 幻觉 (Hallucination) : 模型说了一些源文本中没有的内容。
- 参数化冲突 (Parametric Conflicts) : 检索到的文本与模型在训练期间记忆的内容相矛盾 (例如,模型“知道”天空是蓝色的,但文本说是绿色的) 。
ECON 关注第三个较少探索的领域: 上下文与上下文 (Context vs. Context) 。 当文档 A 说 \(X\) 而文档 B 说 \(Y\) 时,模型能意识到 \(X\) 和 \(Y\) 不能同时为真吗?
解决方案: 生成高质量冲突 (ECON 方法)
为了评估模型,我们需要一个基准。然而,等待人类标记成千上万个相互矛盾的网页既缓慢又昂贵。作者提出了一个巧妙的自动化流程来生成答案冲突 (Answer Conflicts) 和事实元冲突 (Factoid Conflicts) 。
1. 生成答案冲突
最直接的冲突形式是两份文档对同一个问题支持不同的答案。
如下图 图 1 所示,该过程始于一个问题 (\(q\)) 及其标准答案 (\(a_0\)) 。
- 生成替代答案: LLM 生成看似合理但不正确的替代答案 (\(a_1, a_2, \dots\)) 。
- 生成证据: 模型为每个答案生成支持证据 (\(e_i\)) 。
- 质量检查: 一个严格的验证步骤确保生成的证据 (\(e_i\)) 在逻辑上蕴含生成的答案 (\(a_i\)) 。

这个过程产生了看起来合法但支持互斥结论的证据对 \((e_i, e_j)\)。
生成答案和证据的数学公式非常直观:
\[ \{ a _ { i } | i = [ 1 , 2 , \cdots ] \} = \mathsf { A n s w e r G e n } ( q , a _ { 0 } ) \]\[ \boldsymbol { e } _ { i } = \mathsf { E v i d e n c e G e n } ( \boldsymbol { q } , \boldsymbol { a } _ { i } ) \]2. 生成事实元冲突
现实世界中的矛盾往往比仅仅弄错最终答案更微妙。它们可能在日期、实体或大叙事中的具体细节上存在分歧。为了模拟这一点,作者引入了事实元冲突 (Factoid Conflicts) 。
在这里,证据被视为一组原子事实,或“事实元” (\(S\)) 。系统通过语义扰动特定的事实元来制造冲突。

如 图 3 所示,系统提取一个事实元 (例如,“虾含有微塑料”) 并将其扰动为相反的意思 (例如,“虾完全不含微塑料”) 。
\[ s _ { k } ^ { p } = \mathsf { P e r t u r b } ( s _ { k } ) \]生成器随后根据这些受扰动的事实元编写一段完整的证据。
\[ e ^ { i } = { \mathsf { E v i d e n c e G e n } } ( q , \{ s _ { 1 } ^ { p _ { 1 } ^ { i } } , s _ { 2 } ^ { p _ { 2 } ^ { i } } , \cdots \} ) \]至关重要的是,这允许研究人员控制冲突的强度 。 通过计算集合 A 中有多少事实元与集合 B 相矛盾,他们可以分配一个冲突分数 \(\hat{f}\)。
\[ { \hat { f } } ( e ^ { i } , e ^ { j } ) = { \frac { \operatorname { S u m } ( p ^ { i } \oplus p ^ { j } ) } { n } } \]这创建了一个包含各种类型冲突的丰富数据集,例如时间 (日期) 、数字或否定 (做了/没做) 。

实验 1: AI 能检测冲突吗?
第一个研究问题 (RQ1) 是: 现有方法能在多大程度上检测到证据冲突?
研究人员评估了三种类型的检测器:
- NLI 模型: 专门训练用于识别蕴含或矛盾的自然语言推理模型 (如 DeBERTa) 。
- 事实一致性 (FC) 模型: 旨在检查摘要是否与源文本匹配的模型,如 AlignScore。
- LLMs: GPT-4、Llama-3、Claude 3 等,通过提示词让其回答关于两段文本是否冲突的“是/否”问题。
关于答案冲突的发现
结果如 表 2 所示,揭示了一个明显的模式。

主要结论:
- 高精确率,低召回率: LLM 和 NLI 模型通常比较保守。当它们确实标记出冲突时非常准确 (高精确率) ,但它们会遗漏很多冲突 (低召回率) ,尤其是像 Mixtral 或 GPT-3.5 这样的较弱模型。
- 上下文长度很重要: 通常在单句上训练的 NLI 模型,当证据变成段落长度 (“Long”) 时表现挣扎。LLM 对长度的鲁棒性更强。
- GPT-4 占主导地位: 像 GPT-4 和 Llama-3-70B 这样的更强模型提供了最佳的精确率和召回率平衡。
“污染”攻击
作者还测试了一种“污染”场景。这模拟了错误信息攻击,恶意行为者获取现有的文章并编辑恰好足够的文本以反转结论,同时保持其余文本完全相同。
这很难检测,因为两份证据具有很高的词汇重叠 (相似的单词) 。

从 表 4 可以看出, 事实一致性 (FC) 模型 (如 AlignScore) 在这里彻底失败了。 因为单词如此相似,FC 模型假设文本是一致的。然而,NLI 模型和 LLM 在这些任务上实际上表现得更好,这可能是因为矛盾高度局部化,一旦识别出来就非常明显。
细微差别与强度
所有的冲突都是一样的吗?研究人员使用事实元冲突数据集来改变冲突的强度 (即有多少事实不一致) 。

表 5 显示了一个清晰的趋势: 检测细微的冲突更难。
- 当冲突强度为“Low” (4 个事实中只有 1 个不一致) 时,所有模型的检测准确率都会下降。
- 然而,最先进的模型 (GPT-4, Llama-3-70B) 保持了鲁棒性,比起较小的模型,它们更擅长“大海捞针”。
实验 2: AI 如何解决冲突?
检测到冲突只是战斗的一半。在 RAG 系统中,用户最终想要一个答案。第二个研究问题 (RQ2) 问: 在有相互冲突证据的情况下回答问题时,典型的行为是什么?
研究人员将 LLM 的反应分为几类:
- 拒绝回答 (Refrain) : 模型因为冲突而拒绝回答 (对安全性来说是理想的) 。
- 整合 (Integration) : 模型试图合并双方观点 (有时是合理的,有时是幻觉) 。
- 内部知识 (Internal Knowledge) : 模型忽略文本,根据其在训练中学到的内容回答。
- 随机/偏见 (Chance/Bias) : 模型任意选择一方,没有理由。
行为分布

图 4 比较了 Claude 3 Haiku 与 Sonnet。
- 偏见很常见: 令人震惊的是 (Haiku 为 38.1%) ,模型经常“随机解决”冲突。它们选择一个赢家而不解释原因。
- 更强模型的改进: 较强的模型 (Sonnet) 相比较弱的 Haiku (22.0%) ,更有可能拒绝回答 (36.4%) 。这表明随着模型变得更聪明,它们对矛盾变得更加谨慎。
强度影响勇气
冲突的强度也决定了模型的策略。

图 5 显示,随着冲突从“弱冲突 (Weakly conflicting) ”变为“强冲突 (Strongly conflicting) ”, 拒绝回答率 (深青色条) 飙升。如果矛盾是完全的,模型就会停止。如果矛盾较小,模型会尝试整合 (中青色) ——试图消除分歧。
内部信念的作用
关于冲突解决,最迷人的发现也许是参数化知识 (模型的内部信念) 的作用。
如果 LLM 已经“知道”答案 (例如,它知道法国首都是巴黎) ,并且它看到了相互冲突的证据 (一份文档说是巴黎,一份说是里昂) ,它会怎么做?

图 16 比较了模型具有先验信念 (“w/ belief”) 与不具有先验信念 (“w/o belief”) 时的行为。
- 确认偏误: 当模型有信念时 (紫色条) ,“随机解决”和“通过内部知识解决”的比率会上升。
- 客观性丧失: 当模型有信念时,它不太可能拒绝回答。它变得过度自信,忽略外部证据冲突,转而支持自己的记忆。
结论
“ECON”论文揭示了现代 AI 系统中的一个关键漏洞。随着我们越来越依赖 LLM 来综合网络信息,处理相互冲突证据的能力变得至关重要。
作者做出了三个主要贡献:
- 数据方法: 一个用于生成高质量、带标签的证据冲突 (答案级和事实元级) 的流程。
- 检测见解: 虽然 GPT-4 和强大的 NLI 模型擅长发现冲突,但标准的事实一致性指标很容易被词汇相似性愚弄。
- 解决隐患: 当被迫解决冲突时,LLM 经常表现出偏见,任意选择赢家,或者依赖其预训练记忆而不是客观地分析相互冲突的文档。
对于致力于 RAG 系统的学生和开发者来说,结论很明确: 不要假设你的检索器提供的是一致的真相。 在让模型生成最终答案之前,实施冲突检测步骤——可能使用 NLI 模型或强大的 LLM 检查器——是必不可少的。否则,你的 AI 可能只是在抛硬币。
](https://deep-paper.org/en/paper/2410.04068/images/cover.png)