在检索增强生成 (RAG) 时代,我们经常将大语言模型 (LLM) 视为能总结真相的复杂搜索引擎。我们提出一个问题,系统从网络上检索文档,然后 LLM 综合出一个答案。但是,当互联网自相矛盾时会发生什么?

想象一下,你问: “咖啡对你有好处吗?”检索到的一篇文章引用了一项声称咖啡能降低心脏病风险的研究;而另一篇则声称咖啡会导致高血压。这些就是证据间冲突 (inter-evidence conflicts) 。它们不是模型的幻觉,而是数据源中固有的矛盾。

最近的一篇研究论文,“ECON: On the Detection and Resolution of Evidence Conflicts” (ECON: 论证据冲突的检测与解决) ,正好解决了这个问题。研究人员引入了一个强大的框架来生成合成冲突,以测试 AI 模型在信息冲突时的检测能力,以及在被迫给出答案时的解决能力。

这篇博客文章将深入探讨 ECON 论文,探索他们如何构建这个数据集,当前 AI 在发现矛盾方面的局限性,以及 LLM 在陷入事实争论时表现出的偏见行为。

问题: RAG 的混乱现实

决策系统很少在完美信息的条件下运行。无论是维基百科的编辑、新闻报道还是医疗建议,相互冲突的信息无处不在。AI 生成内容的兴起又增加了一层复杂性: 恶意行为者可以批量生产令人信服的错误信息来污染搜索结果。

以前的研究主要集中在两个领域:

  1. 幻觉 (Hallucination) : 模型说了一些源文本中没有的内容。
  2. 参数化冲突 (Parametric Conflicts) : 检索到的文本与模型在训练期间记忆的内容相矛盾 (例如,模型“知道”天空是蓝色的,但文本说是绿色的) 。

ECON 关注第三个较少探索的领域: 上下文与上下文 (Context vs. Context) 。 当文档 A 说 \(X\) 而文档 B 说 \(Y\) 时,模型能意识到 \(X\) 和 \(Y\) 不能同时为真吗?

解决方案: 生成高质量冲突 (ECON 方法)

为了评估模型,我们需要一个基准。然而,等待人类标记成千上万个相互矛盾的网页既缓慢又昂贵。作者提出了一个巧妙的自动化流程来生成答案冲突 (Answer Conflicts)事实元冲突 (Factoid Conflicts)

1. 生成答案冲突

最直接的冲突形式是两份文档对同一个问题支持不同的答案。

如下图 图 1 所示,该过程始于一个问题 (\(q\)) 及其标准答案 (\(a_0\)) 。

  1. 生成替代答案: LLM 生成看似合理但不正确的替代答案 (\(a_1, a_2, \dots\)) 。
  2. 生成证据: 模型为每个答案生成支持证据 (\(e_i\)) 。
  3. 质量检查: 一个严格的验证步骤确保生成的证据 (\(e_i\)) 在逻辑上蕴含生成的答案 (\(a_i\)) 。

图 1: 生成具有答案冲突的证据对。对于每个问题及其标准答案,生成替代答案 (显示在红色框中) 。随后,为每个答案生成一条支持证据,并通过检查器进行验证以确保质量。

这个过程产生了看起来合法但支持互斥结论的证据对 \((e_i, e_j)\)。

生成答案和证据的数学公式非常直观:

\[ \{ a _ { i } | i = [ 1 , 2 , \cdots ] \} = \mathsf { A n s w e r G e n } ( q , a _ { 0 } ) \]\[ \boldsymbol { e } _ { i } = \mathsf { E v i d e n c e G e n } ( \boldsymbol { q } , \boldsymbol { a } _ { i } ) \]

2. 生成事实元冲突

现实世界中的矛盾往往比仅仅弄错最终答案更微妙。它们可能在日期、实体或大叙事中的具体细节上存在分歧。为了模拟这一点,作者引入了事实元冲突 (Factoid Conflicts)

在这里,证据被视为一组原子事实,或“事实元” (\(S\)) 。系统通过语义扰动特定的事实元来制造冲突。

图 3: 生成具有事实元冲突的证据对。

图 3 所示,系统提取一个事实元 (例如,“虾含有微塑料”) 并将其扰动为相反的意思 (例如,“虾完全不含微塑料”) 。

\[ s _ { k } ^ { p } = \mathsf { P e r t u r b } ( s _ { k } ) \]

生成器随后根据这些受扰动的事实元编写一段完整的证据。

\[ e ^ { i } = { \mathsf { E v i d e n c e G e n } } ( q , \{ s _ { 1 } ^ { p _ { 1 } ^ { i } } , s _ { 2 } ^ { p _ { 2 } ^ { i } } , \cdots \} ) \]

至关重要的是,这允许研究人员控制冲突的强度 。 通过计算集合 A 中有多少事实元与集合 B 相矛盾,他们可以分配一个冲突分数 \(\hat{f}\)。

\[ { \hat { f } } ( e ^ { i } , e ^ { j } ) = { \frac { \operatorname { S u m } ( p ^ { i } \oplus p ^ { j } ) } { n } } \]

这创建了一个包含各种类型冲突的丰富数据集,例如时间 (日期) 、数字或否定 (做了/没做) 。

表 1: 冲突证据对示例。棕色跨度突出显示了冲突部分

实验 1: AI 能检测冲突吗?

第一个研究问题 (RQ1) 是: 现有方法能在多大程度上检测到证据冲突?

研究人员评估了三种类型的检测器:

  1. NLI 模型: 专门训练用于识别蕴含或矛盾的自然语言推理模型 (如 DeBERTa) 。
  2. 事实一致性 (FC) 模型: 旨在检查摘要是否与源文本匹配的模型,如 AlignScore。
  3. LLMs: GPT-4、Llama-3、Claude 3 等,通过提示词让其回答关于两段文本是否冲突的“是/否”问题。

关于答案冲突的发现

结果如 表 2 所示,揭示了一个明显的模式。

表 2: 答案冲突检测结果 (%) 。报告了精确率 (P) 、召回率 (R) 和 F1 分数 (F1) 。我们展示了两个源数据集的平均性能。“Short”和“Long”分别是句子级和段落级长度的证据。更多结果见附录 A.3。

主要结论:

  • 高精确率,低召回率: LLM 和 NLI 模型通常比较保守。当它们确实标记出冲突时非常准确 (高精确率) ,但它们会遗漏很多冲突 (低召回率) ,尤其是像 Mixtral 或 GPT-3.5 这样的较弱模型。
  • 上下文长度很重要: 通常在单句上训练的 NLI 模型,当证据变成段落长度 (“Long”) 时表现挣扎。LLM 对长度的鲁棒性更强。
  • GPT-4 占主导地位: 像 GPT-4 和 Llama-3-70B 这样的更强模型提供了最佳的精确率和召回率平衡。

“污染”攻击

作者还测试了一种“污染”场景。这模拟了错误信息攻击,恶意行为者获取现有的文章并编辑恰好足够的文本以反转结论,同时保持其余文本完全相同。

这很难检测,因为两份证据具有很高的词汇重叠 (相似的单词) 。

表 4: 在答案污染攻击 (“polluted”) 或不攻击 (“direct”) 下,每种类型证据对的冲突检测准确率 (%) 。每个模型准确率最高的类型已加下划线。

表 4 可以看出, 事实一致性 (FC) 模型 (如 AlignScore) 在这里彻底失败了。 因为单词如此相似,FC 模型假设文本是一致的。然而,NLI 模型和 LLM 在这些任务上实际上表现得更好,这可能是因为矛盾高度局部化,一旦识别出来就非常明显。

细微差别与强度

所有的冲突都是一样的吗?研究人员使用事实元冲突数据集来改变冲突的强度 (即有多少事实不一致) 。

表 5: 证据对之间不同强度冲突或确证下的检测准确率 (%) 。“Low”、“Medium”和“High”类别的标准差 (sigma) 报告在准确率列之后,大于 10 的值已加粗。

表 5 显示了一个清晰的趋势: 检测细微的冲突更难。

  • 当冲突强度为“Low” (4 个事实中只有 1 个不一致) 时,所有模型的检测准确率都会下降。
  • 然而,最先进的模型 (GPT-4, Llama-3-70B) 保持了鲁棒性,比起较小的模型,它们更擅长“大海捞针”。

实验 2: AI 如何解决冲突?

检测到冲突只是战斗的一半。在 RAG 系统中,用户最终想要一个答案。第二个研究问题 (RQ2) 问: 在有相互冲突证据的情况下回答问题时,典型的行为是什么?

研究人员将 LLM 的反应分为几类:

  • 拒绝回答 (Refrain) : 模型因为冲突而拒绝回答 (对安全性来说是理想的) 。
  • 整合 (Integration) : 模型试图合并双方观点 (有时是合理的,有时是幻觉) 。
  • 内部知识 (Internal Knowledge) : 模型忽略文本,根据其在训练中学到的内容回答。
  • 随机/偏见 (Chance/Bias) : 模型任意选择一方,没有理由。

行为分布

图 4: 冲突解决行为的分布。

图 4 比较了 Claude 3 Haiku 与 Sonnet。

  • 偏见很常见: 令人震惊的是 (Haiku 为 38.1%) ,模型经常“随机解决”冲突。它们选择一个赢家而不解释原因。
  • 更强模型的改进: 较强的模型 (Sonnet) 相比较弱的 Haiku (22.0%) ,更有可能拒绝回答 (36.4%) 。这表明随着模型变得更聪明,它们对矛盾变得更加谨慎。

强度影响勇气

冲突的强度也决定了模型的策略。

图 5: 事实元冲突解决行为的比例,按标注的冲突强度分层。

图 5 显示,随着冲突从“弱冲突 (Weakly conflicting) ”变为“强冲突 (Strongly conflicting) ”, 拒绝回答率 (深青色条) 飙升。如果矛盾是完全的,模型就会停止。如果矛盾较小,模型会尝试整合 (中青色) ——试图消除分歧。

内部信念的作用

关于冲突解决,最迷人的发现也许是参数化知识 (模型的内部信念) 的作用。

如果 LLM 已经“知道”答案 (例如,它知道法国首都是巴黎) ,并且它看到了相互冲突的证据 (一份文档说是巴黎,一份说是里昂) ,它会怎么做?

图 16: 模型内部信念对冲突解决行为的影响。

图 16 比较了模型具有先验信念 (“w/ belief”) 与不具有先验信念 (“w/o belief”) 时的行为。

  • 确认偏误: 当模型有信念时 (紫色条) ,“随机解决”和“通过内部知识解决”的比率会上升。
  • 客观性丧失: 当模型有信念时,它不太可能拒绝回答。它变得过度自信,忽略外部证据冲突,转而支持自己的记忆。

结论

“ECON”论文揭示了现代 AI 系统中的一个关键漏洞。随着我们越来越依赖 LLM 来综合网络信息,处理相互冲突证据的能力变得至关重要。

作者做出了三个主要贡献:

  1. 数据方法: 一个用于生成高质量、带标签的证据冲突 (答案级和事实元级) 的流程。
  2. 检测见解: 虽然 GPT-4 和强大的 NLI 模型擅长发现冲突,但标准的事实一致性指标很容易被词汇相似性愚弄。
  3. 解决隐患: 当被迫解决冲突时,LLM 经常表现出偏见,任意选择赢家,或者依赖其预训练记忆而不是客观地分析相互冲突的文档。

对于致力于 RAG 系统的学生和开发者来说,结论很明确: 不要假设你的检索器提供的是一致的真相。 在让模型生成最终答案之前,实施冲突检测步骤——可能使用 NLI 模型或强大的 LLM 检查器——是必不可少的。否则,你的 AI 可能只是在抛硬币。