超越维基百科: 利用 LFRQA 和 RAG-QA Arena 对长文本 RAG 进行基准测试

检索增强生成 (RAG) 已成为构建可靠 AI 系统的事实标准架构。通过将大型语言模型 (LLM) 与外部数据源连接，我们赋予了它们最新且可验证的“记忆”。

然而，我们在评估这些系统的方式上存在显著差距。目前大多数基准测试都依赖维基百科数据，并期望得到简短有力的答案 (如“巴黎”或“1984”) 。但在现实世界中，我们使用 RAG 来生成综合报告、总结财务趋势或解释复杂的生物机制。当一个 LLM 生成了一个详尽细腻的三段式解释时，使用标准的“精确匹配”指标将其与三个单词的标准答案进行对比，就像是拿数学答案去批改历史论文一样。

在这篇文章中，我们将深入探讨最近一篇论文中提出的 RAG-QA Arena , 这是一个旨在解决这一评估危机的新框架。研究人员介绍了 LFRQA (Long-form RobustQA) ，这是一个包含大量人工编写的多文档答案的数据集，并提出了一种可扩展的基于模型的评估方法，以此来对 RAG 系统处理特定领域挑战的能力进行基准测试。

问题所在: 长文本世界中的短答案

要理解这篇论文的必要性，我们首先需要看看“抽取式问答 (Extractive QA) ”的局限性。

多年来，问答 (QA) 数据集的黄金标准是在文档中寻找特定的文本片段。如果你问“一家公司为什么要上市？”，传统数据集可能会在财务文件中高亮显示一个特定句子: “目的是为了上市，同时也为了创造更多财富。”

这对于搜索引擎来说很有效，但对于生成式 AI 却行不通。现代 LLM (如 GPT-4 或 Claude) 不只是提取文本；它们会进行综合。它们将来自多个文档的信息结合成一个连贯的叙述。

论文作者指出了现有基准测试的两个主要问题:

格式不匹配: 领先的 LLM 生成的是长文本回复。将这些回复与简短的片段进行评估会导致重叠分数极低，即使 LLM 的答案是完美的。
领域适应: 大多数数据集建立在维基百科之上。现实世界的应用 (金融、法律、医学) 使用专业的语言和逻辑。一个擅长回答电影琐事的模型，在总结临床试验时可能会彻底失败。

介绍 LFRQA: 一个新的“黄金标准”

为了解决这些限制，研究人员创建了 Long-form RobustQA (LFRQA) 。这不仅仅是另一个数据集；它是 RAG 基础数据构建方式的根本性转变。

LFRQA 建立在现有的 ROBUSTQA 数据集之上，涵盖了七个不同的领域 (包括金融、技术和生物医学) 。然而，ROBUSTQA 存在“短答案”的问题。它提供的是从文档中提取的碎片化句子列表。

研究人员利用这些碎片化的答案，给人工标注者分配了一项艰巨的任务: 综合。

标注者会看到一个查询和多个包含高亮信息片段的相关文档。他们被指示将这些零散的信息片段结合成一个单一、流畅且连贯的段落。

格式对比

让我们看看旧方法 (ROBUSTQA) 和新方法 (LFRQA) 之间的区别。

图 1: LFRQA 标注示例。这里有三个与查询相关的文档。我们指示标注者将 ROBUSTQA 的答案结合成一个连贯的长文本答案，并在必要时添加文本。引用 [1]、[2] 和 [3] 指示了每个句子的支持文档。

如图 1 所示，输入文档包含分散的信息。

文档 1 提到了为员工创造财富。
文档 2 提到了筹集资金和出售股票。
文档 3 重申原因是“为了获得资金”。

传统系统可能只会返回其中一句话。 LFRQA 长文本答案 (图 1 底部) 将它们结合在一起: “一家公司上市是为了筹集资金，因为股票可以很容易地买卖……此外，这也是一种在员工中创造更多财富的手段……”

这反映了我们真正希望 RAG 系统表现出的行为: 阅读多个来源并综合出一个完整的答案。

为什么 LFRQA 更难 (且更好)

LFRQA 数据集的独特之处在于它迫使模型执行多文档推理 。仅仅找到“大海捞针”般的单个信息点通常是不够的。

图 3: LFRQA 答案中使用的文档数量(#)分布。所有数字均为 %。

图 3 说明了该数据集的复杂性。

图表 (a) 显示，LFRQA 中大约 65% 的答案需要来自两个或更多文档的信息。
图表 (b) 显示，即使是答案中的单个句子，也经常结合来自多个来源的事实。

这种分布证实了 LFRQA 是对 RAG 系统聚合信息能力的真正测试，而不仅仅是检索“最佳”段落并复制粘贴。

核心方法: RAG-QA Arena

拥有一个很棒的数据集只是成功了一半。你如何给模型的输出打分？

雇佣人类专家阅读成千上万个长文本答案极其昂贵且缓慢。为了解决这个问题，作者提出了 RAG-QA ARENA , 这是一个利用“LLM 作为裁判 (LLM-as-a-Judge) ”的可扩展评估框架。

这个概念受到了著名的 Chatbot Arena 的启发，在那里面模型进行正面交锋。在 RAG-QA Arena 中，“裁判” (如 GPT-4 这样强大的 LLM) 将候选模型的答案直接与来自 LFRQA 的高质量人工参考答案进行比较。

评估流程

该框架在一个流线型的流程中运行，如下图所示:

图 4: RAG-QA ARENA 框架。绿色块是 LLM 生成答案的输入。橙色块是提交给人类和 LLM 裁判以确定成对偏好的 LLM 和 LFRQA 的答案。

以下是图 4 中显示的逐步过程:

检索 (Retrieval) : 系统接收一个问题，并使用检索器 (本文中使用 ColBERTv2) 检索相关段落。
生成 (Generation) : 候选 LLM (例如 Llama-3, Mixtral) 阅读检索到的段落并生成答案。
比较 (Comparison) : 这是关键步骤。 成对偏好 (Pairwise Preference) 块接收两个输入:

候选 LLM 的答案。
标准 LFRQA 答案 (人工编写) 。

评判 (Judgment) : 评估者 LLM (GPT-4) 根据有用性 (Helpfulness) 、真实性 (Truthfulness) 和完整性 (Completeness) 来决定哪个答案更好。

为什么要与 LFRQA 比较？

你可能会问: 为什么要比较模型的答案和 LFRQA 的答案？为什么不直接检查答案是否有文档支持？

作者认为，LFRQA 的答案实际上是“黄金标准摘要”。因为它们是由人类编写的，既全面又连贯，所以它们作为一个稳定的锚点。如果一个模型的答案被认为优于人工编写的 LFRQA 答案，这意味着该模型已经达到了非常高的性能水平。

裁判使用的评估准则是严格的。它将真实性置于一切之上。如果一个答案听起来不错但包含幻觉 (不真实的信息) ，它就会输。

表 13: 成对评估的指令和准则。我们在所有 LLM 评估者中都使用此模板。

如指令集( 表 13 )所示，裁判被明确告知: “如果一个答案包含所有真实信息，而另一个包含一些不真实信息，请优先选择全真实的那个。” 这防止了模型仅仅通过啰嗦或礼貌来获胜。

实验与结果

研究人员测试了多种最先进的模型，包括 GPT-4o、GPT-4-Turbo、Llama-3 (70B & 8B)、Mixtral 和 Qwen。

排行榜

结果显示，LFRQA 是一个极其困难的基准测试。即使是最强大的模型也很难持续击败人工编写的参考答案。

表 3: LFRQA 测试集上的评估结果。W 和 W+T 表示针对 LFRQA 答案的胜率和胜率+平局率。

表 3 显示了各种模型针对 LFRQA 人工答案的“胜率” (W) 和“胜率 + 平局率” (W+T) 。

GPT-4o (第 1 行): 表现最强，但总体上也仅达到了 36.9% 的胜率 。这意味着在大多数情况下，人工编写的答案仍然被认为优于或等于 GPT-4o。
领域差异: 不同领域的表现差异巨大。
在 金融 [FI] 领域，Mixtral-8x22B 实际上超过了 GPT-4o (44.1% 对 38.4%) 。
在 生物医学 [BI] 领域，GPT-4o 以 52.9% 的胜率占据主导地位。
模型规模很重要: 较小的模型性能下降明显。看看 Command R (第 9 行) ; 它仅有 11.1% 的胜率，突显了长文本综合需要大参数模型的推理能力。

Elo 评分和排名稳定性

为了确保这些排名是稳健的，作者将这些成对比较转换为了 Elo 评分 (与国际象棋和电子游戏中使用的系统相同) 。

表 5: 包含“找不到答案”回复的 Elo 评分。

表 5 确认了这一层级结构。LFRQA (人类基准) 以 1145 的 Elo 分位居榜首。GPT-4o 是最接近的挑战者，分数为 1081。

作者还进行了一项有趣的验证检查 (列 B 和 C) 。他们在模型之间添加了额外的成对比较 (不仅仅是针对人类) ，看看排名是否会发生变化。排名保持稳定，这表明仅与 LFRQA 进行比较是完全成对锦标赛的一种计算高效的代理手段。

“过度拒绝”现象

论文中最迷人的发现之一是 GPT-4o 的一种行为怪癖。

RAG 系统依赖于检索到的文档。有时这些文档是不相关的。一个好的 RAG 系统应该说“我找不到答案”，而不是产生幻觉。

然而，研究人员发现 GPT-4o 拒绝回答问题的比率惊人——它在 48.3% 的时间里声称找不到答案，即使答案就在文本中。

图 9: GPT-4O 原始的“我找不到答案”回复与 GPT-4-TURBO 和 MIXTRAL 的对比，以及其没有 CoT (*) 的答案。

图 9 展示了这种失败模式的一个清晰示例。

查询: “now (现在) 和 right now (立刻/就是现在) 的区别是什么？”
段落: 清楚地解释了细微差别 (紧迫性与宽松的时间框架) 。
GPT-4o (原始): 它在其内部“思考”过程中成功识别了差异 (见 <thinking> 标签) ，但随后突然得出结论: “我找不到答案。”
修复版 (GPT-4o):* 通过从提示中移除“思维链” (CoT) 指令，模型变得不那么保守，并正确回答了问题。

这给 RAG 开发者上了一堂重要的课: 提示工程很重要。 像 GPT-4o 这样先进模型的安全护栏对于 RAG 任务来说有时可能过于激进，导致模型拒绝回答有效问题的假阴性情况。

结论与启示

“RAG-QA Arena”论文提出了令人信服的理由，即我们需要从抽取式的、基于维基百科的基准测试中毕业。随着我们将 LLM 部署到法律、金融和科学等专业领域，我们需要能够反映这种复杂性的评估数据集。

给学生和从业者的主要结论:

上下文长度 != 理解能力: 仅仅因为模型可以阅读 10 万个 token，并不意味着它可以很好地综合它们。综合是一项推理任务，而不仅仅是检索任务。
综合是前沿领域: 检索文档和撰写连贯报告之间的差距是当前模型挣扎的地方。LFRQA 揭示了这一差距。
人机回路数据: 高质量的评估需要高质量的数据。创建 LFRQA (人类综合片段) 所付出的努力提供了比自动抓取更强的信号。
评估很难: “我找不到答案”的错误表明，指标不仅仅关于准确性；它们还关于模型的回答意愿及其对不确定性的校准。

通过使用像 RAG-QA Arena 这样的框架，研究人员现在可以推动 RAG 系统的边界，确保它们足够稳健，以应对现实世界中混乱的多文档现实。

超越维基百科: 利用 LFRQA 和 RAG-QA Arena 对长文本 RAG 进行基准测试#

问题所在: 长文本世界中的短答案#

介绍 LFRQA: 一个新的“黄金标准”#

格式对比#

为什么 LFRQA 更难 (且更好)#

核心方法: RAG-QA Arena#

评估流程#

为什么要与 LFRQA 比较？#

实验与结果#

排行榜#

Elo 评分和排名稳定性#

“过度拒绝”现象#

结论与启示#