超越维基百科: 利用 LFRQA 和 RAG-QA Arena 对长文本 RAG 进行基准测试
检索增强生成 (RAG) 已成为构建可靠 AI 系统的事实标准架构。通过将大型语言模型 (LLM) 与外部数据源连接,我们赋予了它们最新且可验证的“记忆”。
然而,我们在评估这些系统的方式上存在显著差距。目前大多数基准测试都依赖维基百科数据,并期望得到简短有力的答案 (如“巴黎”或“1984”) 。但在现实世界中,我们使用 RAG 来生成综合报告、总结财务趋势或解释复杂的生物机制。当一个 LLM 生成了一个详尽细腻的三段式解释时,使用标准的“精确匹配”指标将其与三个单词的标准答案进行对比,就像是拿数学答案去批改历史论文一样。
在这篇文章中,我们将深入探讨最近一篇论文中提出的 RAG-QA Arena , 这是一个旨在解决这一评估危机的新框架。研究人员介绍了 LFRQA (Long-form RobustQA) ,这是一个包含大量人工编写的多文档答案的数据集,并提出了一种可扩展的基于模型的评估方法,以此来对 RAG 系统处理特定领域挑战的能力进行基准测试。
问题所在: 长文本世界中的短答案
要理解这篇论文的必要性,我们首先需要看看“抽取式问答 (Extractive QA) ”的局限性。
多年来,问答 (QA) 数据集的黄金标准是在文档中寻找特定的文本片段。如果你问“一家公司为什么要上市?”,传统数据集可能会在财务文件中高亮显示一个特定句子: “目的是为了上市,同时也为了创造更多财富。”
这对于搜索引擎来说很有效,但对于生成式 AI 却行不通。现代 LLM (如 GPT-4 或 Claude) 不只是提取文本;它们会进行综合。它们将来自多个文档的信息结合成一个连贯的叙述。
论文作者指出了现有基准测试的两个主要问题:
- 格式不匹配: 领先的 LLM 生成的是长文本回复。将这些回复与简短的片段进行评估会导致重叠分数极低,即使 LLM 的答案是完美的。
- 领域适应: 大多数数据集建立在维基百科之上。现实世界的应用 (金融、法律、医学) 使用专业的语言和逻辑。一个擅长回答电影琐事的模型,在总结临床试验时可能会彻底失败。
介绍 LFRQA: 一个新的“黄金标准”
为了解决这些限制,研究人员创建了 Long-form RobustQA (LFRQA) 。 这不仅仅是另一个数据集;它是 RAG 基础数据构建方式的根本性转变。
LFRQA 建立在现有的 ROBUSTQA 数据集之上,涵盖了七个不同的领域 (包括金融、技术和生物医学) 。然而,ROBUSTQA 存在“短答案”的问题。它提供的是从文档中提取的碎片化句子列表。
研究人员利用这些碎片化的答案,给人工标注者分配了一项艰巨的任务: 综合。
标注者会看到一个查询和多个包含高亮信息片段的相关文档。他们被指示将这些零散的信息片段结合成一个单一、流畅且连贯的段落。
格式对比
让我们看看旧方法 (ROBUSTQA) 和新方法 (LFRQA) 之间的区别。
![图 1: LFRQA 标注示例。这里有三个与查询相关的文档。我们指示标注者将 ROBUSTQA 的答案结合成一个连贯的长文本答案,并在必要时添加文本。引用 [1]、[2] 和 [3] 指示了每个句子的支持文档。](/en/paper/2407.13998/images/001.jpg#center)
如图 1 所示,输入文档包含分散的信息。
- 文档 1 提到了为员工创造财富。
- 文档 2 提到了筹集资金和出售股票。
- 文档 3 重申原因是“为了获得资金”。
传统系统可能只会返回其中一句话。 LFRQA 长文本答案 (图 1 底部) 将它们结合在一起: “一家公司上市是为了筹集资金,因为股票可以很容易地买卖……此外,这也是一种在员工中创造更多财富的手段……”
这反映了我们真正希望 RAG 系统表现出的行为: 阅读多个来源并综合出一个完整的答案。
为什么 LFRQA 更难 (且更好)
LFRQA 数据集的独特之处在于它迫使模型执行多文档推理 。 仅仅找到“大海捞针”般的单个信息点通常是不够的。

图 3 说明了该数据集的复杂性。
- 图表 (a) 显示,LFRQA 中大约 65% 的答案需要来自两个或更多文档的信息。
- 图表 (b) 显示,即使是答案中的单个句子,也经常结合来自多个来源的事实。
这种分布证实了 LFRQA 是对 RAG 系统聚合信息能力的真正测试,而不仅仅是检索“最佳”段落并复制粘贴。
核心方法: RAG-QA Arena
拥有一个很棒的数据集只是成功了一半。你如何给模型的输出打分?
雇佣人类专家阅读成千上万个长文本答案极其昂贵且缓慢。为了解决这个问题,作者提出了 RAG-QA ARENA , 这是一个利用“LLM 作为裁判 (LLM-as-a-Judge) ”的可扩展评估框架。
这个概念受到了著名的 Chatbot Arena 的启发,在那里面模型进行正面交锋。在 RAG-QA Arena 中,“裁判” (如 GPT-4 这样强大的 LLM) 将候选模型的答案直接与来自 LFRQA 的高质量人工参考答案进行比较。
评估流程
该框架在一个流线型的流程中运行,如下图所示:

以下是图 4 中显示的逐步过程:
- 检索 (Retrieval) : 系统接收一个问题,并使用检索器 (本文中使用 ColBERTv2) 检索相关段落。
- 生成 (Generation) : 候选 LLM (例如 Llama-3, Mixtral) 阅读检索到的段落并生成答案。
- 比较 (Comparison) : 这是关键步骤。 成对偏好 (Pairwise Preference) 块接收两个输入:
- 候选 LLM 的答案。
- 标准 LFRQA 答案 (人工编写) 。
- 评判 (Judgment) : 评估者 LLM (GPT-4) 根据有用性 (Helpfulness) 、真实性 (Truthfulness) 和完整性 (Completeness) 来决定哪个答案更好。
为什么要与 LFRQA 比较?
你可能会问: 为什么要比较模型的答案和 LFRQA 的答案?为什么不直接检查答案是否有文档支持?
作者认为,LFRQA 的答案实际上是“黄金标准摘要”。因为它们是由人类编写的,既全面又连贯,所以它们作为一个稳定的锚点。如果一个模型的答案被认为优于人工编写的 LFRQA 答案,这意味着该模型已经达到了非常高的性能水平。
裁判使用的评估准则是严格的。它将真实性置于一切之上。如果一个答案听起来不错但包含幻觉 (不真实的信息) ,它就会输。

如指令集( 表 13 )所示,裁判被明确告知: “如果一个答案包含所有真实信息,而另一个包含一些不真实信息,请优先选择全真实的那个。” 这防止了模型仅仅通过啰嗦或礼貌来获胜。
实验与结果
研究人员测试了多种最先进的模型,包括 GPT-4o、GPT-4-Turbo、Llama-3 (70B & 8B)、Mixtral 和 Qwen。
排行榜
结果显示,LFRQA 是一个极其困难的基准测试。即使是最强大的模型也很难持续击败人工编写的参考答案。

表 3 显示了各种模型针对 LFRQA 人工答案的“胜率” (W) 和“胜率 + 平局率” (W+T) 。
- GPT-4o (第 1 行): 表现最强,但总体上也仅达到了 36.9% 的胜率 。 这意味着在大多数情况下,人工编写的答案仍然被认为优于或等于 GPT-4o。
- 领域差异: 不同领域的表现差异巨大。
- 在 金融 [FI] 领域,Mixtral-8x22B 实际上超过了 GPT-4o (44.1% 对 38.4%) 。
- 在 生物医学 [BI] 领域,GPT-4o 以 52.9% 的胜率占据主导地位。
- 模型规模很重要: 较小的模型性能下降明显。看看 Command R (第 9 行) ; 它仅有 11.1% 的胜率,突显了长文本综合需要大参数模型的推理能力。
Elo 评分和排名稳定性
为了确保这些排名是稳健的,作者将这些成对比较转换为了 Elo 评分 (与国际象棋和电子游戏中使用的系统相同) 。

表 5 确认了这一层级结构。LFRQA (人类基准) 以 1145 的 Elo 分位居榜首。GPT-4o 是最接近的挑战者,分数为 1081。
作者还进行了一项有趣的验证检查 (列 B 和 C) 。他们在模型之间添加了额外的成对比较 (不仅仅是针对人类) ,看看排名是否会发生变化。排名保持稳定,这表明仅与 LFRQA 进行比较是完全成对锦标赛的一种计算高效的代理手段。
“过度拒绝”现象
论文中最迷人的发现之一是 GPT-4o 的一种行为怪癖。
RAG 系统依赖于检索到的文档。有时这些文档是不相关的。一个好的 RAG 系统应该说“我找不到答案”,而不是产生幻觉。
然而,研究人员发现 GPT-4o 拒绝回答问题的比率惊人——它在 48.3% 的时间里声称找不到答案,即使答案就在文本中。

图 9 展示了这种失败模式的一个清晰示例。
- 查询: “now (现在) 和 right now (立刻/就是现在) 的区别是什么?”
- 段落: 清楚地解释了细微差别 (紧迫性与宽松的时间框架) 。
- GPT-4o (原始): 它在其内部“思考”过程中成功识别了差异 (见
<thinking>标签) ,但随后突然得出结论: “我找不到答案。” - 修复版 (GPT-4o):* 通过从提示中移除“思维链” (CoT) 指令,模型变得不那么保守,并正确回答了问题。
这给 RAG 开发者上了一堂重要的课: 提示工程很重要。 像 GPT-4o 这样先进模型的安全护栏对于 RAG 任务来说有时可能过于激进,导致模型拒绝回答有效问题的假阴性情况。
结论与启示
“RAG-QA Arena”论文提出了令人信服的理由,即我们需要从抽取式的、基于维基百科的基准测试中毕业。随着我们将 LLM 部署到法律、金融和科学等专业领域,我们需要能够反映这种复杂性的评估数据集。
给学生和从业者的主要结论:
- 上下文长度 != 理解能力: 仅仅因为模型可以阅读 10 万个 token,并不意味着它可以很好地综合它们。综合是一项推理任务,而不仅仅是检索任务。
- 综合是前沿领域: 检索文档和撰写连贯报告之间的差距是当前模型挣扎的地方。LFRQA 揭示了这一差距。
- 人机回路数据: 高质量的评估需要高质量的数据。创建 LFRQA (人类综合片段) 所付出的努力提供了比自动抓取更强的信号。
- 评估很难: “我找不到答案”的错误表明,指标不仅仅关于准确性;它们还关于模型的回答意愿及其对不确定性的校准。
通过使用像 RAG-QA Arena 这样的框架,研究人员现在可以推动 RAG 系统的边界,确保它们足够稳健,以应对现实世界中混乱的多文档现实。
](https://deep-paper.org/en/paper/2407.13998/images/cover.png)