大型语言模型 (LLM) 更长上下文窗口的竞赛已成为过去一年的决定性趋势之一。我们从只能阅读几页内容的模型,迅速发展到像 Gemini-1.5-Pro 和 GPT-4o 这样的模型,它们号称拥有 128k、200k 甚至 100 万 token 的上下文窗口。从理论上讲,这使得 AI 能够同时摄入数百份财务报告、法律合同或学术论文,并回答有关它们的复杂问题。

但在营销宣传和技术现实之间存在着差距。这些模型真的能在如此大量的数据中进行推理吗?还是说它们只是非常擅长查找特定的关键词?

最近的一篇论文 “Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA” (一个文档都不能少: 通过扩展多文档问答对长上下文 LLM 进行基准测试) 引入了一个名为 Loong 的新基准来回答这个问题。研究人员认为,以前的基准测试过于简单,往往依赖于无法反映真实世界使用情况的“大海捞针”测试。通过在复杂的多文档任务上测试模型,他们揭示了一个事实: 当要求模型综合信息而不仅仅是检索信息时,即使是最先进的 LLM 也会遇到极大困难。

这篇文章将通过 Loong 基准、其背后的方法论,以及关于当前长上下文 LLM (LCLM) 和检索增强生成 (RAG) 局限性的惊人结果,为你进行详细解读。

问题所在: “针”的假象

要理解为什么我们需要一个新的基准,首先必须看看目前长上下文模型是如何被评估的。行业标准主要一直是“大海捞针” (Needle-in-a-Haystack, NIAH) 测试。在这种设置中,一条特定的信息 (针) 被插入到大量不相关的文本 (大海/干草堆) 中。模型被要求找到这条信息。

虽然 NIAH 是一个有用的健全性检查,但它本质上是一个检索任务 , 而不是推理任务 。 在现实世界中,财务分析师不仅仅想知道“第三季度的收入是多少?” (检索) 。他们想知道“在这 20 份报告中,哪家公司的债务权益比率最高,这与行业趋势相比如何?” (推理) 。

Loong 论文的作者指出了现有基准中的一个关键缺陷: 证据集中化 (Evidence Centralization) 。 在 LongBench 或简单的问答任务等数据集中,答案通常完全包含在输入的一个片段中。模型可以简单地定位该片段并忽略其余部分。

以前的基准与 Loong 的对比。上图显示包含答案的单个文档,而下图显示 Loong 的方法,其中证据分散在多个文档中。

图 1 所示,以前的基准允许模型走捷径。然而,Loong 强制执行“一个文档都不能少”的理念。回答提示所需的证据分散在多个文档中。如果模型因为注意力丢失或上下文限制而忽略了输入的任何部分,它将无法完成任务。

Loong 与现有基准的对比

研究人员将 Loong 与其他流行的基准 (如 L-Eval、LongBench 和 RULER) 进行了比较。关键的区别在于对多文档任务的关注和“高证据分散度 (High Evidence Dispersion) ”——这意味着答案不仅仅在一个地方。

表格比较了 Loong 与 L-Eval、LongBench 和 RULER 等基准的特征。

Loong 基准: 方法论

为了建立一个反映现实的基准,研究人员摒弃了合成数据。他们从三个复杂的现实领域收集了文档:

  1. 财务报告: 2024 年的季度和年度报告。
  2. 法律案件: 高级/中级法院的判决书。
  3. 学术论文: 最近的 Arxiv 论文。

该基准包含 1,600 个新标注的测试实例 , 长度各异,从 10k token 一直到 250k+ token。

四种类型的推理任务

这篇论文的核心贡献在于对长上下文任务的分类。研究人员设计了四种不同的任务类型来测试 LLM 的不同认知能力。

图解四种评估任务: 聚光灯定位、比较、聚类和推理链。

1. 聚光灯定位 (Spotlight Locating)

这是基线任务,类似于传统的检索。模型必须在众多文档中找到位于其中一个文档里的特定信息。它测试模型过滤噪声的能力。

  • *示例: * “Dominari Holdings 的每股基本收益是多少?”

2. 比较 (Comparison)

此任务强制模型定位多个文档中的证据并比较数值。

  • *示例: * “列出的公司中哪家拥有最高的非流动资产?” 要回答这个问题,模型必须提取上下文窗口中每家公司的资产值,然后进行数学比较。

3. 聚类 (Clustering)

在这里,模型必须提取相关数据并根据特定标准对其进行分组。

  • *示例: * “将这些公司分类为‘高应付账款’、‘中应付账款’和‘低应付账款’组。” 这需要对整个上下文窗口有全局理解,以建立分组逻辑并将其应用于每个实体。

4. 推理链 (Chain of Reasoning)

这是最复杂的任务。它需要多跳逻辑,即一条证据引出另一条证据。

  • *示例: * “分析 X 公司从 2022 年到 2024 年的现金流趋势。” 模型必须按时间顺序排列文档,提取每一年的数据点,并描述其轨迹。

数据统计

这些任务的分布非常严格。如表 2 所示,这些任务的平均 token 长度徘徊在 100k-119k token 左右。这确保了该基准测试确实是在测试长上下文 LLM 中的“长”这一属性。

Loong 基准的数据统计,显示了平均 token 数量和每个任务的实例数。

实验与结果

研究人员评估了一套最先进的模型,包括 GPT-4o (128k)Gemini-1.5-Pro (1M)Claude 3.5 Sonnet (200k) 以及像 Qwen2-72B 这样的开源模型。

使用的评估指标是 GPT-4-as-a-Judge (GPT-4 作为裁判) , 根据准确性、幻觉和完整性对答案进行评分。他们报告了两个指标:

  1. 平均分 (Avg Score): 0-100 的分数。
  2. 满分率 (Perfect Rate): 获得 100 分满分的答案百分比。

主要发现

结果令人清醒。即使是最强大的模型也在整体多文档推理方面苦苦挣扎。

表格显示了各种 LLM 在 Loong 任务上的表现。

表 4 按上下文长度组 (Set 1 为最短,Set 4 为最长) 细分了性能。出现了几个关键趋势:

  1. Gemini-1.5-Pro 处于领先地位: 得益于其巨大的 1M 上下文窗口训练,Gemini 表现出了最一致的性能,尤其是在超长 (200k-250k) 组中。
  2. “有效”窗口小于宣传窗口: 看看 GPT-4o 和 Qwen2。虽然它们声称有 128k 的窗口,但一旦输入超过 50k token (Set 2) ,它们的性能就会显着下降。这表明“有效区域”比技术限制要小得多。
  3. 复杂性扼杀性能: 模型在“聚光灯定位” (简单的搜索任务) 上表现尚可。然而,在“聚类”和“推理链”上,分数直线下降。例如,在最长的设置 (Set 4) 中,Kimi-Chat 在推理链任务上的得分为 0.00

RAG 的失败

论文中也许最有趣的实验涉及检索增强生成 (RAG) 。RAG 是处理长上下文的行业标准解决方案: 将数据分块,存储在数据库中,检索前 k 个相关块,并将它们提供给 LLM。

研究人员测试了配备 RAG (使用 OpenAI 和 BGE 嵌入) 的 GPT-4o 和 Qwen2,并将其与标准长上下文输入进行了对比。

柱状图显示,与基线模型相比,添加 RAG 实际上降低了平均分。

图 3 显示了一个反直觉的结果: RAG 实际上让模型变差了。

为什么?因为 Loong 的任务需要全局上下文

  • 聚光灯任务中,RAG 效果很好,因为答案在某个特定的块中。
  • 聚类比较任务中,证据均匀分布在整个文本中。如果 RAG 仅检索“Top-5”块,它不可避免地会遗漏必要的文档。

研究人员量化了 RAG 的这种“召回率”。

表格显示使用 RAG 的文档召回率。即使使用 Top-50 检索,召回率也从未达到 100%。

表 6 所示,即使检索 Top-50 的块,系统也只能召回大约 60-64% 的必要文档。如果一个问题要求你比较 10 家公司,而 RAG 只检索到了其中 6 家,LLM 就不可能正确回答。

这证明了对于复杂的多文档分析,仅依靠 RAG 是不够的。模型实际上需要“阅读”全文。

上下文的缩放定律 (Scaling Law)

该论文触及了关于上下文窗口的“缩放定律”概念。GPT-4o 和 Qwen2 等模型随着输入长度的增加 (即使在其允许的窗口内) 而出现的性能下降表明,简单地使用位置编码技巧 (如 RoPE) 来拉伸窗口是不够的。

要拥有一个真正有效的 128k 窗口,模型可能需要在超过 128k 的序列上进行训练 。 Gemini-1.5-Pro 在不同长度上的相对稳定性支持了这一点;因为它是在极端长度 (高达 1M 或 10M) 下训练的,所以 200k 的范围完全在它的舒适区内。

图表显示 Loong 测试用例的长度分布。

正如图 4 所示,Loong 提供了平衡的测试长度分布,使我们要能精确地找出模型的“注意力”开始失效的位置。

结论与启示

“Loong”基准是对 AI 行业的一次现实检验。它将目标从简单的检索转移到了长上下文中复杂的、综合的推理。

对于学生和研究人员来说,主要的收获是:

  1. 不要轻信上下文窗口标签: 仅仅因为模型接受 128k token 并不意味着它会关注所有这些 token。性能通常在 50k 之后急剧下降。
  2. RAG 有局限性: RAG 非常适合大海捞针。但在总结草堆或比较草堆中的每一根稻草时,它的表现很差。
  3. 未来的架构: 结果表明我们需要更好的长上下文建模训练方法。我们不能依赖“扩展”短模型;我们需要训练模型在活动记忆中保存大量数据以进行推理。

对于财务审计、法律取证或科学文献元分析等现实应用而言,“一个文档都不能少”不仅仅是一个朗朗上口的标题——它是一个严格的要求。在 LLM 能够在像 Loong 这样的基准测试中获得高分之前,它们在这些高风险、多文档环境中的效用仍然有限。