大海捞针之外：为什么长上下文大语言模型读不懂小说

引言

在大语言模型 (LLM) 的快速演进中，有一个指标已成为主要的炫耀资本: 上下文窗口 。我们已经从只能记住几个段落的模型，发展到了像 Gemini 1.5 Pro 和 GPT-4o 这样的庞然大物，它们号称能一次性处理数十万甚至数百万个 token。理论上，你现在可以将整本小说喂给 AI 并针对书的内容进行提问。

但在处理一本小说和理解它之间，存在着巨大的差异。

目前的评估通常依赖于“大海捞针” (Needle-in-a-Haystack，简称 NIAH) 测试，即把一个随机句子 (针) 隐藏在大量不相关的文本 (干草堆) 中。如果模型能找到这个句子，它就算通过测试。虽然这证明了模型可以检索数据，但这并不能证明它能够针对叙事弧线进行推理、理解角色发展或追踪长达 300 页的情节中的不一致之处。

为了弥补这一空白，来自马萨诸塞大学阿默斯特分校 (UMass Amherst) 、艾伦人工智能研究所 (Allen Institute for AI) 和康奈尔大学的研究团队推出了 NOCHA (A NOvel CHAllenge，意为“小说挑战”) 。这个新的数据集不仅挑战 LLM 检索文本的能力，还要求它们验证关于近期出版小说的复杂陈述。

Overview of NoCHA’s data collection and evaluation pipeline.

如 图 1 所示，这项研究超越了合成测试。通过聘请人类读者针对 2023 年和 2024 年出版的书籍生成成对的“真/假”陈述，研究人员揭示了一个惊人的现实: 虽然模型在阅读方面做得更好了，但它们在理解方面仍然步履维艰。

背景: 大海捞针的问题

要理解为什么 NOCHA 是必要的，我们必须先看看当前基准测试的局限性。

“针”的错觉

评估长上下文模型的行业标准是 NIAH 测试。它涉及将一个特定的事实 (例如，“密码是 42”) 插入文档的不同深度，并要求模型检索它。最近的模型通常在这些测试中得分接近 100%。

然而，作者认为 NIAH 仅测试了表层检索 。 “针”通常与周围的文本无关，这使得模型在数学上更容易发现它。它不需要综合、不需要推断，也不需要对文档结构有全局性的理解。

数据污染

另一个主要问题是污染。如果你在《了不起的盖茨比》或《哈利·波特》上测试模型，模型很可能在训练阶段就已经记住了情节。它不需要阅读你提供的上下文；它可以从其内部的“参数记忆”中回答问题。为了真正测试长上下文能力，模型必须面对它实际上从未见过的文本。

NOCHA 方法论

研究人员设计的 NOCHA 旨在严格测试“书籍级”的理解能力，同时避免以前基准测试的陷阱。

1. 语料库: 新鲜的小说

为了减少数据污染，团队选择了 67 本书 , 其中大部分出版于 2023 年和 2024 年。这些书很可能不在 2024 年中期之前训练的模型的训练数据中。他们专注于小说，以防止模型依赖现实世界的事实 (参数知识) ，并迫使它们仅依赖提供的文本。

Genre distribution in NoCHA.

如 图 5 所示，该数据集涵盖了广泛的体裁，从浪漫和悬疑到奇幻和恐怖。这确保了评估不会偏向于某种单一的写作风格。

2. 秘密武器: 叙事最小对 (Narrative Minimal Pairs)

NOCHA 的核心创新在于使用叙事最小对 。人类标注员 (真正读过这些书的人) 并没有提出随机问题，而是创建了一对对的陈述:

真实陈述: 基于书籍内容无可争议的真实陈述。
虚假陈述: 关于同一事件或实体的陈述，差异极小但为假。

为什么要成对使用? 如果你只是问模型“X 是真的吗？”，它有 50% 的机会猜对。此外，模型在不确定时往往有回答“真”或“假”的偏好。

通过使用最小对，研究人员只有在模型正确识别真实陈述为真且虚假陈述为假时，才计为一次“成功”。这防止了模型“因错误的理由而蒙对”。

Examples of claim pairs where the models failed to validate one of the claims in the pair.

上面的 图 2 展示了这种复杂性。在顶部的例子中，模型在处理真实陈述时，正确识别了关于受害者死亡的暗示。然而，当面对虚假陈述 (声称没有此类暗示) 时，模型产生了幻觉，同意了这个虚假前提。因为它在这一对测试的后半部分失败了，所以它得分为零。

3. 推理范围: 全局与局部

并非所有的陈述都是平等的。研究人员根据验证陈述所需的书籍内容量对陈述进行了分类:

句子级: 可以通过找到单个句子来回答 (类似于 NIAH) 。
段落级: 需要阅读几个段落。
全局推理: 需要综合分散在整本书中的信息 (例如，理解一个从第 1 章发展到第 20 章的角色动机) 。

至关重要的是, NOCHA 中 47.9% 的陈述需要全局推理 , 这使得它比现有的基准测试难得多。

实验与结果

团队评估了 11 个著名的模型，包括闭源的重量级选手 (GPT-4o、Claude 3 Opus、Gemini 1.5 Pro) 和开放权重模型 (Command R、Llama 等) 。模型被输入了书籍的全文 (范围从 4.9 万到 33.6 万 token) ，并被要求验证这些陈述。

发现: 现实检验

结果显示，人类能力与 AI 表现之间存在巨大差距。

Model accuracy on claim pairs for all data excluding classic novels.

表 24 突出了在新鲜 (非经典) 书籍上的成对准确率:

人类: ~97% 准确率。
GPT-4o: 55.3% (表现最好的模型) 。
Claude 3 Opus: 49.4%。
Gemini 1.5 Pro: 48.1%。
开放权重模型: 几乎所有模型的表现都低于或接近随机概率 (成对测试为 25%) 。

请注意，一对陈述 (真/真、真/假、假/真、假/假) 的“随机概率”实际上是 25%。这意味着即使是最强大的模型，在这个任务上也仅仅是勉强超过了抛硬币的概率，尽管它们拥有巨大的上下文窗口。

分析 1: “找针”的技能无法迁移

也许最令人惊讶的发现是，在“大海捞针”基准测试中的高性能并不能预测在 NOCHA 上的成功。像 GPT-4 Turbo 和 Command R 这样的模型，虽然在合成检索任务上得分近乎完美，但在这里却表现得非常挣扎。这证实了检索关键词与理解叙事有着根本的不同。

分析 2: 全局推理是瓶颈

当模型必须进行全局推理而不是仅仅寻找一个句子时，任务的难度会急剧上升。

Performance of different closed-source models based on the scope of evidence.

图 11按证据范围细分了准确率。

句子级 (蓝色) : 模型在这里表现最好 (平均约 60%) ，因为这模仿了它们优化过的检索任务。
全局 (紫色) : 表现显著下降 (平均约 41.6%) 。模型难以在“脑海”中同时掌握书的“全貌”。

分析 3: “世界构建”的代价

研究人员还发现，小说的类型也很重要。

Performance of closed-source models on different types of novels.

如 图 3 所示:

历史与当代小说: 模型表现较好。这些书发生在“现实世界”，允许模型依靠其关于世界运作方式的预训练知识。
推想小说 (科幻/奇幻) : 模型表现显著较差。在这些书中，作者发明了新的规则、物理定律和社会。模型无法依赖外部知识，必须完全从上下文窗口处理新的“世界”——这显然是一项它觉得非常困难的任务。

分析 4: 幻觉与糟糕的解释

即使模型猜对了标签，其推理过程往往也是有缺陷的。研究人员分析了模型生成的文本解释，发现没有一个模型能持续产生准确的解释 。

例如，一个模型可能会正确地说某个陈述是“假”的，但在理由中却引用了一段从未发生的对话，或者引用了书中完全不同部分的剧情点。这表明，即使是 GPT-4o 约 55% 的准确率，也可能包含了运气的成分。

分析 5: 长度重要吗？

有趣的是，对于顶级模型来说，书籍的绝对长度 (token 数量) 并不是失败的决定性预测因素。

Model performance across different book lengths.

图 10 显示，虽然一些模型在超过 18 万 token 的书籍上表现略有下降，但对于像 GPT-4o 或 Gemini 1.5 这样的模型来说，下降并非灾难性的。挑战似乎在于所需推理的复杂性，而不仅仅是单词的原始数量。

结论与启示

NOCHA 论文为 AI 行业提供了一次至关重要的现实检验。它证明了上下文窗口大小并不等同于理解力 。我们已经成功构建了可以将一本小说“保存”在记忆中的模型，但我们还没有构建出能像人类那样深度“阅读”它的模型。

给学生和研究人员的关键要点:

不要轻信“找针”测试: 如果你正在评估 RAG (检索增强生成) 或长上下文系统，简单的检索测试是不够的。你需要包含综合性要求的任务。
最小对很强大: 在设计评估时，使用成对的真/假样本是过滤噪声和猜测的有效方法。
推理差距: NLP 研究的前沿不仅仅是让上下文窗口变得更大；而是改进注意力机制和推理能力，以利用该空间。

在模型能够可靠地分辨剧情反转和机器幻觉之前，阅读一本好书仍然是一种独特的人类乐趣。

引言#

背景: 大海捞针的问题#

“针”的错觉#

数据污染#

NOCHA 方法论#

1. 语料库: 新鲜的小说#

2. 秘密武器: 叙事最小对 (Narrative Minimal Pairs)#

3. 推理范围: 全局与局部#

实验与结果#

发现: 现实检验#

分析 1: “找针”的技能无法迁移#

分析 2: 全局推理是瓶颈#

分析 3: “世界构建”的代价#

分析 4: 幻觉与糟糕的解释#

分析 5: 长度重要吗？#

结论与启示#

引言