引言
在大语言模型 (LLM) 的快速演进中,有一个指标已成为主要的炫耀资本: 上下文窗口 。 我们已经从只能记住几个段落的模型,发展到了像 Gemini 1.5 Pro 和 GPT-4o 这样的庞然大物,它们号称能一次性处理数十万甚至数百万个 token。理论上,你现在可以将整本小说喂给 AI 并针对书的内容进行提问。
但在处理一本小说和理解它之间,存在着巨大的差异。
目前的评估通常依赖于“大海捞针” (Needle-in-a-Haystack,简称 NIAH) 测试,即把一个随机句子 (针) 隐藏在大量不相关的文本 (干草堆) 中。如果模型能找到这个句子,它就算通过测试。虽然这证明了模型可以检索数据,但这并不能证明它能够针对叙事弧线进行推理、理解角色发展或追踪长达 300 页的情节中的不一致之处。
为了弥补这一空白,来自马萨诸塞大学阿默斯特分校 (UMass Amherst) 、艾伦人工智能研究所 (Allen Institute for AI) 和康奈尔大学的研究团队推出了 NOCHA (A NOvel CHAllenge,意为“小说挑战”) 。这个新的数据集不仅挑战 LLM 检索文本的能力,还要求它们验证关于近期出版小说的复杂陈述。

如 图 1 所示,这项研究超越了合成测试。通过聘请人类读者针对 2023 年和 2024 年出版的书籍生成成对的“真/假”陈述,研究人员揭示了一个惊人的现实: 虽然模型在阅读方面做得更好了,但它们在理解方面仍然步履维艰。
背景: 大海捞针的问题
要理解为什么 NOCHA 是必要的,我们必须先看看当前基准测试的局限性。
“针”的错觉
评估长上下文模型的行业标准是 NIAH 测试。它涉及将一个特定的事实 (例如,“密码是 42”) 插入文档的不同深度,并要求模型检索它。最近的模型通常在这些测试中得分接近 100%。
然而,作者认为 NIAH 仅测试了表层检索 。 “针”通常与周围的文本无关,这使得模型在数学上更容易发现它。它不需要综合、不需要推断,也不需要对文档结构有全局性的理解。
数据污染
另一个主要问题是污染 。 如果你在《了不起的盖茨比》或《哈利·波特》上测试模型,模型很可能在训练阶段就已经记住了情节。它不需要阅读你提供的上下文;它可以从其内部的“参数记忆”中回答问题。为了真正测试长上下文能力,模型必须面对它实际上从未见过的文本。
NOCHA 方法论
研究人员设计的 NOCHA 旨在严格测试“书籍级”的理解能力,同时避免以前基准测试的陷阱。
1. 语料库: 新鲜的小说
为了减少数据污染,团队选择了 67 本书 , 其中大部分出版于 2023 年和 2024 年。这些书很可能不在 2024 年中期之前训练的模型的训练数据中。他们专注于小说,以防止模型依赖现实世界的事实 (参数知识) ,并迫使它们仅依赖提供的文本。

如 图 5 所示,该数据集涵盖了广泛的体裁,从浪漫和悬疑到奇幻和恐怖。这确保了评估不会偏向于某种单一的写作风格。
2. 秘密武器: 叙事最小对 (Narrative Minimal Pairs)
NOCHA 的核心创新在于使用叙事最小对 。 人类标注员 (真正读过这些书的人) 并没有提出随机问题,而是创建了一对对的陈述:
- 真实陈述: 基于书籍内容无可争议的真实陈述。
- 虚假陈述: 关于同一事件或实体的陈述,差异极小但为假。
为什么要成对使用? 如果你只是问模型“X 是真的吗?”,它有 50% 的机会猜对。此外,模型在不确定时往往有回答“真”或“假”的偏好。
通过使用最小对,研究人员只有在模型正确识别真实陈述为真且虚假陈述为假时,才计为一次“成功”。这防止了模型“因错误的理由而蒙对”。

上面的 图 2 展示了这种复杂性。在顶部的例子中,模型在处理真实陈述时,正确识别了关于受害者死亡的暗示。然而,当面对虚假陈述 (声称没有此类暗示) 时,模型产生了幻觉,同意了这个虚假前提。因为它在这一对测试的后半部分失败了,所以它得分为零。
3. 推理范围: 全局与局部
并非所有的陈述都是平等的。研究人员根据验证陈述所需的书籍内容量对陈述进行了分类:
- 句子级: 可以通过找到单个句子来回答 (类似于 NIAH) 。
- 段落级: 需要阅读几个段落。
- 全局推理: 需要综合分散在整本书中的信息 (例如,理解一个从第 1 章发展到第 20 章的角色动机) 。
至关重要的是, NOCHA 中 47.9% 的陈述需要全局推理 , 这使得它比现有的基准测试难得多。
实验与结果
团队评估了 11 个著名的模型,包括闭源的重量级选手 (GPT-4o、Claude 3 Opus、Gemini 1.5 Pro) 和开放权重模型 (Command R、Llama 等) 。模型被输入了书籍的全文 (范围从 4.9 万到 33.6 万 token) ,并被要求验证这些陈述。
发现: 现实检验
结果显示,人类能力与 AI 表现之间存在巨大差距。

表 24 突出了在新鲜 (非经典) 书籍上的成对准确率:
- 人类: ~97% 准确率。
- GPT-4o: 55.3% (表现最好的模型) 。
- Claude 3 Opus: 49.4%。
- Gemini 1.5 Pro: 48.1%。
- 开放权重模型: 几乎所有模型的表现都低于或接近随机概率 (成对测试为 25%) 。
请注意,一对陈述 (真/真、真/假、假/真、假/假) 的“随机概率”实际上是 25%。这意味着即使是最强大的模型,在这个任务上也仅仅是勉强超过了抛硬币的概率,尽管它们拥有巨大的上下文窗口。
分析 1: “找针”的技能无法迁移
也许最令人惊讶的发现是,在“大海捞针”基准测试中的高性能并不能预测在 NOCHA 上的成功。像 GPT-4 Turbo 和 Command R 这样的模型,虽然在合成检索任务上得分近乎完美,但在这里却表现得非常挣扎。这证实了检索关键词与理解叙事有着根本的不同。
分析 2: 全局推理是瓶颈
当模型必须进行全局推理而不是仅仅寻找一个句子时,任务的难度会急剧上升。

图 11按证据范围细分了准确率。
- 句子级 (蓝色) : 模型在这里表现最好 (平均约 60%) ,因为这模仿了它们优化过的检索任务。
- 全局 (紫色) : 表现显著下降 (平均约 41.6%) 。模型难以在“脑海”中同时掌握书的“全貌”。
分析 3: “世界构建”的代价
研究人员还发现,小说的类型也很重要。

如 图 3 所示:
- 历史与当代小说: 模型表现较好。这些书发生在“现实世界”,允许模型依靠其关于世界运作方式的预训练知识。
- 推想小说 (科幻/奇幻) : 模型表现显著较差。在这些书中,作者发明了新的规则、物理定律和社会。模型无法依赖外部知识,必须完全从上下文窗口处理新的“世界”——这显然是一项它觉得非常困难的任务。
分析 4: 幻觉与糟糕的解释
即使模型猜对了标签,其推理过程往往也是有缺陷的。研究人员分析了模型生成的文本解释,发现没有一个模型能持续产生准确的解释 。
例如,一个模型可能会正确地说某个陈述是“假”的,但在理由中却引用了一段从未发生的对话,或者引用了书中完全不同部分的剧情点。这表明,即使是 GPT-4o 约 55% 的准确率,也可能包含了运气的成分。
分析 5: 长度重要吗?
有趣的是,对于顶级模型来说,书籍的绝对长度 (token 数量) 并不是失败的决定性预测因素。

图 10 显示,虽然一些模型在超过 18 万 token 的书籍上表现略有下降,但对于像 GPT-4o 或 Gemini 1.5 这样的模型来说,下降并非灾难性的。挑战似乎在于所需推理的复杂性,而不仅仅是单词的原始数量。
结论与启示
NOCHA 论文为 AI 行业提供了一次至关重要的现实检验。它证明了上下文窗口大小并不等同于理解力 。 我们已经成功构建了可以将一本小说“保存”在记忆中的模型,但我们还没有构建出能像人类那样深度“阅读”它的模型。
给学生和研究人员的关键要点:
- 不要轻信“找针”测试: 如果你正在评估 RAG (检索增强生成) 或长上下文系统,简单的检索测试是不够的。你需要包含综合性要求的任务。
- 最小对很强大: 在设计评估时,使用成对的真/假样本是过滤噪声和猜测的有效方法。
- 推理差距: NLP 研究的前沿不仅仅是让上下文窗口变得更大;而是改进注意力机制和推理能力,以利用该空间。
在模型能够可靠地分辨剧情反转和机器幻觉之前,阅读一本好书仍然是一种独特的人类乐趣。
](https://deep-paper.org/en/paper/2406.16264/images/cover.png)