引言
多年来,自然语言处理的“圣杯”一直是真正的阅读理解。我们已经从简单的关键字匹配发展到语义搜索,现在又有了能够处理海量信息的大型语言模型 (LLM) 。但是,处理文本与真正理解文学之间存在着显著的差异。
试想一下分析像《了不起的盖茨比》或《弗兰肯斯坦》这样的小说。当一位文学学者提出一个论点——例如,认为某个角色的服装象征着他们的道德败坏——他们必须用具体的文本证据来支持这一主张。他们不仅仅是搜索“外套”这个词;他们需要回想叙事弧线,理解潜台词,并精准定位描述支持其理论的确切时刻。
这个过程被称为文学证据检索 (Literary Evidence Retrieval) 。
在最近的一篇论文中,研究人员 Katherine Thai 和 Mohit Iyyer 探讨了现代“长上下文”LLM——那些能够在单个提示中摄取整本书的模型——是否能够执行这种高水平的任务。他们的工作重新利用了 RELiC 数据集,以测试 Gemini Pro 2.5 和 GPT-4o 等模型是否能充当文学侦探。结果令人惊讶: 最好的模型现在已经超越了人类专家,但它们仍然在界定伟大文学作品的微妙之处上苦苦挣扎。
在这篇文章中,我们将剖析他们的方法论,审视从“检索”到“推理”的转变,并分析为什么即使是最聪明的 AI 仍然难以读懂字里行间的意思。
从检索到推理
要理解这篇论文的创新之处,我们首先需要看看这个问题以前是如何解决的。
旧方法: RAG 和嵌入
传统上,如果你想让 AI 在书中找到一段引文,你会使用检索增强生成 (RAG) 方法。你会将书切成小块,将这些块转化为数学向量 (嵌入) ,然后搜索与你的查询在数学上最接近的块。
在文学领域,这种方法的问题在于“查询” (文学评论) 通常不与“答案” (引文) 共享关键字。评论家可能会谈论“孤独”和“忧郁”,而支持的引文描述的却是“一个冰冷、空荡荡的房间”。标准的检索器可能会完全错过这种联系,因为词汇没有重叠。
新方法: 长上下文阅读
随着能够处理 128k、200k 甚至 100 万 token 上下文窗口的模型的出现,我们不再需要把书切碎。我们可以将整本小说连同评论一起输入到模型的工作记忆中。
研究人员将任务定义如下:
- 输入: 第一手来源的全文 (例如,《红字》) 。
- 输入: 一段关于该书的文学评论摘录,其中支持性的引文被替换为
<MASK>。 - 目标: 模型必须生成书中支持评论家论点的确切缺失引文。
这反映了人类进行文学分析的过程: 在脑海中保持叙事的全局背景,同时进行“细读”以寻找具体证据。
数据集策展: 清理图书馆
研究人员使用了 RELiC 数据集,其中包含数千条文学主张。然而,原始数据很少是完美的。为了建立一个严格的基准,他们必须对数据进行广泛的清理。
原始数据集包含如下问题:
- OCR 伪影: 扫描旧书产生的乱码文本。
- 引用泄露: 评论有时会意外包含部分引文,泄露了答案。
- 位置剧透: 诸如“在最后一章……”之类的短语,这使得检索任务变得过于容易。
在过滤掉这些问题后,研究人员整理出了涵盖经典小说作品的 292 个高质量示例子集。

如上方的 Table 4 所示,第一手来源的篇幅相当可观。像亨利·詹姆斯的《梅西以此为鉴》 (What Maisie Knew) 这样的小说超过了 124,000 个 token。这证实了该任务是真正的“长上下文”任务;模型不能仅靠猜测;它必须在巨大的搜索空间中导航,才能在大海中捞到那根特定的针。
为了进一步说明挑战的规模,我们可以看看数据集的摘要统计数据。

Table 1 显示,对于这 292 个精选示例,模型必须处理每本书平均约 85,000 个 token。这要求模型架构不仅能“看到”文本,还能关注跨越巨大距离的特定细节。
实验设置
研究人员测试了各种模型,从闭源巨头到开放权重的竞争者。
模型:
- 闭源: Gemini Pro 1.5 & 2.5, GPT-4o, o1, o3, Claude 3.7 Sonnet。
- 开放权重: Llama 3.1 & 3.3, Qwen 2.5, DeepSeek-R1。
- 基线: 标准的基于嵌入的检索器 (GTE-Qwen2-7B),代表“旧方法”。
- 人类专家: 作者之一 (拥有英语文学学位) 手动尝试了部分任务,以建立人类基线。

Table 5 列出了技术规格。注意上下文窗口: 大多数测试的模型支持至少 128k 的上下文,Gemini Pro 甚至高达 100 万 token。
提示词 (Prompts) : 他们测试了两种提示策略:
- 简单 (Simple) : 只要求模型填补掩码。
- 解释 (Explanation) : 要求模型先解释为什么某段引文合适,然后再提供引文。这是为了测试“思维链” (Chain of Thought) 推理是否有助于文学解读。
结果: 机器评论家的崛起
这项研究的结果标志着 NLP 历史上的一个重要时刻。在这个特定任务上,AI 模型首次超越了人类专家。

Table 2 提供了核心结果。让我们分解一下关键结论:
1. 人类基线被打破
看最后一行。人类专家在评估子集 (\(\alpha\)) 上达到了 55.0% 的准确率。这凸显了任务的难度。即使对于拥有文学学位的人来说,正确识别评论家心中的确切引文也是具有挑战性的,因为文学解读具有主观性。
2. Gemini Pro 2.5 夺冠
表现最好的模型 Gemini Pro 2.5 在人类评估子集上达到了 62.5% , 超过了人类专家。在完整数据集上,使用解释提示词,它达到了 64.7% 的准确率。这表明,该模型扫描全文并将其与评论的语义进行交叉引用的能力优于人类的记忆和搜索策略。
3. 嵌入基线失败
传统的检索方法 (GTE-Qwen2-7B) 仅获得了惨淡的 4.5% 分数。这证明了文学证据检索不是关键字匹配任务。它需要简单的向量相似性无法捕捉的深层语义理解。
4. 开放权重的差距
闭源模型和开放权重模型之间存在鲜明对比。最好的开放模型 DeepSeek-R1 仅获得 29.1% 的准确率。这表明,虽然开放模型在编码和数学方面正在迎头赶上,但在文学所需的微妙“解释性推理”方面仍然明显落后。
5. 细读 (\(\beta\) 折叠)
Table 2 中的 \(\beta\) 列代表“细读”示例。这些是较容易的任务,其中的评论实际上引用了文本片段。你会预期这里的表现很高。
- Gemini Pro 2.5 以 79.5% 占据主导地位。
- Llama 3.1 (8B) 仅得 2.6% 。 这表明,当背景 (整本书) 压倒性巨大时,较小的模型甚至难以利用直接的词汇重叠。它们基本上在长上下文中“迷失”了。
模型为何失败?
尽管顶级模型得分很高,但它们远非完美。论文指出了两个主要的失败模式: 过度生成 (Overgeneration) 和对细微差别的盲视 (Nuance Blindness) 。
过度生成的问题
提示词明确要求模型提供“不超过五个连续句子”的引文。然而,模型经常忽略这一点,提供整段甚至整页的内容。

Table 3 显示了“长度比率”。1.0 的比率意味着模型生成的引文长度与基准真值完全相同。
- 人类的比率为 2.1 , 意味着他们自然地提供了比必要稍多一点的上下文。
- GPT-4.1 的比率为 4.8 , 提供了所需文本近五倍的内容。
- Llama 3.1 飙升至 5.9 。
研究人员假设,较弱的模型“通过产生更长的输出来弥补不确定性”。本质上,它们倾向于“广撒网”,希望正确的答案就在它们返回的大块文本中的某个地方。
在细微差别中挣扎
当模型找到证据,但不是正确的证据时,最令人着迷的失败就发生了。
在《红字》 (The Scarlet Letter) 的一个例子中,评论家讨论了对角色 Chillingworth 描述中的“情节剧 (melodrama) ”色彩。
- 人类正确识别了一段描述 Chillingworth 脸上“扭曲的恐怖”的段落——这一描述显然符合情节剧的定义。
- 模型 (Gemini, o3, GPT-4) 都选择了附近出现的对 Chillingworth 的另一段描述。这段文字描述的是他身体上不平整的肩膀。
虽然模型找到了角色的描述,但它们未能将“情节剧” (夸张的情感) 这一特定概念与文本联系起来。它们理解了是谁 (Chillingworth) 和在哪里 (场景) ,但错过了为什么 (主题联系) 。
这凸显出,虽然模型拥有巨大的处理能力,但它们仍然缺乏训练有素的人类读者所拥有的“文学品味”或深层语义对齐。
结论
Thai 和 Iyyer 的工作展示了长上下文 LLM 的巨大飞跃。我们已经从只能简单总结书籍的模型,发展到可以主动搜索书籍以支持复杂论点的模型。
Gemini Pro 2.5 在这个基准测试中能够超越人类专家,这证明了现代上下文窗口和推理能力的强大。然而,结果也起到了现实检验的作用。在寻找相关文本和寻找完美文本证据之间,仍然存在巨大的鸿沟。
模型过度生成的倾向以及它们在主题细微差别上的挣扎表明,我们尚未真正解决文学分析问题。我们建造了一个非常快、博览群书的图书管理员,但我们还没有建造出一个文学评论家。
对于学生和研究人员来说,这篇论文开辟了令人兴奋的途径。它表明,“推理”不仅仅关乎数学或逻辑谜题;它还关乎理解艺术所需的解释性和主观性推理。随着模型的改进,我们可能很快就会看到 AI 工具能够协助学者在世界文学的浩瀚海洋中航行,揭示任何单个人类都无法发现的联系。
](https://deep-paper.org/en/paper/2506.03090/images/cover.png)