我们生活在一个大语言模型 (LLM) 几秒钟就能总结一本书或分析一份法律合同的时代。然而,对于任何使用这些工具进行严肃研究或工作的人来说,一个令人头疼的问题始终挥之不去: 我能相信它吗?
LLM 以产生“幻觉”而臭名昭著——即生成听起来合理但完全不正确的信息。当你使用 LLM 作为“长文档助手”时 (例如,要求它从 50 页的 PDF 中提取特定条款) ,准确性是不可妥协的。为了建立信任,我们需要模型把两件事做得更好: 归因 (Attribute) (为其主张提供证据) 或 拒绝回答 (Abstain) (当答案不存在时承认这一点) 。
在这篇文章中,我们将深入探讨论文《Attribute or Abstain: Large Language Models as Long Document Assistants》。我们将探索研究人员如何评估不同的策略,以使 LLM 更负责任,将重点从简单的问答转移到可验证的、基于证据的推理上。
问题所在: 幻觉与可验证性
试想一下,问一位研究助理: “这篇论文中使用的数据集大小是多少?”如果助理回答“567 条评论”,你只能听信他们的一面之词。但如果他们回答,“567 条评论,如第 4 页表 2 所述”,你可以立即进行验证。
这就是问题的核心。目前的 LLM 通常像第一种助理——自信但不透明。我们的目标是将它们转变为第二种类型。

如图 1 所示,一个理想的系统有三种潜在的结果:
- 归因 (Attribute) : 回答问题 并 指出支持该回答的文本片段 (证据) 。
- 拒绝回答 (Abstain) : 识别出文档不包含答案,并明确说明“无法回答”。
- 失败 (Fail) : 产生幻觉般的答案或提供不相关的证据 (这是我们要避免的结果) 。
虽然“检索增强生成” (RAG) 是将 LLM 连接到外部数据 (如维基百科) 的流行方法,但这篇论文关注的是一个不同且特定的场景: 长文档任务 。 在这里,“数据库”是一个单一的、能够 (或几乎能够) 放入模型上下文窗口的长文档。挑战不在于从数百万份文档的大海中捞针,而在于对一份密集的文本进行准确推理而不失焦。
LAB 基准测试
为了研究这一点,研究人员推出了 LAB (长文档归因基准测试,Long-document Attribution Benchmark) 。他们需要一组多样化的测试场地,以确保他们的发现不仅限于某一种类型的文本。
他们汇编了涵盖科学、法律、政府和常识的 6 个数据集。

如表 1 所列,这些任务差异巨大:
- QASPER: 关于科学论文的问题。
- ContractNLI: 检查法律合同中的特定条款 (蕴含关系) 。
- GovReport: 总结政府报告。
- Evidence Inference: 从临床试验文本中确定医疗结果。
这种多样性至关重要,因为适用于总结政府报告的方法在检查严格的法律定义时可能会失败。
核心方法: 如何强迫 LLM 注明出处
这项研究的核心在于我们 如何 要求模型执行任务。是让它阅读整篇文档?还是强迫它先进行搜索?作者试验了几种独特的归因架构。

图 2 展示了研究中比较的五种方法。让我们详细分解其中最重要的三种:
1. 事后归因 (Post-Hoc,先生成后验证)
在这种方法中,模型的表现就像一个参加考试的学生,先写下答案,然后再回头去教科书里找一段引文来支持它。
- 第 1 步: LLM 基于文档 \(D\) 生成回答 \(R\)。
- 第 2 步: 一个搜索机制使用该回答在文档中找到最佳的证据片段 \(E\)。
- 优点: 这将写作的难度与搜索的难度分离开了。
2. 先检索后阅读 (Retrieve-then-Read,标准 RAG)
这是经典的搜索引擎方法。
- 第 1 步: 根据问题从文档中检索相关的文本块 \(E\)。
- 第 2 步: 仅 将这些文本块提供给 LLM 以生成答案。
- 优点: LLM 需要处理的数据更少。
- 缺点: 如果检索器在第 1 步错过了相关段落,LLM 就完全没有机会回答正确。
3. 引用 (Citation,“高阶用户”方法)
在这里,LLM 被提示同时执行这两项任务。它阅读文档并生成带有嵌入式引用的答案 (例如,“数据集包含 500 张图像 [1]…”) 。
- 机制: 模型在一次通过中生成回答和证据指针。
- 优点: 模型拥有文档的完整上下文,可以将证据自然地编织到推理中。
研究人员还测试了“缩减版” (Reduced-Post-Hoc 和 Reduced-Citation) ,即在使用 LLM 之前,先使用检索器将文档缩小到最相关的 10 个片段,试图节省计算成本和上下文窗口使用量。
实验与结果
研究人员在五种不同规模的 LLM 上测试了这些方法:
- 大型/闭源模型: GPT-3.5 和 GPT-4。
- 开源/较小模型: Longchat (7B)、Mistral (7B) 和经过微调的 Flan-T5。
他们使用 回答质量 (Response Quality) (答案正确吗?) 和 证据质量 (Evidence Quality) (引用准确吗?) 的指标来衡量成功与否。
RQ1: 什么是最佳方法?
结果显示,根据模型的“智能程度”或规模,情况有显著的分歧。

表 3 提供了综合记分板。以下是关键结论:
- 聪明的模型应该使用引用: 对于像 GPT-4 和微调后的 Flan-T5 这样能力很强的模型, 引用 (Citation) 方法 (同时生成答案和证据) 通常表现最好。这些模型有足够的能力在“脑海”中同时保留答案和来源。
- 较小的模型需要帮助: 像 Longchat 和 Mistral 这样较小的模型在引用方法上很吃力。它们在 事后归因 (Post-Hoc) 方法上表现更好。这表明较小的模型缺乏多任务处理的指令遵循能力;它们需要将问题分解为“先回答,再找证据”。
- 检索可能会有副作用: 有趣的是, 先检索后阅读 (Retrieve-then-Read) 方法的表现通常不如简单地让模型阅读整篇文档 (引用法) 。在单一长文档的背景下,预先过滤文本有可能会切掉模型合成答案所需的关键上下文或分散的信息。
RQ2: “迷失在中间”现象
LLM 的一个已知问题是“迷失在中间 (Lost in the Middle) ”效应——即模型擅长记住提示开头或结尾的信息,但会遗忘埋在中间的信息。研究人员调查了这种偏差是否适用于 归因。

图 3 (上图) 比较了模型 找到 证据的位置与证据实际所在位置 (黄金证据/Gold Evidence) 的对比。
- 发现: 令人惊讶的是,他们并没有在归因任务中发现强烈的“迷失在中间”效应。模型 (彩色条) 通常与真实基准 (条纹条) 的分布相匹配。无论证据位于文本的何处,它们都能找到。
然而,观察图 3 (下图) ,它绘制了 回答质量 , 我们看到了一个不同的故事。线条的下降趋势表明,虽然模型可以在任何地方 找到 证据,但当相关信息位于文档末尾时,它们形成 正确答案 的能力会下降。
RQ3: 证据能预测准确性吗?
如果 LLM 提供了高质量的引用,这是否意味着答案是正确的?如果是这样,我们可以使用“可归因性 (Attributability) ” (证据的质量) 作为置信度的代理指标。如果模型无法注明出处,我们应该程序化地让它拒绝回答。

表 4 显示了“选择性预测”的结果——即检查过滤掉证据糟糕的回答是否能提高整体准确率得分。
- 好消息: 对于涉及单一事实的数据集 (如 Natural Questions 或 Evidence Inference ),高质量的证据与高质量的回答密切相关。如果模型很好地引用了来源,它通常是对的。
- 坏消息: 对于像 GovReport (摘要) 或 QASPER (多跳推理) 这样的复杂任务,这种相关性破裂了。
- 为什么? 研究人员发现,模型经常给出 正确 的答案,但未能引用复杂主张所需的 所有 证据。这种不匹配使得仅依靠引用质量作为复杂任务的过滤器变得危险,因为你可能会仅仅因为模型在加注脚时偷懒而扔掉正确的答案。
结论与启示
论文《Attribute or Abstain》为构建更可靠的专业工作流 AI 助手提供了路线图。
对于学生和开发者来说,最直接的启示是 架构很重要 。 你不能简单地把一个长 PDF 扔给 LLM 就指望得到最好的结果。
- 如果你有 GPT-4 的预算,提示它使用 行内引用 。 它能有效地利用完整的上下文。
- 如果你是基于较小的开源模型 (如 7B 参数模型) 进行构建,你应该建立一个 流水线 : 让模型自由回答,然后运行一个单独的流程来针对文本验证该答案 (事后归因) 。
此外,“拒绝回答”的能力仍然是一个前沿领域。虽然模型在注明它们所知内容方面做得越来越好,但在承认它们不知道什么方面仍然难以做到可靠,特别是当答案需要综合分散在长文本中的信息时。随着我们的进步,AI 说“我检查了文档,答案不在里面”的能力将与生成答案的能力一样有价值。
](https://deep-paper.org/en/paper/2407.07799/images/cover.png)