超越摘要: AI 能真正理解科学研究吗?
如果你曾经试过阅读一篇自己并不完全熟悉领域的晦涩科学论文,你就知道那种挣扎。这不仅仅是阅读文字的问题;它是关于理解语境、解读表格、诠释方程,以及将附录与方法论联系起来的过程。
对于人工智能而言,这一挑战被放大了。虽然像 GPT-4 和 Llama 这样的大语言模型 (LLM) 在总结文本方面表现出了惊人的能力,但科学文献仍然是最后的疆界。大多数用于测试 AI 科学能力的现有数据集都令人惊讶地浅显——它们通常依赖于摘要或简单的事实检索。
但是,如果我们能用最棘手的问题来测试 AI 呢?如果是那些仔细审视过论文每一行的领域专家提出的问题呢?
这就是 SCIDQA 的前提,这是一个由来自 IIT Gandhinagar、耶鲁大学和艾伦人工智能研究所 (Allen Institute for AI) 的研究人员推出的全新深度阅读理解数据集。通过利用学术同行评审过程中严格的反复论证,他们创建了一个基准,要求真正的推理,而不仅仅是模式匹配。
在这篇文章中,我们将深入探讨 SCIDQA 是如何构建的,它与之前的成果有何不同,以及现代 LLM 在面对同行评审员的审视时表现如何。
当前科学问答面临的问题
在探索 SCIDQA 之前,我们需要了解它所填补的空白。自然语言处理 (NLP) 社区已经创建了各种数据集来帮助机器“阅读”科学文献。然而,它们存在显著的局限性:
- 表层信息: 许多数据集 (如 PubMedQA 或 QASPER) 严重依赖标题和摘要。AI 通常无需阅读全文即可回答这些问题。
- 合成问题: 一些数据集是自动生成的或由非专家生成的。这些问题往往是简单的查找任务 (例如,“准确率是多少?”) ,而不是深度推理任务。
- 简短回答: 答案通常只是一个“是/否”或直接从文档中提取的一小段文本。
真正的科学互动需要深度理解 。 当评审员评论一篇论文时,他们可能会询问特定方程的含义,指出图表与表格之间的矛盾,或者询问该方法与三年前发表的一篇论文相比如何。
SCIDQA (Scientific Document Question Answering,科学文档问答) 旨在复制这种深度的理解。
构建 SCIDQA: 挖掘同行评审过程
SCIDQA 的天才之处在于它的素材来源: OpenReview 。
OpenReview 是顶级机器学习会议 (如 ICLR 和 NeurIPS) 使用的平台,其中的同行评审过程是公开的。评审员发布评论和问题,作者发布详细的回复。这种对话是专家级问答 (QA) 对的金矿。
数据整理流程
将混乱的互联网论坛讨论转化为结构化的数据集并非易事。研究人员开发了一个复杂的流程,将原始讨论转化为结构化数据集。

如图 2 所示,该过程涉及几个关键阶段:
- 收集: 他们从顶级会议收集了 11,400 篇论文的数据。
- PDF 转文本: 使用一种名为 Nougat (用于学术文档的神经光学理解) 的专用工具,他们将科学 PDF 转换为文本。这至关重要,因为标准的 PDF 解析器通常会破坏数学公式和表格的格式。
- 提取: 他们使用 PaLM 语言模型来识别并从嵌套的讨论线程中提取问答对。
- 标注与优化: 这是最重要的一步。人类专家 (NLP/ML 领域的研究生) 审查了数据以确保质量。
问答对长什么样?
为了直观展示源数据,请看下面的图 1 。 它展示了 OpenReview 上的讨论如何转化为数据集条目。

在左侧,你可以看到“评审员”针对二值掩码 (binary masks) 与软掩码 (soft-mask) 方法提出了具体的技术问题。“作者”用涉及归纳偏置的详细理由进行了回应。在 SCIDQA 数据集 (中间) 中,这被标准化为清晰的“问题”和“答案”格式,并链接到论文中的具体证据 (如表 1 或图 1) 。
精炼的艺术
来自互联网的原始数据很少能直接用于机器学习。作者必须解决三个独特的问题才能使 SCIDQA 变得可靠。
1. 去语境化
在论坛中,人们使用第一人称说话 (“你为什么要这样做?”“我们发现…”) 。对于通用的 QA 数据集,这会造成困扰。模型不应该认为自己就是作者。
研究人员将问题和答案重写为第三人称。他们还添加了对话中隐含的必要背景信息。

如图 4 所示,一个问“你是否声称…”的问题被重写为“作者是否声称…”。这种微小的转变确保了 AI 理解自己是一个分析文本的观察者,而不是辩论的参与者。
2. 参考文献编辑
科学论文充满了像“[12]”或“(Smith et al., 2020)”这样的引用。如果一个问题问,“这与 [12] 相比如何?”,AI 可能只会寻找文本中的字符串“[12]”,而不理解内容。这是一条会虚高评分的“捷径”。

为了防止这种情况,研究人员对引用进行了匿名化处理 (例如,将其更改为 [r1],[r2]) ,并在问题文本中包含了完整的书目参考 (见图 5 )。这迫使模型根据标题和作者来理解正在讨论的是哪篇论文,而不仅仅是一个数字。
3. 版本控制
在同行评审期间,论文会发生变化!作者上传修订后的 PDF 以解决评审员的疑虑。一个问题可能指的是“表 3”,但在修订版中,那可能变成了“表 4”。

如图 6 所示,研究人员仔细追踪了一个问题最好是由初稿还是定稿 (camera-ready version) 来回答。如果作者为了回答问题添加了一个新表格,那么最终版本是正确的来源。如果答案已经在文本中但评审员漏掉了,则使用初稿。
SCIDQA 的对比情况如何?
这个数据集实际上比现有的更难或更不同吗?让我们看看统计数据。

表 1 突出了差异:
- 来源: SCIDQA 基于全文,不像 QASPER 或 PubMedQA 那样通常依赖摘要。
- 答案长度: 平均答案长度超过 100 个单词——明显长于其他数据集。这表明答案需要解释,而不仅仅是提取事实。
- 多文档: 它是列表中唯一明确要求跨多文档 (主论文 + 参考文献) 进行推理的数据集。
实验设置: 测试 AI
为了看看当前技术如何处理这种深度推理,研究人员为各种大语言模型 (LLM) 设置了四种不同的“考试条件”,从 Llama 2/3 等开源模型到 GPT-4o 等专有巨头。
1. 闭卷 (“记忆”测试)
在这种设置下,模型只获得问题。它必须依赖其内部训练数据。由于这些是著名论文,模型可能在训练期间“读”过它们。

2. 标题和摘要 (“略读”测试)
在这里,模型获得问题以及论文的标题和摘要。这模仿了研究人员在尝试回答深层问题之前只阅读摘要的情况。

3. RAG 和全文 (“开卷”测试)
这是最现实的场景。模型被给予论文的实际内容。
- RAG (检索增强生成) : 系统在论文中搜索最相关的文本块,并将其提供给 LLM。
- 全文: 模型尝试处理整篇论文。

如上面的图 9/10 (组合图) 所示,处理全文很棘手,因为论文很长。对于上下文窗口有限的模型,研究人员将论文分块,为每个块生成答案,然后使用强大的模型 (Llama 3.1 70B) 来选择最佳答案。对于现代“长上下文”模型 (如 GPT-4o 或 Gemini 1.5) ,他们一次性输入整篇论文。
结果: 谁是最聪明的科学家?
结果揭示了一个严峻的现实: 深度科学理解对 AI 来说仍然非常困难。
排行榜

表 3 提供了高层摘要。以下是关键要点:
- GPT-4o 占据主导地位: 来自 OpenAI 的专有模型始终优于开源替代品,在几乎所有指标上都取得了最高分。
- 上下文很重要 (通常) : 对于大多数模型,与闭卷设置相比,访问文本 (RAG 或全文) 可以提高性能。
- “幻觉”陷阱: 有趣的是,对于最强的模型 (如 GPT-4o) ,“闭卷”和“全文”之间的性能差距出奇地小 (约 5 分) 。这暗示了两种可能性:
- 模型在训练期间记住了这些论文 (数据污染) 。
- 即使没有源文本,模型也擅长编造听起来令人信服的科学答案。
深入分析: 全文性能

仔细观察表 5 中的全文结果,我们看到即使是最好的开源模型 (如 Llama 3.1 70B) 也难以匹敌 GPT-4o。
然而,有一个微妙的细节。虽然 GPT-4o 在表面指标 (如衡量单词重叠的 ROUGE) 上得分很高,但人工评估和“LLM 作为裁判”的指标描绘了一幅更复杂的画面。
研究人员指出,仅仅找到正确的段落是不够的。SCIDQA 需要多模态推理 。
- 14% 的问题需要阅读表格。
- 10% 需要理解方程。
- 7% 需要解释图表。
大多数纯文本 LLM 在这些问题上表现惨淡,因为它们无法有效地“看见”图表或解析复杂的 LaTeX 方程。
人类 vs. AI
机器打败我们了吗?作者进行了一项小型研究,比较了 GPT-4 的回答与人类编写的回答。
- 32% 的情况下,是平局。
- 29% 的情况下,人类更受青睐 (主要是因为 GPT-4 犯了事实性错误) 。
- 21% 的情况下,GPT-4 更受青睐 (主要是因为人类标注员不是该特定子领域的专家) 。
这表明,虽然 AI 很有能力,但领域专家仍然是准确性的黄金标准。
结论与启示
SCIDQA 代表了 AI 评估向前迈出的重要一步。通过摆脱合成问题和摘要,它迫使我们正视当前模型的局限性。
研究表明,虽然 LLM 正变得像优秀的语言模仿者,但它们在复杂的科学文档上进行深度、多步推理的能力仍在发展中。它们在同行评审员关心的具体细节上很吃力——如方法论缺陷、与先前工作的微妙比较以及对表格中实验数据的解释。
对于 AI 领域的学生和研究人员来说,SCIDQA 作为一个新的“北极星”。解决这个数据集不仅仅意味着我们拥有更好的聊天机器人;它意味着我们将拥有真正能够帮助科学家在人类知识爆炸式增长中导航的 AI 助手。
科学发现的未来可能正取决于机器能在多大程度上回答同行评审中提出的这些问题。
注: 本文引用的所有图像和表格均直接来源于 SCIDQA 研究论文。
](https://deep-paper.org/en/paper/2411.05338/images/cover.png)