引言
我们正经历着科学文献的爆炸式增长。每天,人工智能 (AI) 和机器学习 (ML) 等领域都会发表数百篇新论文,引入新的任务 , 提出新颖的方法 , 并在各种数据集上对其进行评估。对于人类研究人员来说,想要紧跟这种海量信息的步伐几乎是不可能的。
这就是科学信息提取 (Scientific Information Extraction, SciIE) 的用武之地。SciIE 的目标是将非结构化文本 (你阅读的 PDF 文件) 转化为结构化知识。通过提取实体 (如 BERT 或 ImageNet) 以及它们之间的关系 (如 BERT is-evaluated-on SQuAD) ,我们可以构建知识图谱,从而为推荐系统、学术搜索引擎甚至自动问答机器人提供支持。
然而,这其中存在一个瓶颈。大多数用于训练这些系统的数据集严重依赖于摘要 。 虽然摘要简洁明了,但它们遗漏了隐藏在论文正文中的丰富、细粒度的细节。摘要可能会说“我们提高了性能”,但实验部分会确切地告诉你使用了哪些超参数,或者以哪些特定子任务为基准进行了测试。
在这篇文章中,我们将深入探讨一篇旨在解决这一问题的研究论文: SciER 。 作者基于全文科学出版物引入了一个新的人工标注数据集。他们还提出并基准测试了复杂的方法,包括利用专门提示技术的大型语言模型 (LLMs) ,以提取这些复杂的信息。
摘要的局限性
要理解为什么 SciER 是必要的,我们首先需要看看当前领域的局限性。
传统的 SciIE 任务通常涉及两个步骤:
- 命名实体识别 (NER) : 识别关键术语 (例如,识别出 “ResNet-50” 是一个 Method) 。
- 关系提取 (RE) : 确定这些术语如何相互作用 (例如,“ResNet-50”
is-used-for“Image Classification”) 。
像 SciERC 这样的流行基准已经很好地服务了社区,但它们仅限于摘要。摘要是总结;它们是论文的营销推介。它们往往缺乏引言、方法和实验部分中包含的具体实现细节、超参数设置和细致的比较。
此外,现有数据集通常使用通用的关系类型。知道方法 A Used-for (用于) 任务 B 很有帮助,但知道方法 A Trained-with (训练于) 数据集 C 并 Evaluated-with (评估于) 数据集 D,对于试图复现结果的研究人员来说价值要大得多。
介绍 SciER: 一个全文数据集
这篇论文的核心贡献是 SciER 数据集。研究人员从 Papers with Code 收集了 106 篇科学文章,涵盖了包括 NLP、计算机视觉和 AI for Science 在内的多种 AI 主题。
与以前使用远程监督 (弱自动化标注) 的尝试不同,SciER 是由专家人工标注的。这保证了高质量和精确度。
标注范围
该数据集侧重于实证 AI 研究核心的三种主要实体类型:
- METHOD (方法) : 算法、模型和架构 (例如 CNN, Transformer) 。
- TASK (任务) : 正在解决的问题 (例如 Sentiment Analysis, Object Detection) 。
- DATASET (数据集) : 用于训练或测试的数据 (例如 COCO, MNIST) 。
虽然实体列表很简洁,但标注的数量是巨大的。如下面的统计表所示,SciER 包含超过 24,000 个实体和 12,000 个关系。这比以前的数据集 (如 SciERC) 要大得多,特别是在每篇文档的关系密度方面。

细粒度的关系系统
SciER 最令人兴奋的方面是它的关系类型体系 。 作者不仅仅想知道实体是否相关;他们想知道是如何相关的。他们开发了一套包含九种细粒度关系的标签集。

如上方的 Table 2 所示,这些关系捕捉了机器学习实验的生命周期:
- 层级关系:
SubClass-Of和SubTask-Of允许构建分类体系 (例如,CNN 是 Deep Learning 的子类) 。 - 实验关系:
Trained-With、Evaluated-With和Benchmark-For区分了训练数据和测试基准——这种区别在仅基于摘要的提取中往往会丢失。 - 比较关系:
Compare-With捕捉一篇论文何时将其方法与基线进行对比。
这种粒度允许更复杂的下游应用。例如,在 SciER 上训练的系统可以回答复杂的查询,如*“查找所有针对图像分割的方法,这些方法是在 Cityscapes 上训练的,但在不同的数据集上进行了评估。”*
方法论: 如何提取知识
创建数据集是第一步。第二步是构建能够实际执行提取的模型。作者设置了三个不同的任务来评估性能:
- NER (命名实体识别) : 给定一个句子,找到实体并对其进行分类。
- RE (关系提取) : 给定一个句子和两个实体,预测它们之间的关系。
- ERE (实体和关系提取) : “圣杯”任务——给定原始文本,从头开始提取所有三元组 (主体,关系,客体) 。

Figure 1 (顶部) 展示了一个标注示例,其中一个句子包含通过关系链接的方法 (Method) 和任务 (Task) 。表格 (底部) 详细列出了这三个任务在输入/输出方面的差异。
为了对 SciER 进行基准测试,作者比较了两种截然不同的方法: 监督学习和通过上下文学习的大型语言模型 (LLMs) 。
方法 1: 监督基线
作者采用了最先进的 (SOTA) 监督模型,包括:
- PURE: 一种分别对实体和关系进行编码的管道方法。
- PL-Marker: 一种使用巧妙的打包策略来更好地理解实体边界的方法。
- HGERE: 一种使用超图神经网络一次性提取所有内容的联合模型。
这些模型需要在 SciER 训练集上进行训练。它们通常作为本研究中的性能“上限”,因为它们是专门为此任务设计的。
方法 2: 基于 LLM 的上下文学习 (核心方法)
方法论中最具指导意义的部分是研究人员如何调整通用 LLM (如 GPT-3.5、Llama-3 和 Qwen2) 以适应这种专门的科学任务。他们没有微调 LLM;相反,他们使用了检索增强的上下文学习 (Retrieval-Augmented In-Context Learning) 。
架构
该架构 (如下图所示) 依赖于为每个测试句子构建高度特定的提示 (Prompt) 。

以下是其 LLM 框架的分步细解:
- 检索器 (Retriever) : 当系统接收到一个测试句子 (\(x_{test}\)) 时,它会在训练集中搜索最相似的句子。
- 演示 (Demonstrations, \(D\)) : 检索前 \(k\) 个相似的句子 (及其正确标签) 作为“少样本 (few-shot) ”示例。这向 LLM 展示了在类似上下文中究竟期望得到什么。
- 提示设计 (Prompt Design, \(I\)) : 提示由以下部分组成:
- 指令: 任务的清晰定义。
- 指南: 实体和关系的具体定义 (例如,准确定义什么是“Method”) 。
- 演示: 检索到的示例。
- 输入: 目标句子。
“HTML 标签”创新
使用 LLM 进行提取的一个常见问题是它们比较“话多”。如果你要求它们提取实体,它们可能会改写实体或输出一个难以映射回原始文本位置的列表。
为了解决这个问题,作者强制 LLM 扮演文本标注员的角色。他们指示模型重写输入句子,但在实体周围插入 HTML 标签 (例如 <span class="Method">CNN</span>) 。这个简单的约束显著提高了模型识别精确文本边界的能力,这对于在 NER 指标上取得高分至关重要。
管道 (Pipeline) 与联合 (Joint) 建模
作者测试了两种 LLM 策略:
- 联合 ERE (Joint ERE) : 要求 LLM 一次性完成所有工作 (在一次传递中找到实体和关系) 。
- 管道 (Pipeline) : 首先要求 LLM 找到实体 (NER) ,然后在单独的提示中,要求它确定找到的实体之间的关系 (RE) 。
实验与结果
作者进行了广泛的实验,并在分布内 (In-Distribution, ID) 测试集 (与训练数据相似的论文) 和分布外 (Out-of-Distribution, OOD) 测试集 (来自不同年份或子领域的论文) 上进行了测试。
1. 监督模型与 LLM 的对比
结果显示了明显的层级差异。专门的监督模型 (如 HGERE 和 PL-Marker) 显著优于 LLM。
- 最佳监督模型 (HGERE) : 在完整的 ERE 任务上 F1 得分约为 61%。
- 最佳 LLM (Qwen2-72b) : 在完整的 ERE 任务上 F1 得分约为 41%。
这突显出,虽然 LLM 是强大的通才,但在高质量数据 (如 SciER) 上训练的专用模型在精确信息提取任务中仍然占据主导地位。
2. “管道”策略的惊喜
在深度学习领域,“联合”模型 (一次性做所有事) 通常更受青睐,因为它们可以在任务之间共享信息。然而,对于 LLM,作者发现了相反的情况。
管道建模显著优于联合建模。 通过分解问题——“首先,找到方法。好的,现在这个方法与那个任务有什么关系?”——LLM 犯的错误更少。联合方法往往会让模型不堪重负,导致召回率降低。
3. 提示工程的力量 (消融实验)
对学生来说,最有价值的启示之一是“提示工程”的影响。作者不仅仅是要求“提取关系”。他们添加了详细的指南和 HTML 标签约束。
这些额外的努力重要吗?

Figure 3 展示了消融实验的结果。
- 橙色条: 基本指令。
- 绿色条: 指令 + 详细指南。
- 红色条纹: 添加 HTML 标签约束 (用于 NER) 。
性能的提升是显而易见的。添加指南提高了所有任务的性能。对于 NER,添加 HTML 标签约束进一步推高了 F1 分数。这证明了如何向 LLM 提问与使用哪个 LLM 同样重要。
4. 我们需要多少数据?
最后,研究人员调查了训练集的大小如何影响性能。这一点至关重要,因为标注全文论文成本高昂。

Figure 4 揭示了一个有趣的趋势。
- NER (蓝线) : 性能迅速上升然后趋于平稳。你不需要海量的数据集来教模型“数据集”长什么样。
- 关系提取 (橙线/绿线) : 随着添加更多文档,这些线条继续稳步攀升。
这表明,理解科学概念之间复杂的关系比简单地识别概念本身需要更多的数据。
结论与启示
SciER 数据集代表了科学信息提取向前迈出的重要一步。通过超越摘要并拥抱全文文档的复杂性,它为 AI 如何辅助研究人员提供了一个更现实的基准。
对于学生和从业者来说,这篇论文提供了几个关键要点:
- 上下文很重要: 现实世界的信息提取需要查看完整的文档,而不并不仅仅是摘要。
- 分类体系很重要: 向 9 种细粒度关系类型 (如 Trained-With) 的转变将简单的图谱变成了丰富的知识库。
- LLM 策略: 如果你使用 LLM 进行提取,请考虑管道方法 (分解任务) 并使用受限生成 (如 HTML 标签) 来提高精度。
虽然监督模型目前占据了王座,但 LLM 的快速发展与 SciER 等数据集的结合预示着一个未来: 我们的 AI 助手将不仅能为我们找到论文,还能阅读、理解并综合它们,从而加速科学发现的步伐。
](https://deep-paper.org/en/paper/2410.21155/images/cover.png)