AI 能追踪自身的进步吗？利用大语言模型自动构建科学排行榜

引言

我们正经历着科学研究的爆炸式增长。仅在“计算与语言”领域，每天就有大约 100 篇新论文上传到 arXiv。对于研究人员、学生或从业者来说，跟上这股信息洪流不仅是困难的——这在人力上几乎是不可能的。

每个人都在问的核心问题是: “当前的最新技术水平 (State-of-the-Art) 是什么？”

为了回答这个问题，社区依赖于科学排行榜 (Scientific Leaderboards) 。这些排行榜对不同模型在特定任务 (如翻译或摘要) 及特定数据集上的表现进行排名。像 Papers With Code 或 NLP-progress 这样的平台已成为研究人员对标其工作的首选主页。

然而，这存在一个主要瓶颈: 这些排行榜大多是人工维护的。随着论文数量呈指数级增长，人工策展根本跟不上步伐。我们面临的排行榜往往是过时的、不完整的，或者对于小众细分领域来说根本不存在。

这引出了一篇引人入胜的研究论文: 《高效性能追踪: 利用大语言模型自动构建科学排行榜》 (Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards) 。研究人员提出了一种系统，利用大语言模型 (LLMs) 自动阅读论文、提取性能数据，并在无需人工干预的情况下建立或更新排行榜。

图 1: 我们首先从科学出版物中提取任务、数据集、指标和结果 (TDMR) 元组。然后，我们更新具有相同 TDM 的现有排行榜 (紫色和蓝色) 。与以往的工作不同，我们还按需构建新的排行榜 (绿色) 。

如图 1 所示，该目标是创建一个能够消化新论文 (论文 A 和论文 B) ，提取相关统计数据，并更新现有排名，或者——至关重要的是——识别出新任务已被发明并从头开始创建全新排行榜的系统。

在这篇文章中，我们将拆解他们的方法论，探讨自动策展中的“冷启动”问题，并分析为什么 LLM 擅长阅读文本，但在阅读表格方面却出奇地糟糕。

背景: 排行榜的解剖学

在能够自动化构建排行榜之前，我们必须定义它实际上是什么。在这项研究中，一个排行榜由一个 TDM 三元组 定义:

任务 (Task): AI 试图做什么？ (例如，命名实体识别) 。
数据集 (Dataset): 它在什么数据上进行测试？ (例如，CoNLL-2003) 。
指标 (Metric): 我们如何衡量成功？ (例如，F1 分数) 。

当你将 TDM 三元组与论文中的具体得分结合时，你就得到了一个 TDMR 元组 (任务、数据集、指标、结果) 。

当前方法的局限性

以往自动化这一过程的尝试依赖于“封闭世界”假设。他们假设我们已经知道每一个可能的任务和数据集的名称。在这种情况下，AI 只是从预定义的列表中查找关键词。

但科学是开放的。研究人员不断发明新任务和新数据集。如果一个自动化系统遇到一篇关于名为“量子情感分析”的全新任务的论文，而该任务不在其预定义列表中，系统就会无法追踪它。这篇论文通过设计一个能够处理未定义或部分定义环境的系统来填补这一空白。

SCILEAD 数据集

为了训练和测试他们的系统，作者创建了 SCILEAD , 这是一个源自 43 篇 NLP 论文的手工策展数据集。与社区来源的数据 (通常包含错误) 不同，该数据集提供了完美注释的 TDMR 元组的“金标准”。

表 10: 来自 SCILEAD 的 TDMR 实例示例。每篇论文的 TDMR 元组都进行了颜色编码。

上面的表 10 展示了地面实况 (ground truth) 数据。请注意，单篇论文 (颜色编码) 通常会贡献给多个排行榜。例如，论文 1703.06345.pdf 提供了英语、西班牙语和荷兰语的命名实体识别 (NER) 以及词性标注 (POS Tagging) 的结果。一个稳健的系统必须捕获所有这些信息。

核心方法: 基于 LLM 的框架

研究人员提出了一个三阶段框架来解决排行榜构建问题。他们利用检索增强生成 (RAG) 来帮助 LLM 在密集的学术 PDF 中找到正确的信息。

图 2: 我们的框架分为三步: (1) TDMR 提取，(2) 归一化，(3) 排行榜构建

如图 2 所示，流程如下:

TDMR 提取: 在论文中寻找原始数据。
归一化: 清理数据并将其映射到标准名称。
排行榜构建: 对结果进行排名。

让我们详细分解这些步骤。

第一阶段: 基于 RAG 的 TDMR 提取

科学论文很长。你不能简单地将一篇 15 页的 PDF 粘贴到 ChatGPT 中并要求结果；这通常会超出上下文窗口或混淆模型。

为了解决这个问题，作者使用了 RAG 方法:

解析: 他们使用 PDF 处理工具提取文件中的文本和表格。
分块: 文本被分割成大约 500 个 token (约 2,000 个字符) 的块。
检索: 当系统想要查找结果时，它使用特定查询搜索向量数据库: *“主要任务、数据集和评估指标” (Main task, datasets and evaluation metrics) *。它只检索最有可能包含此信息的文本块和表格。
提取: 这些相关的文本块被输入到一个 LLM (如 GPT-4 或 Llama-3) 中，提示词指示其提取所提出方法的最佳报告结果。

这一阶段的输出是原始字符串，如“NER”、“Conll03”或“F-score”。

第二阶段: 归一化 (操作的大脑)

这是论文中最具智力趣味的部分。LLM 的原始输出是杂乱的。一篇论文可能将任务称为“NER”，另一篇称为“Named Entity Rec.”，还有一篇称为“Entity Tagging”。如果我们不标准化 (归一化) 这些名称，我们就无法建立单一的排行榜。

作者测试了三种不同的设置来模拟现实世界的难度:

完全预定义 (Fully Pre-defined): 系统被赋予一个有效名称列表 (分类体系) 。它只需将提取的文本映射到列表中最接近的匹配项。
部分预定义 (Partially Pre-defined): 系统知道一些任务，但其他任务被屏蔽了。当它看到新东西时，必须能够识别出来。
冷启动 (Cold Start): 最难的设置。系统以对现有排行榜零知识的状态开始。它必须即时构建分类体系。

冷启动算法

如果你事先不知道类别，你该如何整理图书馆？你需要动态地进行。

算法 1 部分预定义 TDM / 冷启动

算法 1 展示了这种动态归一化是如何工作的。

系统维护一组已知实体 (\(S'_t\)) ，在冷启动设置中，该集合最初是空的。
当 LLM 提取出一个新术语 (\(l_t\)) 时，它会检查该术语是否与集合中当前的任何内容匹配。
如果匹配 (例如，“NER”匹配“Named Entity Recognition”) ，则对其进行归一化。
如果不匹配 (例如，系统以前从未见过“Sentiment Analysis”) ，它会将这个新术语添加到集合 (\(S'_t\)) 中。

这模仿了人类研究人员在心里对新论文进行分类的方式。如果我们看到一个新术语，我们会将其归档为一个新类别；如果我们看到旧术语的同义词，我们会将它们归为一类。

第三阶段: 排行榜构建

一旦数据被提取并归一化，最后一步就是聚合。系统将所有共享相同任务、数据集和指标的元组分组。

然后它对结果进行健全性检查。由于不同的论文以不同的方式报告数字 (例如，“0.91”与“91.0”与“91%”) ，系统会将这些标准化为通用的百分比格式。最后，它按分数对论文进行排序以确定排名。

表 11: 基于表 10 中常见 TDMR 元组的 SCILEAD 排行榜示例。使用了相同的颜色代码。

表 11 显示了输出结果: 清晰、有序的列表，论文 (以 ID 表示) 按其在特定数据集上的表现排序。

实验与结果

研究人员使用几种大语言模型评估了他们的框架: Llama-2、Mixtral、Llama-3 和 GPT-4 Turbo 。他们将这些模型与名为 AxCell 的基线模型进行了比较。

他们主要用两种方式来给 AI 打分:

精确元组匹配 (ETM): AI 是否完全正确地获得了整个组合 (任务 + 数据集 + 指标 + 结果) ？
单项匹配 (IIM): AI 是否弄对了特定部分？ (例如，它弄对了任务，但错过了结果) 。

1. 完美的难度 (ETM 分数)

完全正确地获得整个元组是非常困难的，因为如果结果中哪怕错了一个数字，整个元组也会被算作失败。

表 3: 不同归一化设置下的精确元组匹配 (ETM) 评估分数 (%)。R: 召回率，P: 精确率，F1: F1 分数。LLM + CS 表示用于归一化单个实体的余弦相似度基线。每个归一化设置的最佳结果带有下划线。整体最高结果加粗显示。

在表 3 中，我们看到了精确元组匹配分数。

GPT-4 Turbo 是明显的赢家，在完全预定义设置中取得了 55.27% 的 F1 分数。
性能下降: 注意从“完全预定义”转变为“部分预定义”时，Llama-2 和 Mixtral 的性能大幅下降。这证实了处理未知任务对于较小模型来说是一个重大挑战。
GPT-4 的韧性: GPT-4 即使在更难的设置中也保持相对稳健，保持了近 40% 的召回率。

2. 模型为什么会失败？ (IIM 分数)

要理解为什么精确匹配分数有些低 (对于此任务来说 55% 还不错，但不完美) ，我们需要查看组成部分。模型是未能识别任务？还是未能读取数字？

表 4: 单项匹配 (IIM) 分数 (%)。R: 召回率，P: 精确率，F1: F1 分数。每个设置的最佳结果带有下划线。整体最高结果以粗体显示。由于归一化不应用于结果，因此其分数在两种设置中是相同的。

表 4 揭示了瓶颈所在。看一看 IIM-Result 列 (最右侧) 。

模型非常擅长识别任务 (90% 以上的 F1 分数) 。
模型非常擅长识别指标 (80-90% 的 F1 分数) 。
模型在提取结果方面表现糟糕。 即使是 GPT-4 在结果提取方面也只能达到 69% 的 F1 分数，而 Llama-2 则低至 27%。

为什么? 科学论文在复杂的表格中展示结果。它们通常有多个列，用于模型的不同变体 (例如，“Model-Base”、“Model-Large”、“Ablation-1”) 。区分所提出方法的最佳结果与基线结果或消融研究，是一项至今仍挑战当前 LLM 的推理任务。

3. 排行榜重建质量

最后，构建出的排行榜与真实的排行榜相比如何？作者使用排行榜召回率 (LR) (我们找到排行榜了吗？) 和平均重叠度 (AO) (排名是否与真实情况相似？) 来衡量这一点。

表 5: 金标准排行榜评估 (%)。LR: 排行榜召回率，PC: 论文覆盖率，RC: 结果覆盖率，AO: 平均重叠度。每个设置的最佳结果带有下划线。整体最佳结果以粗体显示。冷启动的标准差见附录 F。

表 5 显示了所有三种设置的结果，包括具有挑战性的冷启动 。

GPT-4 即使在冷启动设置 (从零知识开始) 下也能成功重建 81.48% 的排行榜。
论文覆盖率 (PC) 相当不错 (约 60%) ，这意味着系统能找到大多数相关论文。
结果覆盖率 (RC) 是薄弱环节 (约 46%) ，再次反映了从表格中提取特定数字的困难。

4. “冷启动”的惊喜

在比较“部分预定义”和“冷启动”设置时，出现了一个有趣的异常现象。你会预期“冷启动” (什么都不知道) 比“部分预定义” (知道一些事情) 更难。

然而，对于 GPT-4 来说，结果实际上具有可比性，有时在冷启动设置中甚至略好。作者认为，在部分设置中，模型有时会因为试图将新任务强行归入看起来相似的旧预定义桶中而“感到困惑” (例如，将“英语 NER”映射到“德语 NER”) 。在冷启动中，模型可以自由地立即创建一个新类别，这有时会导致更清晰的分类体系。

结论与启示

这篇论文在自动化元科学方面迈出了重要一步。 SCILEAD 的引入为此任务提供了必要的基准，而基于 LLM 的框架表明我们确实可以自动化科学进步的追踪。

主要结论:

LLM 已经为分类体系做好了准备: 当前的模型 (特别是 GPT-4) 在理解和分类科学任务与指标方面非常有效，即使没有预先训练 (冷启动) 。
表格是终极难关: 从复杂的 LaTeX 表格中提取精确的数值结果仍然是最大的障碍。从“任务提取”到“结果提取”的准确率下降非常陡峭。
现实世界的应用是可行的: 尽管存在不完美之处，该系统仍能成功识别并重建大多数排行榜。

对于学生和研究人员来说，这意味着未来的“最新技术水平”不再是需要在十几篇 PDF 中寻找的东西，而是一个在论文发表的那一刻就会自我更新的仪表板。随着多模态 LLM (能够“看到”表格的视觉结构) 的改进，我们可以期待结果提取的瓶颈消失，从而为全自动化的科学追踪铺平道路。

引言#

背景: 排行榜的解剖学#

当前方法的局限性#

SCILEAD 数据集#

核心方法: 基于 LLM 的框架#

第一阶段: 基于 RAG 的 TDMR 提取#

第二阶段: 归一化 (操作的大脑)#

冷启动算法#

第三阶段: 排行榜构建#

实验与结果#

1. 完美的难度 (ETM 分数)#

2. 模型为什么会失败？ (IIM 分数)#

3. 排行榜重建质量#

4. “冷启动”的惊喜#

结论与启示#

引言