AI 能给 AI 打分吗？揭秘 LLM 在同行评审中的真相

学术研究领域正面临着一场规模危机。每年，提交给顶级人工智能会议的论文数量都在激增。对于处于接收端的研究人员来说，这意味着堆积如山的论文需要阅读、批评和评审。这种工作量正变得难以为继。

大语言模型 (LLMs) 登场了。我们知道它们会写诗、调试代码，甚至通过律师资格考试。自然而然地，问题出现了: LLM 能否帮助减轻同行评审的负担?

这是一个诱人的提议。如果人工智能可以在几秒钟内阅读一篇论文并生成有用的评论，那将节省数千小时的人力。然而，风险极高。同行评审是科学真理的守门人。如果守门人有缺陷，科学本身的完整性就会受到威胁。

在一项全面的新研究中，研究人员不再仅仅询问 LLM 是否可以评审论文，而是开始探究与人类专家相比，它们做得有多好。他们引入了一个名为 ReviewCritique 的大型专家标注数据集，以审核 GPT-4、Claude 和 Gemini 等模型的表现。

在这篇深度文章中，我们将探讨他们的发现。我们将揭示为什么 LLM 听起来很有说服力，但往往缺乏科学批评所需的细微差别，并且我们将看到一种新的数学方法来衡量 AI 观点的“原创性”。

背景: 评审人与元评审人

要理解这项研究，我们需要首先澄清学术出版生态系统中的角色。

评审人 (Reviewer): 这是阅读提交论文的人 (通常是另一位研究人员) 。他们评估论文的新颖性、检查数学推导、验证实验，并撰写一份列出优点和缺点的报告。他们还会给出一个分数 (例如，接收或拒绝) 。
元评审人 (Meta-Reviewer) / 领域主席 (Area Chair): 这是一个监督流程的资深专家。他们阅读论文、评审意见以及作者的反驳。他们的工作是过滤掉糟糕的评审——那些有偏见、事实错误或粗鲁的评审——并做出最终决定。

该论文背后的研究人员提出了两个对应于这些角色的关键问题:

LLM 作为评审人: 如果我们要 LLM 写一篇评审，它与人类写的有区别吗？它有用吗？
LLM 作为元评审人: LLM 能否担任“质量控制”经理？它能否通过查看人类撰写的评审，识别出某种批评是否不公平或不正确？

核心方法: 构建 “ReviewCritique”

这项研究的主要贡献是创建了一个名为 ReviewCritique 的数据集。以前也存在数据集，但它们大多由从网络上抓取的原始论文和评审组成。它们缺乏“基本事实 (ground truth) ”——即由专家告诉我们评审的哪些部分实际上是好的或坏的。

数据收集过程

团队首先收集了提交给 ICLR 和 NeurIPS 等顶级会议的 100 篇 NLP (自然语言处理) 论文。重要的是，他们使用的是初始投稿 , 而不是润色后的定稿。这准确地模拟了同行评审混乱的现实情况。

随后，他们为这些论文收集了两组评审意见:

人类评审: 会议期间由社区撰写的实际评审。
LLM 评审: 由 GPT-4、Gemini 1.5 和 Claude Opus 使用模仿会议指南的标准化提示词生成的评审。

“金标准”标注

这正是这项研究的亮点所在。作者招募了 40 名资深 NLP 研究人员——许多人拥有博士学位并有担任领域主席的经验——来人工标注这些评审。

他们不仅仅是给出赞成或反对。他们逐句分析了评审。对于评审的每一个片段，专家标注员将其标记为“可靠 (Reliable) ”或 “有缺陷 (Deficient) ” 。

如果一个句子被标记为有缺陷，专家必须解释原因。“有缺陷”的片段可能是:

事实错误: 曲解了论文。
非建设性: 模糊的抱怨，如“这不好”，但没说为什么。
无证据支持: 诸如“你遗漏了相关工作”的指控，却未引用具体工作。

Table 1: Statistics of ReviewCritique.

如上方的 Table 1 所示，统计数据说明了一切。虽然人类评审在片段层面的缺陷率约为 6.27%，但 LLM 生成的评审要糟糕得多，近 14% 的句子被标记为有缺陷。此外, 100% 的 LLM 生成的评审至少包含一个有缺陷的片段，而人类的这一比例为 71.57%。

与之前工作的比较

这为什么重要？如下方的 Table 2 所示，ReviewCritique 是第一个结合了初始投稿、LLM 生成的评审，以及——至关重要的——对专家要求极高的句子级缺陷标注的数据集。

Table 2: Comparison of ReviewCritique with PeerRead (Kang et al., 2O18), Peer Review Analyze (Ghosal et al.,2022a), Substantiation PeerReview (Guo et al., 2023) and DISAPERE (Kennard et al.,2022).

这种细粒度的数据使得研究人员能够超越“感觉”，从数学上证明 LLM 在哪里失败。

实验 1: LLM 作为评审人

让我们看看第一个主要角色: 评审人。当 LLM 阅读一篇论文并对其进行评论时，它会犯什么样的错误？

“超出范围”问题

研究人员将“有缺陷”的片段分类为特定的错误类型。结果如下方 Table 3 所示，显示了人类和机器错误之间极具吸引力的差异。

Table 3: Comparing top-3 error types between humanwritten and LLM-generated reviews.

人类评审员经常因为误解 (Misunderstanding) (22.86%) 或疏忽 (Neglect) (19.64%) 而犯错——基本上，他们读得不够仔细或遗漏了论文中实际存在的细节。他们还在非专家陈述 (Inexpert Statements) 方面存在困难，即他们可能会批评一种自己并不完全理解的方法。

然而，LLM 却患有一种不同的病症: 超出范围的批评 (The Out-of-Scope Critique)。

近 30.5% 的 LLM 错误属于这一类。LLM 可能会阅读一篇关于英语语法纠错的论文，然后抱怨道: “该论文未能评估此方法在斯瓦希里语和古拉丁语上的效果。” 虽然从技术上讲是真的，但对于论文的具体范围来说，这种批评通常是不合理的。LLM 倾向于幻想出一个论文的“完美”版本，并批评作者没有做无限量的工作。

分析评审部分

该研究按评审部分细分了表现:

摘要 (Summary): LLM 在这方面实际上相当不错。它们在摘要中很少捏造事实，而且比懒惰的人类评审员更不可能直接复制粘贴摘要文本。
优点 (Strengths): LLM 是随声附和者。它们倾向于相信作者在摘要中声称的任何内容。如果作者写道“我们取得了最先进的结果”，LLM 会将其作为优点重复一遍，而人类专家则会检查表格以验证其是否属实。
缺点 (Weaknesses): 这是 LLM 表现最差的地方，它们提供的通用反馈可能适用于任何论文 (例如，“需要更多分析”) 。
写作质量 (Writing Quality): LLM 是糟糕的写作评判者。它们几乎总是称一篇论文“写得很好”，即使人类专家一致认为该论文令人困惑且结构混乱。

衡量原创性: ITF-IDF 指标

关于 AI 写作最大的抱怨之一是它感觉很平庸。研究人员希望量化这种“千篇一律”。他们开发了一种名为 ITF-IDF (逆词频 - 逆文档频率) 的新指标。

如果你学过信息检索，你一定知道 TF-IDF。它衡量一个词对文档的重要性。研究人员将其改编为衡量一个评审片段对特定论文的独特程度。

这是他们提出的数学框架:

Equation for ITF-IDF calculation.

在这个方程中，目标是计算多样性得分。但要做到这一点，我们需要知道某种特定的观点或批评 (\(O\)) 在单个评审中出现的频率，以及相同的批评 (\(R\)) 在针对不同论文的所有评审中出现的频率。

他们使用语义相似度来计算评审内部的“软出现频率” (\(O\)):

Equation for calculating soft occurrence within a review.

并在不同论文之间计算重复率 (\(R\)):

Equation for calculating repetition across different reviews.

简单来说: 这个指标会惩罚在一个评审中反复说同一件事的评审员，并且会更加严厉地惩罚那些在许多不同论文中使用相同的通用批评 (如“增加更多实验”) 的评审员。得分高意味着评审是具体的，并且对于被评审的论文是独一无二的。

多样性的结果

那么，谁写的评审更独特？人类还是机器？

ITF-IDF (Higher Better) Figure 1: Specificity of reviews: LLM vs. Human.

Figure 1 证实，人类 (红线) 在特异性方面得分始终较高，尤其是在关键的“缺点 (Weaknesses)”部分。LLM (下方的线) 在特异性方面往往直线下降，尤其是在讨论清晰度时。它们陷入了通用的赞美或批评模式，缺乏真正专家评审的“锋芒”。

此外，如果你使用三个不同的 LLM (GPT-4、Claude、Gemini) 来评审同一篇论文，你可能希望获得不同的观点。不幸的是，下方的 Figure 2 显示 LLM 彼此之间的一致性非常高 (高相似度得分) 。另一方面，人类经常会有分歧，从而为论文的价值提供更广泛的视角。

Figure 2: Inter-LLM vs. inter-human review similarities.

实验 2: LLM 作为元评审人

也许 LLM 不擅长写评审，但它们能给评审打分吗？这就是元评审人的角色。研究人员给 LLM 提供了论文和人类撰写的评审，然后问: “找出这个评审中有缺陷的片段。”

结果令人清醒。

检测失败

即便是最好的模型也难以复制人类专家的判断。

召回率 vs. 精确率: LLM 往往具有较高的召回率，但精确率极低。这意味着它们“过于激进”，将完美的句子标记为有缺陷。
闭源 vs. 开源: Claude Opus 和 GPT-4 等专有模型表现优于 Llama-3 等开源模型，但即便是最好的模型，其 F1 分数 (准确性的衡量标准) 也相对较低。

解释失败

当 LLM 确实正确识别了一个糟糕的评审片段时，研究人员检查了它是否出于正确的理由识别出来的。他们使用 ROUGE (文本重叠) 和 BERTScore (语义相似度) 将 LLM 的解释与专家的解释进行了比较。

Table 5: Evaluation of LLMs’ explanations for correctly identified Deficient segments.

如 Table 5 所示，分数很低。即使 LLM 正确标记了一个句子，它也往往无法清晰地表达为什么该句子在高水平研究的背景下是有问题的。

例如，LLM 发现很难识别:

不准确的摘要: 它们无法分辨评审员是否错误地总结了论文。
矛盾: 它们错过了评审员在一个段落中说“实验很好”，而在下一段中说“实验很差”的情况。
肤浅: 它们难以识别评审员何时只是在敷衍了事。

详细的错误分析

为了准确理解什么构成了“有缺陷”的评审，研究人员提供了一个错误分类法。对于任何学习如何不做同行评审的学生来说，这都是宝贵的资源。

Table 9: Error types in paper reviews.

Table 9 对此进行了细分。给有抱负的研究人员的一些关键启示:

主观 (Subjective): 不要只说“我不喜欢它”。给出证据。
未陈述的陈述 (Unstated Statement): 不要批评作者从未提出的主张。
非建设性 (Non-constructive): 永远不要在没有提供改进途径的情况下进行批评。

结论: 人的因素依然至关重要

这项研究在 AI 炒作的时代提供了一个现实检查。虽然 LLM 是用于总结和表面检查的强大工具，但它们目前缺乏高风险同行评审所需的深度上下文推理能力。

该研究的结论是:

LLM 是“通用的批评家”: 它们生成的评审听起来很专业，但缺乏推动科学进步的具体、可操作的见解。
LLM 是“不可靠的法官”: 它们尚不能被信任来过滤人类评审或担任领域主席。
“超出范围”陷阱: 使用 LLM 批评自己草稿的研究人员应警惕那些要求不可能完成或无关紧要的额外工作的建议。

“ReviewCritique” 数据集建立了一个新的基准。在 AI 模型能够在本文定义的指标上缩小差距——识别细微差别、保持特异性并理解范围——之前，同行评审过程仍然是一项深刻的人类责任。目前，人类思想的最佳评审人仍然是人类的大脑。

背景: 评审人与元评审人#

核心方法: 构建 “ReviewCritique”#

数据收集过程#

“金标准”标注#

与之前工作的比较#

实验 1: LLM 作为评审人#

“超出范围”问题#

分析评审部分#

衡量原创性: ITF-IDF 指标#

多样性的结果#

实验 2: LLM 作为元评审人#

检测失败#

解释失败#

详细的错误分析#

结论: 人的因素依然至关重要#