引言
我们正处于大语言模型 (LLM) 的黄金时代。每周都有新模型发布——声称比前代更快、更聪明、更强大。我们看到各种图表展示着巨大的柱状图、更高的数值,并声称在 MMLU 或 HumanEval 等基准测试中达到了“SOTA (最先进) ”的性能。
但这里有个令人不安的问题: 我们真的能相信这些数字吗?
评估 LLM 不像编译代码;它不是二元的“通过/失败”。这是一个复杂、微妙的过程,充满了看不见的陷阱。如果你稍微改变一下问题的措辞,模型的分数可能会暴跌。如果模型意外地在测试问题上进行过训练 (数据污染) ,那它就是在不知不觉中作弊。如果用于给模型答案评分的代码有错误,那么排行榜的排名就毫无意义。
在一篇全面的新论文中,来自约克大学、南洋理工大学和其他机构的研究人员对 LLM 评估流程进行了批判性审查 。 他们认为,当前的格局是不一致且不可靠的。
在这篇深度文章中,我们将剖析他们的发现。我们将探讨正确评估的三大支柱——复现性 (Reproducibility) 、可靠性 (Reliability) 和鲁棒性 (Robustness) ——并看看目前的做法是如何在这些方面失败的。最后,我们将概述研究人员的建议,告诉学生和工程师如何构建更好、更诚实的评估。
LLM 评估工作流程
要理解哪里出了问题,我们需要先梳理出典型的评估是什么样子的。这不仅仅是“提问,然后得到答案”。这是一个多步骤的流程,每一步的决策都很重要。
如下图所示,作者将工作流程归类为三个不同的阶段:
- 评估设置 (Evaluation Setup) : 选择基准 (数据集) 和特定的模型。
- 响应生成 (Response Generation) : 设计提示词 (零样本 vs. 少样本) 和设置解码参数 (temperature, top-k) 。
- 评估方法 (Evaluation Methodology) : 将混乱的文本输出解析为结构化数据并进行评分。

错误可能潜伏在任何阶段。步骤 1 中的糟糕选择可能导致数据污染。步骤 2 中隐藏的参数更改可能人为地夸大分数。步骤 3 中有缺陷的脚本可能会将正确答案误判为错误。
让我们来拆解研究人员确定的三大危机。
危机 1: 复现性 (Reproducibility)
在科学领域,如果一个结果无法复现,它就不是结果——它只是轶事。作者指出,LLM 研究目前正遭受严重的复现性危机。
核心问题是缺乏透明度。当一个新模型声称获得高分时,作者往往没有发布用于获得该分数的具体代码、提示词或模型版本。
缺失的细节
研究人员引用了一项对 212 篇论文的分析,揭示了关于资源可用性的惊人统计数据。如下表所示,虽然大多数论文分享了它们的提示词,但只有约一半分享了用于评估的代码 , 披露具体模型版本的甚至更少。

这为什么重要?
- 模型版本: 闭源模型 (如 GPT-4) 经常更新。3 月份在
gpt-4上运行的基准测试结果可能与 9 月份运行的结果不同。如果没有版本控制 (例如gpt-4-0613) ,实验是不可能复现的。 - 数据子集: 一些研究人员为了节省时间或金钱,只在基准测试的子集上进行评估,但未能说明是哪个子集。你不能将基于 100 个问题的分数与基于 10,000 个问题的分数进行比较。
危机 2: 可靠性 (Reliability)
可靠性提出的问题是: 我们是否在测量我们认为正在测量的内容? 论文指出了几个困扰现代 LLM 排行榜的“可靠性杀手”。
数据污染
这是房间里的大象。LLM 是在互联网上训练的。基准数据集也在互联网上。如果模型是在测试集的问题上训练出来的,那么当它回答这些问题时,它并不是在“推理”——它只是在记忆。作者指出,许多研究未能进行污染检查,这意味着高分可能只是记忆的证据。
解析问题
LLM 很多话。如果你问一个多选题,模型可能会回答: “正确答案显然是选项 B,因为……”
为了给这个打分,研究人员编写了解析脚本 (parsing scripts) ——从句子中提取“B”的代码。但如果模型说“选项 (b)”或“第二个选项”呢?如果解析脚本太死板,它会将正确答案标记为错误。
作者比较了自动评估 (Automatic Evaluation) (仅依赖脚本) 与混合评估 (Hybrid Evaluation) (人类介入检查困难案例) 。结果如下图所示,说明了一切:

注意柱状图中的差距。在 WebQuestions 或 NQ-Open 等数据集中,人工干预 (柱状图的红色部分) 显着提高了分数。纯粹依赖自动脚本可能会低估模型真实能力超过 10%。
解析复杂性
为了说明解析为何如此困难,请考虑这些现实场景。在下面的场景 1 中,一个简单的脚本可能就足够了。但在场景 2 中,模型提供了一个正确的答案,但包含了额外的上下文或过时的信息 (由于训练截止日期) ,脚本可能会完全失败。

危机 3: 鲁棒性 (Robustness)
鲁棒性指的是模型在不同条件下保持性能的能力。如果一个学生只有在题目是用蓝墨水写的时候才能通过数学考试,那他就不懂数学——他有鲁棒性问题。
提示词的敏感性
LLM 最脆弱的方面之一是提示词敏感性 (prompt sensitivity) 。 对问题的措辞稍加修改,可能会导致完全不同的答案。
作者进行了一项实验,比较了 GPT-4 和 Claude-3 等不同模型在使用“受限” (严格指令) 与“非受限”提示词时的表现。

正如你所看到的,分数取决于所使用的提示策略。这导致了 “提示词黑客攻击 (Prompt Hacking) ” ——研究人员可能会无意识地 (或有意识地) 寻找让他们的模型看起来最好的特定提示词,而不是使用标准化的提示词。如果模型 A 使用优化的提示词,而模型 B 使用基础提示词,那么比较就是不公平的。
缺乏通用化评估
研究人员通常坚持使用像 MMLU 这样的流行基准。然而,MMLU 的高分并不能保证在其他方面的成功。
下图比较了 LLaMA-3 (蓝色) 和 Qwen2 (橙色) 。虽然它们在通用基准上互有胜负,但请看它们在特定任务上的分歧。Qwen2 在 HumanEval (编码) 上占主导地位,而它们在 GSM8K (数学) 上则不分伯仲。

这强调了只看排行榜上单一“平均”分数的危险。模型具有“尖刺状”的能力分布;它们可能是一个领域的天才,却是另一个领域的白痴。
人为因素: 所有权偏见
最后,即使是人工评估也不安全。 聊天机器人竞技场 (Chatbot Arena) 允许用户对模型回复进行投票。然而,用户可能是有偏见的。
研究人员强调了一个称为所有权攻击 (Ownership Attack) 的漏洞。如果用户问“谁创造了你?”,模型 A 说“我是 Anthropic 的模型”,那么喜欢 Anthropic 的用户可能会不顾回答质量而投票给它。

这种偏见导致了人类排名 (如 Chatbot Arena) 与静态基准 (如 MMLU) 之间的差异,如下所示:

请注意, Claude-3-Opus 在 MMLU 中排名第 1,但在竞技场中排名第 7 (在该数据统计时) 。这两种评估方法讲述了不同的故事。
建议和最佳实践
当下的情况听起来很严峻,但论文指明了前进的道路。作者为学生和研究人员提供了一套结构化的建议,以确保他们的评估是严谨的。
下表总结了他们在我们讨论的三个维度上的关键建议。

对你研究的关键启示:
- 关于复现性:
- 公开所有内容: 你的代码、你的提示词和你的解析脚本。
- 记录版本: 永远不要只说 “GPT-4”。要说 “GPT-4-0613”。
- 使用工具: 利用 Weights & Biases 或 MLflow 等工具来跟踪你的实验设置。
- 关于可靠性:
- 污染检查: 使用像
LLMSanitize这样的库来检查你的测试数据是否泄露到了模型的训练集中。 - 人类介入 (Human-in-the-loop) : 不要盲目相信正则解析。手动验证模型输出的随机样本,以确保你的脚本评分正确。
- 更新基准: 使用更新、更难的数据集版本 (例如,使用 MMLU-Pro 而不是标准的 MMLU) 以避免饱和及污染问题。
- 关于鲁棒性:
- 不要只用一个提示词: 用同一个提示词的多种变体测试你的模型,看看性能是否稳定。
- 报告方差: 不要只报告最高分。报告不同提示词下的平均值和标准差。
- 分析分词器: 要意识到不同的模型对文本的分词方式不同,这会影响模型实际上看到了多少数据集的“词汇量” (如下图所示) 。

结论
随着大语言模型从研究实验室走向现实世界的产品,评估变成了流程中最关键的一步。我们再也无法承受将评估视为事后诸葛亮或简单的“分数检查”。
这就论文强调了目前 LLM 评估状态的脆弱性。它深受复现性问题、数据污染和脆弱的方法论的困扰。然而,通过了解这些局限性,我们可以做得更好。
对于进入这一领域的学生来说,信息很明确: 对排行榜保持怀疑态度。 当你运行自己的评估时,优先考虑透明度和鲁棒性,而不是追求高分。科学的目标不是获得最高的数字;而是发现关于这些系统能做什么——以及不能做什么——的真相。
](https://deep-paper.org/en/paper/2407.04069/images/cover.png)