引言

我们正处于大语言模型 (LLM) 的黄金时代。每周都有新模型发布——声称比前代更快、更聪明、更强大。我们看到各种图表展示着巨大的柱状图、更高的数值,并声称在 MMLU 或 HumanEval 等基准测试中达到了“SOTA (最先进) ”的性能。

但这里有个令人不安的问题: 我们真的能相信这些数字吗?

评估 LLM 不像编译代码;它不是二元的“通过/失败”。这是一个复杂、微妙的过程,充满了看不见的陷阱。如果你稍微改变一下问题的措辞,模型的分数可能会暴跌。如果模型意外地在测试问题上进行过训练 (数据污染) ,那它就是在不知不觉中作弊。如果用于给模型答案评分的代码有错误,那么排行榜的排名就毫无意义。

在一篇全面的新论文中,来自约克大学、南洋理工大学和其他机构的研究人员对 LLM 评估流程进行了批判性审查 。 他们认为,当前的格局是不一致且不可靠的。

在这篇深度文章中,我们将剖析他们的发现。我们将探讨正确评估的三大支柱——复现性 (Reproducibility) 、可靠性 (Reliability) 和鲁棒性 (Robustness) ——并看看目前的做法是如何在这些方面失败的。最后,我们将概述研究人员的建议,告诉学生和工程师如何构建更好、更诚实的评估。

LLM 评估工作流程

要理解哪里出了问题,我们需要先梳理出典型的评估是什么样子的。这不仅仅是“提问,然后得到答案”。这是一个多步骤的流程,每一步的决策都很重要。

如下图所示,作者将工作流程归类为三个不同的阶段:

  1. 评估设置 (Evaluation Setup) : 选择基准 (数据集) 和特定的模型。
  2. 响应生成 (Response Generation) : 设计提示词 (零样本 vs. 少样本) 和设置解码参数 (temperature, top-k) 。
  3. 评估方法 (Evaluation Methodology) : 将混乱的文本输出解析为结构化数据并进行评分。

图 1: LLM 评估工作流程的类型学。关于挑战和局限性的更详细描述可以在表 5 中找到。

错误可能潜伏在任何阶段。步骤 1 中的糟糕选择可能导致数据污染。步骤 2 中隐藏的参数更改可能人为地夸大分数。步骤 3 中有缺陷的脚本可能会将正确答案误判为错误。

让我们来拆解研究人员确定的三大危机。

危机 1: 复现性 (Reproducibility)

在科学领域,如果一个结果无法复现,它就不是结果——它只是轶事。作者指出,LLM 研究目前正遭受严重的复现性危机。

核心问题是缺乏透明度。当一个新模型声称获得高分时,作者往往没有发布用于获得该分数的具体代码、提示词或模型版本。

缺失的细节

研究人员引用了一项对 212 篇论文的分析,揭示了关于资源可用性的惊人统计数据。如下表所示,虽然大多数论文分享了它们的提示词,但只有约一半分享了用于评估的代码 , 披露具体模型版本的甚至更少。

表 1: Balloccu 等人 (2024) 分析的资源可用性和模型比较的公平性 (基于 212 篇论文) 。

这为什么重要?

  • 模型版本: 闭源模型 (如 GPT-4) 经常更新。3 月份在 gpt-4 上运行的基准测试结果可能与 9 月份运行的结果不同。如果没有版本控制 (例如 gpt-4-0613) ,实验是不可能复现的。
  • 数据子集: 一些研究人员为了节省时间或金钱,只在基准测试的子集上进行评估,但未能说明是哪个子集。你不能将基于 100 个问题的分数与基于 10,000 个问题的分数进行比较。

危机 2: 可靠性 (Reliability)

可靠性提出的问题是: 我们是否在测量我们认为正在测量的内容? 论文指出了几个困扰现代 LLM 排行榜的“可靠性杀手”。

数据污染

这是房间里的大象。LLM 是在互联网上训练的。基准数据集也互联网上。如果模型是在测试集的问题上训练出来的,那么当它回答这些问题时,它并不是在“推理”——它只是在记忆。作者指出,许多研究未能进行污染检查,这意味着高分可能只是记忆的证据。

解析问题

LLM 很多话。如果你问一个多选题,模型可能会回答: “正确答案显然是选项 B,因为……”

为了给这个打分,研究人员编写了解析脚本 (parsing scripts) ——从句子中提取“B”的代码。但如果模型说“选项 (b)”或“第二个选项”呢?如果解析脚本太死板,它会将正确答案标记为错误。

作者比较了自动评估 (Automatic Evaluation) (仅依赖脚本) 与混合评估 (Hybrid Evaluation) (人类介入检查困难案例) 。结果如下图所示,说明了一切:

图 2: 比较自动评估和混合评估。

注意柱状图中的差距。在 WebQuestionsNQ-Open 等数据集中,人工干预 (柱状图的红色部分) 显着提高了分数。纯粹依赖自动脚本可能会低估模型真实能力超过 10%。

解析复杂性

为了说明解析为何如此困难,请考虑这些现实场景。在下面的场景 1 中,一个简单的脚本可能就足够了。但在场景 2 中,模型提供了一个正确的答案,但包含了额外的上下文或过时的信息 (由于训练截止日期) ,脚本可能会完全失败。

表 6: 一些需要解析脚本来提取目标答案的 LLM 生成响应示例。对于场景 2,通常需要人工评估以确保答案解析的准确性。

危机 3: 鲁棒性 (Robustness)

鲁棒性指的是模型在不同条件下保持性能的能力。如果一个学生只有在题目是用蓝墨水写的时候才能通过数学考试,那他就不懂数学——他有鲁棒性问题。

提示词的敏感性

LLM 最脆弱的方面之一是提示词敏感性 (prompt sensitivity) 。 对问题的措辞稍加修改,可能会导致完全不同的答案。

作者进行了一项实验,比较了 GPT-4 和 Claude-3 等不同模型在使用“受限” (严格指令) 与“非受限”提示词时的表现。

图 4: 基于提示词微调的 SAMSum 数据集 ROUGE-1 分数。

正如你所看到的,分数取决于所使用的提示策略。这导致了 “提示词黑客攻击 (Prompt Hacking) ” ——研究人员可能会无意识地 (或有意识地) 寻找让他们的模型看起来最好的特定提示词,而不是使用标准化的提示词。如果模型 A 使用优化的提示词,而模型 B 使用基础提示词,那么比较就是不公平的。

缺乏通用化评估

研究人员通常坚持使用像 MMLU 这样的流行基准。然而,MMLU 的高分并不能保证在其他方面的成功。

下图比较了 LLaMA-3 (蓝色) 和 Qwen2 (橙色) 。虽然它们在通用基准上互有胜负,但请看它们在特定任务上的分歧。Qwen2 在 HumanEval (编码) 上占主导地位,而它们在 GSM8K (数学) 上则不分伯仲。

图 3: 性能比较: LLaMA-3 和 Qwen2

这强调了只看排行榜上单一“平均”分数的危险。模型具有“尖刺状”的能力分布;它们可能是一个领域的天才,却是另一个领域的白痴。

人为因素: 所有权偏见

最后,即使是人工评估也不安全。 聊天机器人竞技场 (Chatbot Arena) 允许用户对模型回复进行投票。然而,用户可能是有偏见的。

研究人员强调了一个称为所有权攻击 (Ownership Attack) 的漏洞。如果用户问“谁创造了你?”,模型 A 说“我是 Anthropic 的模型”,那么喜欢 Anthropic 的用户可能会不顾回答质量而投票给它。

图 5: 针对 LLM 盲测的所有权攻击: 审核者可以提出任何与所有权相关的问题,并仅根据模型的所有权选择他们偏好的模型。如果在对话过程中模型的身份被泄露,LMSys 将不会计入投票。

这种偏见导致了人类排名 (如 Chatbot Arena) 与静态基准 (如 MMLU) 之间的差异,如下所示:

表 3: LMSys 聊天机器人竞技场与两种 MMLU 实现的模型排名。每个模型在 MMLU 中的相对排名显示在括号中。

请注意, Claude-3-Opus 在 MMLU 中排名第 1,但在竞技场中排名第 7 (在该数据统计时) 。这两种评估方法讲述了不同的故事。

建议和最佳实践

当下的情况听起来很严峻,但论文指明了前进的道路。作者为学生和研究人员提供了一套结构化的建议,以确保他们的评估是严谨的。

下表总结了他们在我们讨论的三个维度上的关键建议。

表 4: 建议和实施意见。

对你研究的关键启示:

  1. 关于复现性:
  • 公开所有内容: 你的代码、你的提示词和你的解析脚本。
  • 记录版本: 永远不要只说 “GPT-4”。要说 “GPT-4-0613”。
  • 使用工具: 利用 Weights & BiasesMLflow 等工具来跟踪你的实验设置。
  1. 关于可靠性:
  • 污染检查: 使用像 LLMSanitize 这样的库来检查你的测试数据是否泄露到了模型的训练集中。
  • 人类介入 (Human-in-the-loop) : 不要盲目相信正则解析。手动验证模型输出的随机样本,以确保你的脚本评分正确。
  • 更新基准: 使用更新、更难的数据集版本 (例如,使用 MMLU-Pro 而不是标准的 MMLU) 以避免饱和及污染问题。
  1. 关于鲁棒性:
  • 不要只用一个提示词: 用同一个提示词的多种变体测试你的模型,看看性能是否稳定。
  • 报告方差: 不要只报告最高分。报告不同提示词下的平均值和标准差。
  • 分析分词器: 要意识到不同的模型对文本的分词方式不同,这会影响模型实际上看到了多少数据集的“词汇量” (如下图所示) 。

表 2: 不同数据集和 LLM 分词器的词表覆盖率比较。分数代表被各自数据集覆盖的分词器词表的百分比。

结论

随着大语言模型从研究实验室走向现实世界的产品,评估变成了流程中最关键的一步。我们再也无法承受将评估视为事后诸葛亮或简单的“分数检查”。

这就论文强调了目前 LLM 评估状态的脆弱性。它深受复现性问题、数据污染和脆弱的方法论的困扰。然而,通过了解这些局限性,我们可以做得更好。

对于进入这一领域的学生来说,信息很明确: 对排行榜保持怀疑态度。 当你运行自己的评估时,优先考虑透明度和鲁棒性,而不是追求高分。科学的目标不是获得最高的数字;而是发现关于这些系统能做什么——以及不能做什么——的真相。