你比三年级小学生更聪明吗？为什么大语言模型在 Mathador 挑战中惨败

引言

在人工智能飞速发展的今天，我们已经习惯了这样的头条新闻: 大语言模型 (LLM) 又攻克了一个人类里程碑。我们看到模型通过了律师资格考试，在物理学领域达到研究生水平，甚至能解决复杂的编程挑战。如果你查看流行的排行榜，似乎我们正在接近一个饱和点，即 AI 的能力已经匹配甚至超越了人类专家的表现。

但这里有一个陷阱。

越来越多的研究表明，这种高性能可能部分归因于“污染”。由于 LLM 是在海量的互联网数据上训练的，它们可能只是记住了标准基准测试 (如小学数学数据集 GSM8K) 的问题和答案。它们不一定是在进行推理；它们只是在回忆。

Mathador-LM 是一项令人着迷的新研究，它挑战了这一范式。研究人员引入了一种基于游戏的动态基准测试，由于其是即时生成的，因此无法被记忆。结果令人震惊: 虽然像 GPT-4 和 Claude 3 这样的顶尖模型在标准测试中得分极高，但在 Mathador-LM 上却惨遭失败——其得分显著低于三年级小学生的平均水平。

在这篇文章中，我们将剖析 Mathador-LM 论文，解释这个难倒 AI 的游戏机制，并探讨这对大语言模型真实的数学推理能力意味着什么。

静态基准测试的问题

要理解为什么 Mathador-LM 是必要的，我们首先必须审视 LLM 评估的现状。目前最常用的指标包括 MMLU (大规模多任务语言理解) 和 GSM8K (小学数学) 等基准测试。

如下图所示，现代模型在这些基准测试上正在接近饱和。代表 MMLU 和 GSM8K 的蓝色和绿色线条正飙升至 90-100% 的准确率。

Mathador-LM、MMLU 和 GSM8k 的对比结果。

然而，请看图表左下角。那条接近零的平线？那就是 Mathador-LM 上的表现。

这种差异是巨大的。根据 MMLU 的标准，理论上拥有“人类专家”知识的模型，在 Mathador 上的表现却不如小孩子。这支持了测试集泄露的假设: 模型之所以在标准测试中看起来很聪明，是因为它们在训练期间见过这些问题。Mathador-LM 由于是动态生成的，提供了一个模型无法作弊的“干净”推理测试。

Mathador-LM 基准测试: 它是如何工作的

该基准测试基于“Mathador”，这是一种在法国流行的数学游戏，用于教 3 到 8 年级的学生算术。

游戏规则

前提很简单，但需要真正的规划和组合推理能力。

输入: 给你一组 5 个“基础数字” (操作数) 和一个“目标数字”。
目标: 你必须使用基础数字计算得到目标数字。
约束:

你可以使用四种基本运算: 加 (+) 、减 (-) 、乘 (\(\times\)) 和除 (\(\div\)) 。
每个基础数字最多只能使用一次 。
你不需要使用所有数字，但如果使用了所有数字，你会得到更多分数。
中间结果必须是非负整数 (不能有分数，不能有负数) 。

研究人员使用结构化提示将这些问题输入给 LLM。提示包含规则和需要解决的具体实例。

Mathador-LM 基准测试的提示词及示例问题。

如上例 (图 3) 所示，如果目标是 34 , 基础数字是 4, 2, 8, 11, 17 :

一个简单解法可能是 \(2 \times 17 = 34\)。这虽然正确但很简单。
一个 Mathador 解法 (最优解) 使用复杂的步骤: \(8+4=12\)，然后 \(12-11=1\)，接着 \(17/1=17\)，最后 \(17 \times 2=34\)。

评分系统

Mathador 不仅仅是二元判别 (通过/失败) 。它使用积分系统来奖励复杂性和对除法等困难运算的使用。这使得研究人员能够评估推理的质量，而不仅仅是结果的正确性。

Mathador-LM 基准测试的评分系统。

最终目标是获得 Mathador 奖励 (Mathador Bonus) : 即恰好使用所有 5 个数字和所有 4 种运算符来达到目标。

形式化挑战

从计算科学的角度来看，Mathador 是一个搜索问题。模型必须在可能的算术表达式空间中进行导航。作者对其进行了形式化定义，以确保基准测试的严谨性。

有效表达式集 \(\mathcal{E}_P\) 定义为操作数的排列以及运算符和括号的放置:

定义表达式集的方程。

这种数学形式化确保了生成的每个实例都有一条可解路径，并允许根据搜索空间中解的密度来计算难度。由于问题空间巨大，研究人员可以为每次评估运行生成唯一的数据集，从而彻底消除模型以前“见过”该问题的风险。

实验与结果

作者在这个新基准上评估了广泛的开源模型 (如 Llama-3、Qwen2、Mistral) 和闭源模型 (GPT-4、Claude 3) 。结果对 AI 系统来说颇受打击。

性能差距

虽然人类三年级学生的平均准确率约为 43.7% , 但最先进的 AI 模型却很难突破 15% 。

开源和闭源模型在 Mathador-LM 上的详细结果。

从结果 (图 4) 中得出的主要结论:

小模型完全失败: 参数少于 30 亿的模型 (如 Qwen-1.5-0.5B) 得分几乎为 0%。
规模很重要，但还不够: 模型规模与性能之间存在明显的相关性。700 亿以上参数的模型 (Llama-3-70B、Qwen2-72B) 表现最好，徘徊在 10-15% 左右。
SOTA 的困境: 即使是重量级选手——GPT-4 和 Claude 3 Opus——也没有占据主导地位。它们的表现与最好的开源模型相当，但仍远远落后于人类儿童。

稳定性与可靠性

对新基准测试的一个常见批评是它们往往充满噪声。如果你运行测试两次，会得到相同的分数吗？

研究人员在不同大小的动态生成数据集上反复测试了 Llama-3-70B。

LLama-3-70B-Instruct 在 5 次评估中的稳定性。

如表 2 所示，无论使用 100 个还是 1500 个样本，“混合 (Mixed) ”难度的数据集都产生了令人难以置信的稳定结果 (约 11.5% 到 12.3%) 。这种稳定性证实了 Mathador-LM 是衡量推理能力的可靠指标。

“少样本 (Few-Shot) ”提示有帮助吗？

在 LLM 工程中，“少样本提示” (在提示中给模型几个已解决问题的示例) 通常会显著提升性能。研究人员测试了给模型提供 2、5、10 或 20 个示例是否能帮助它们掌握 Mathador 的逻辑。

样本数量对评估的影响。

令人惊讶的是，增加样本数量几乎没有效果。从 2 个样本增加到 20 个样本仅带来了约 1% 的准确率提升。这表明模型失败并不是因为它们不理解格式；它们失败是因为缺乏解决谜题所需的基础推理规划能力。

它们为什么会失败？ (错误分析)

这可能是论文中最具启示性的部分。当 LLM 在 Mathador 问题上失败时，它是如何失败的？研究人员将错误分为四类:

格式错误 (Formatting Error) : 模型没有正确书写解答。
计算错误 (Calculation Error) : 数学算错了 (例如，说 \(5+5=12\)) 。
未达目标 (Missed Target) : 计算正确，但最终数字不是目标数字。
非法操作数 (Illegal Operand) : 模型使用了不在 5 个基础数字列表中的数字。

指令遵循模型在 Mathador-LM 上的错误类型。

表 4 揭示了一个令人震惊的弱点。绝大多数错误——对大多数模型来说超过 60%——是非法操作数错误。

这意味着模型正在“幻觉”出数字。如果它们需要一个“7”来解方程，但基础数字集中没有“7”，它们就会直接编造一个。这凸显了当前 LLM 的一个关键缺陷: 它们很难在推理链中遵守严格的约束 (负面约束) 。它们优先考虑生成一个看起来合理的数学方程式，而不是遵守游戏环境的严格规则。

分数分布与策略

并非所有模型都以同样的方式失败。研究人员绘制了分数分布图，以观察模型是在尝试复杂的解决方案 (以此争取 Mathador 奖励) 还是在求稳。

几个模型的分数分布。

图 5 显示, Claude-3-Opus (底行) 比起 Llama-3-70B (顶行) ，能更频繁地找到高分解决方案 (得分为 9-10 分) ，即使它们的平均成功率相近。这表明某些模型具有稍好的“规划”视野，允许它们尝试更复杂的算术链，而其他模型则满足于最简单的路径或在尝试中失败。

进阶分析

作者进行了更深入的挖掘，看看标准的“技巧”是否能提高性能。

多次尝试 (自洽性)

如果让模型尝试 5 次并选择最佳的有效答案，它会做得更好吗？

允许多次尝试的结果。

是的，但不足以缩小差距。表 5 显示有 19-29% 的相对增益，这很显著，但即使有 5 次尝试，Llama-3-70B 也仅达到 13.7% 的准确率——仍远低于人类基线。

解码策略

他们还测试了改变“温度”或采样方法 (贪婪解码 vs. 核采样) 是否有影响。

不同文本解码技术下的结果。

如表 6 所示，解码策略几乎没有任何区别。无论模型是更有创造性 (核采样) 还是确定性 (贪婪解码) ，无法规划有效路径的根本无能依然存在。

结论与启示

Mathador-LM 论文为 AI 社区提供了一个重要的现实检验。它表明，虽然 LLM 正在成为能够通过行医资格考试的百科全书式天才，但它们仍然缺乏一个普通 8 岁儿童在解数学谜题时所具备的灵活、受约束的推理能力。

主要收获:

污染是真实的: GSM8K 性能与 Mathador-LM 性能之间的巨大差距表明，当前的基准测试受到了严重污染。
推理 vs. 检索: LLM 难以处理需要严格受限规划的任务 (仅使用可用数字) 。大量的“非法操作数”错误表明它们难以“抑制”外部信息的检索。
未来是动态的: 静态基准测试 (固定的问题列表) 在发布的那一刻起就过时了。像 Mathador-LM 这样即时生成独特问题的动态基准测试，是衡量进步的唯一可靠方式。

对于 AI 领域的学生和研究人员来说，Mathador-LM 凸显了一个明确的前沿方向: 超越简单的指令遵循和记忆，迈向能够在全新环境中规划、验证并遵守严格逻辑约束的系统。在 LLM 能够在 Mathador 上击败三年级学生之前，我们应该对“超人”推理能力的说法保持谨慎。

引言#

静态基准测试的问题#

Mathador-LM 基准测试: 它是如何工作的#

游戏规则#

评分系统#

形式化挑战#

实验与结果#

性能差距#

稳定性与可靠性#

“少样本 (Few-Shot) ”提示有帮助吗？#

它们为什么会失败？ (错误分析)#

分数分布与策略#

进阶分析#

多次尝试 (自洽性)#

解码策略#

结论与启示#

引言