引言
在人工智能飞速发展的今天,我们已经习惯了这样的头条新闻: 大语言模型 (LLM) 又攻克了一个人类里程碑。我们看到模型通过了律师资格考试,在物理学领域达到研究生水平,甚至能解决复杂的编程挑战。如果你查看流行的排行榜,似乎我们正在接近一个饱和点,即 AI 的能力已经匹配甚至超越了人类专家的表现。
但这里有一个陷阱。
越来越多的研究表明,这种高性能可能部分归因于“污染”。由于 LLM 是在海量的互联网数据上训练的,它们可能只是记住了标准基准测试 (如小学数学数据集 GSM8K) 的问题和答案。它们不一定是在进行推理;它们只是在回忆。
Mathador-LM 是一项令人着迷的新研究,它挑战了这一范式。研究人员引入了一种基于游戏的动态基准测试,由于其是即时生成的,因此无法被记忆。结果令人震惊: 虽然像 GPT-4 和 Claude 3 这样的顶尖模型在标准测试中得分极高,但在 Mathador-LM 上却惨遭失败——其得分显著低于三年级小学生的平均水平。
在这篇文章中,我们将剖析 Mathador-LM 论文,解释这个难倒 AI 的游戏机制,并探讨这对大语言模型真实的数学推理能力意味着什么。
静态基准测试的问题
要理解为什么 Mathador-LM 是必要的,我们首先必须审视 LLM 评估的现状。目前最常用的指标包括 MMLU (大规模多任务语言理解) 和 GSM8K (小学数学) 等基准测试。
如下图所示,现代模型在这些基准测试上正在接近饱和。代表 MMLU 和 GSM8K 的蓝色和绿色线条正飙升至 90-100% 的准确率。

然而,请看图表左下角。那条接近零的平线?那就是 Mathador-LM 上的表现。
这种差异是巨大的。根据 MMLU 的标准,理论上拥有“人类专家”知识的模型,在 Mathador 上的表现却不如小孩子。这支持了测试集泄露的假设: 模型之所以在标准测试中看起来很聪明,是因为它们在训练期间见过这些问题。Mathador-LM 由于是动态生成的,提供了一个模型无法作弊的“干净”推理测试。
Mathador-LM 基准测试: 它是如何工作的
该基准测试基于“Mathador”,这是一种在法国流行的数学游戏,用于教 3 到 8 年级的学生算术。
游戏规则
前提很简单,但需要真正的规划和组合推理能力。
- 输入: 给你一组 5 个“基础数字” (操作数) 和一个“目标数字”。
- 目标: 你必须使用基础数字计算得到目标数字。
- 约束:
- 你可以使用四种基本运算: 加 (+) 、减 (-) 、乘 (\(\times\)) 和除 (\(\div\)) 。
- 每个基础数字最多只能使用一次 。
- 你不需要使用所有数字,但如果使用了所有数字,你会得到更多分数。
- 中间结果必须是非负整数 (不能有分数,不能有负数) 。
研究人员使用结构化提示将这些问题输入给 LLM。提示包含规则和需要解决的具体实例。

如上例 (图 3) 所示,如果目标是 34 , 基础数字是 4, 2, 8, 11, 17 :
- 一个简单解法可能是 \(2 \times 17 = 34\)。这虽然正确但很简单。
- 一个 Mathador 解法 (最优解) 使用复杂的步骤: \(8+4=12\),然后 \(12-11=1\),接着 \(17/1=17\),最后 \(17 \times 2=34\)。
评分系统
Mathador 不仅仅是二元判别 (通过/失败) 。它使用积分系统来奖励复杂性和对除法等困难运算的使用。这使得研究人员能够评估推理的质量,而不仅仅是结果的正确性。

最终目标是获得 Mathador 奖励 (Mathador Bonus) : 即恰好使用所有 5 个数字和所有 4 种运算符来达到目标。
形式化挑战
从计算科学的角度来看,Mathador 是一个搜索问题。模型必须在可能的算术表达式空间中进行导航。作者对其进行了形式化定义,以确保基准测试的严谨性。
有效表达式集 \(\mathcal{E}_P\) 定义为操作数的排列以及运算符和括号的放置:

这种数学形式化确保了生成的每个实例都有一条可解路径,并允许根据搜索空间中解的密度来计算难度。由于问题空间巨大,研究人员可以为每次评估运行生成唯一的数据集,从而彻底消除模型以前“见过”该问题的风险。
实验与结果
作者在这个新基准上评估了广泛的开源模型 (如 Llama-3、Qwen2、Mistral) 和闭源模型 (GPT-4、Claude 3) 。结果对 AI 系统来说颇受打击。
性能差距
虽然人类三年级学生的平均准确率约为 43.7% , 但最先进的 AI 模型却很难突破 15% 。

从结果 (图 4) 中得出的主要结论:
- 小模型完全失败: 参数少于 30 亿的模型 (如 Qwen-1.5-0.5B) 得分几乎为 0%。
- 规模很重要,但还不够: 模型规模与性能之间存在明显的相关性。700 亿以上参数的模型 (Llama-3-70B、Qwen2-72B) 表现最好,徘徊在 10-15% 左右。
- SOTA 的困境: 即使是重量级选手——GPT-4 和 Claude 3 Opus——也没有占据主导地位。它们的表现与最好的开源模型相当,但仍远远落后于人类儿童。
稳定性与可靠性
对新基准测试的一个常见批评是它们往往充满噪声。如果你运行测试两次,会得到相同的分数吗?
研究人员在不同大小的动态生成数据集上反复测试了 Llama-3-70B。

如表 2 所示,无论使用 100 个还是 1500 个样本,“混合 (Mixed) ”难度的数据集都产生了令人难以置信的稳定结果 (约 11.5% 到 12.3%) 。这种稳定性证实了 Mathador-LM 是衡量推理能力的可靠指标。
“少样本 (Few-Shot) ”提示有帮助吗?
在 LLM 工程中,“少样本提示” (在提示中给模型几个已解决问题的示例) 通常会显著提升性能。研究人员测试了给模型提供 2、5、10 或 20 个示例是否能帮助它们掌握 Mathador 的逻辑。

令人惊讶的是,增加样本数量几乎没有效果。从 2 个样本增加到 20 个样本仅带来了约 1% 的准确率提升。这表明模型失败并不是因为它们不理解格式;它们失败是因为缺乏解决谜题所需的基础推理规划能力。
它们为什么会失败? (错误分析)
这可能是论文中最具启示性的部分。当 LLM 在 Mathador 问题上失败时,它是如何失败的?研究人员将错误分为四类:
- 格式错误 (Formatting Error) : 模型没有正确书写解答。
- 计算错误 (Calculation Error) : 数学算错了 (例如,说 \(5+5=12\)) 。
- 未达目标 (Missed Target) : 计算正确,但最终数字不是目标数字。
- 非法操作数 (Illegal Operand) : 模型使用了不在 5 个基础数字列表中的数字。

表 4 揭示了一个令人震惊的弱点。绝大多数错误——对大多数模型来说超过 60%——是非法操作数错误。
这意味着模型正在“幻觉”出数字。如果它们需要一个“7”来解方程,但基础数字集中没有“7”,它们就会直接编造一个。这凸显了当前 LLM 的一个关键缺陷: 它们很难在推理链中遵守严格的约束 (负面约束) 。它们优先考虑生成一个看起来合理的数学方程式,而不是遵守游戏环境的严格规则。
分数分布与策略
并非所有模型都以同样的方式失败。研究人员绘制了分数分布图,以观察模型是在尝试复杂的解决方案 (以此争取 Mathador 奖励) 还是在求稳。

图 5 显示, Claude-3-Opus (底行) 比起 Llama-3-70B (顶行) ,能更频繁地找到高分解决方案 (得分为 9-10 分) ,即使它们的平均成功率相近。这表明某些模型具有稍好的“规划”视野,允许它们尝试更复杂的算术链,而其他模型则满足于最简单的路径或在尝试中失败。
进阶分析
作者进行了更深入的挖掘,看看标准的“技巧”是否能提高性能。
多次尝试 (自洽性)
如果让模型尝试 5 次并选择最佳的有效答案,它会做得更好吗?

是的,但不足以缩小差距。表 5 显示有 19-29% 的相对增益,这很显著,但即使有 5 次尝试,Llama-3-70B 也仅达到 13.7% 的准确率——仍远低于人类基线。
解码策略
他们还测试了改变“温度”或采样方法 (贪婪解码 vs. 核采样) 是否有影响。

如表 6 所示,解码策略几乎没有任何区别。无论模型是更有创造性 (核采样) 还是确定性 (贪婪解码) ,无法规划有效路径的根本无能依然存在。
结论与启示
Mathador-LM 论文为 AI 社区提供了一个重要的现实检验。它表明,虽然 LLM 正在成为能够通过行医资格考试的百科全书式天才,但它们仍然缺乏一个普通 8 岁儿童在解数学谜题时所具备的灵活、受约束的推理能力。
主要收获:
- 污染是真实的: GSM8K 性能与 Mathador-LM 性能之间的巨大差距表明,当前的基准测试受到了严重污染。
- 推理 vs. 检索: LLM 难以处理需要严格受限规划的任务 (仅使用可用数字) 。大量的“非法操作数”错误表明它们难以“抑制”外部信息的检索。
- 未来是动态的: 静态基准测试 (固定的问题列表) 在发布的那一刻起就过时了。像 Mathador-LM 这样即时生成独特问题的动态基准测试,是衡量进步的唯一可靠方式。
对于 AI 领域的学生和研究人员来说,Mathador-LM 凸显了一个明确的前沿方向: 超越简单的指令遵循和记忆,迈向能够在全新环境中规划、验证并遵守严格逻辑约束的系统。在 LLM 能够在 Mathador 上击败三年级学生之前,我们应该对“超人”推理能力的说法保持谨慎。
](https://deep-paper.org/en/paper/2406.12572/images/cover.png)