超越正确答案：深入解读 IMO-Bench，人工智能数学能力的新黄金标准

一张散点图，显示了在人类评分与自动评分之间对 AI 生成数学证明的高度相关性。

图 1 | IMO-ProofBench 上人类评分与自动评分之间的相关性。基础和高阶问题均显示出强一致性，表明自动化证明评估的可行性。

在构建更智能的人工智能系统的竞赛中，大型语言模型 (LLM) 在数学推理方面取得了惊人的进展。早期的基准测试，如 GSM8K 和 MATH , 曾一度设定了挑战的标准，但这些数据集如今已接近饱和。许多顶尖模型可以轻松通过它们，这让研究人员开始怀疑，这些测试衡量的究竟是真正的推理能力，还是仅仅是模式识别。

更深层次的问题在于，大多数数学基准测试只检查最终答案。这就像批改微积分试卷时只看最后方框里的数字，而忽略了得出该数字的整个推导过程。这种方式可能捕捉到的是猜测，而非真正的推理。

为了推动该领域向前发展，我们需要一个更严峻的挑战——一个既重视过程也重视结果的挑战。 IMO-Bench 应运而生，它在论文 “迈向稳健的数学推理” 中被提出。研究团队将目光投向了年轻数学家最艰难的竞技场: 国际数学奥林匹克竞赛 (IMO) 。

IMO 并非死记硬背的计算竞赛。其问题旨在考查独创性、创造力以及证明写作技能。通过建立 IMO 级别的 AI 基准测试，作者们希望将焦点从“得出正确答案”转向“证明其正确性”。本文将深入解析 IMO-Bench 的三个组成部分，探讨世界领先的 AI 模型的表现，并阐述该基准测试如何成为 AI 可靠、可验证推理能力的转折点。

为什么选择国际数学奥林匹克竞赛？

在介绍基准测试之前，有必要先问: 为什么 IMO 是评估 AI 推理的理想基础？

与许多专注于公式化解题或记忆的数据集不同，IMO 问题需要创造力。它们常常需要跨越代数、几何、数论、组合数学等多个领域，融合概念并提出全新的解决步骤——这些步骤往往从未在教学中出现。其目标不仅仅是计算，而是在压力下的创造性逻辑。

这正是它成为稳健推理的重要试验场的原因。为了构建 IMO-Bench，作者们与一组 IMO 奖牌得主合作，他们负责审查题目并制定评分标准，以确保严谨、公平与挑战性。

IMO-Bench 套件包含三个不同的基准测试，每一个都针对推理的特定方面。

一张表格，展示了 IMO-Bench 套件中的三个基准测试: IMO-AnswerBench、IMO-ProofBench 和 IMO-GradingBench。

表 1 | IMO-Bench 的三大支柱: 简答准确性、证明写作能力和评分能力。

第一部分: IMO-AnswerBench — 模型能找到正确答案吗？

第一个组成部分 IMO-AnswerBench 包含 400 道奥林匹克风格的问题，这些问题都有简短、可验证的答案。该阶段评估模型在无需明确证明的情况下，进行奥林匹克级别推理并计算精确结果的能力。

问题选择与多样性

这些问题涵盖了竞赛数学的四个经典领域——代数 (Algebra)、组合数学 (Combinatorics)、几何 (Geometry) 和 数论 (Number Theory)——每个领域各有 100 个例题。难度范围从初中水平的准 IMO 问题到真正的 IMO 第 3 题或第 6 题级别挑战。

一张表格，展示了 IMO-AnswerBench 中四个类别问题的难度分布。

表 2 | IMO-AnswerBench 各数学领域的难度分布。

这种多样性确保了该基准不仅测试计算能力，也体现概念广度。如下图，不同领域的题目分布差异显著: 几何更侧重于角度和边长计算，而数论与组合数学则挑战模型的抽象推理。

四张饼图，展示了 IMO-AnswerBench 中几何、组合数学、代数和数论的主题分布。

图 2 | 按领域划分的主题分布。数论与组合数学囊括了最广泛的子主题，对模型的抽象推理能力提出了更高要求。

使基准测试“稳健”

公共基准测试通常面临一个臭名昭著的问题: 数据污染 。如果模型在训练阶段见过相同的题目或解法，其表现就无法反映真实的推理能力。

为解决该问题，作者提出了名为 问题稳健化 (Problem Robustification) 的多步骤机制，改造原有奥林匹克题目，包括:

改写语言与结构
更改变量 (例如在几何题中重命名点)
修改数值以减少记忆效应
添加干扰项——增加认知负荷的无关成分
重新表述方程但保留核心逻辑

奥林匹克竞赛原题及其在 IMO-AnswerBench 中“稳健化”版本示例。

表 8 | 奥林匹克题目重构示例，以防止记忆并促使模型从第一性原理进行推理。

自动化评分: AnswerAutoGrader

即便是简短答案，自动评分也很棘手。例如，人类知道“除 -4 以外的所有实数”等价于 \((-∞, -4) ∪ (-4, ∞)\)，但脚本可能判定为不同。

为此，论文提出了由 Gemini 2.5 Pro 驱动的 **AnswerAutoGrader **。该模型通过语义提取与验证机制评估答案的数学等价性，而非仅仅比对文本。结果显示，其评分与人类几乎完全一致，使得在保证准确性的同时实现大规模评估成为可能。

第二部分: IMO-ProofBench — 推理能力的真正考验

得到一个正确的数字是一回事，但 AI 能证明为什么这个数字正确吗？

IMO-ProofBench 正是对此进行考验。每道题都要求给出完整、逻辑严密、用自然语言撰写的证明。仅有正确答案而无正确推理不能得分。

该基准包含 **60 个基于证明的任务 **, 分为两个级别:

**基础集 (30 题): ** 准 IMO 至中等难度，用于基础评估。
**高阶集 (30 题): ** 奥数级挑战，包括 5 套完整的 IMO 风格题集与 18 道奖牌得主编写的新题，以确保原创性。

证明如何评分？

非正式证明的评估充满主观性。为标准化，研究者采用了 IMO 官方的 7 分制，并简化为四个类别。

一张表格，展示了简化后的 IMO 评分系统，包含四类: 正确、几乎正确、部分正确和不正确。

表 3 | IMO-ProofBench 使用的简化四级评分标准。

虽然人类专家是金标准，但人工评分耗时漫长。团队构建了 ProofAutoGrader——一个基于 LLM 的自动评分器。它接收题目、模型给出的证明、参考解答及评分指南，并输出详细评估。

尽管尚不完美，ProofAutoGrader 展现出强大潜力——其相关性分数接近人类水平，后文将展示结果。

第三部分: IMO-GradingBench — 模型能评判其他模型吗？

最后一项任务反转了角色: 模型不再是解题者，而是成为**评审者 **。

IMO-GradingBench 包含来自不同模型的 **1000 份证明提交 **, 均由专家数学家人工评分。模型需阅读题目与解答，并给出四级评分: 正确 (Correct)、几乎正确 (Almost)、部分正确 (Partial) 或不正确 (Incorrect)。

该基准测试评估模型对数学推理本身的理解能力。它能识别有效逻辑吗？能察觉细微但致命的错误吗？

一张堆叠条形图，展示了 IMO-GradingBench 中不同难度下的评分分布。

图 3 | IMO-GradingBench 中的人类评分分布。难度越高，错误与部分正确的比例越高。

结果: 当今模型的表现如何

研究团队测试了多种公开与专有模型，结果揭示了当前的真实进展。

IMO-AnswerBench — 明显的领跑者

Gemini Deep Think (IMO Gold) 以卓越的 80.0% 准确率领先，在简答题基准中超越所有竞争模型。

一张表格，按类别展示各 AI 模型在 IMO-AnswerBench 上的准确率。

表 4 | IMO-AnswerBench 各模型准确率表现。Gemini Deep Think 在所有领域均领先。

关键发现:

Gemini Deep Think 比 Grok 4 (非 Gemini 模型最佳) 高出 6.9%，比 DeepSeek R1 (开放权重模型最佳) 高出 19.2%。
组合数学仍是大多数模型的薄弱环节，显示抽象组合逻辑的持久挑战。
AnswerAutoGrader 与人类评分一致率达 98.9%，验证了完全自动评分的可靠性。

一个混淆矩阵，显示 AnswerAutoGrader 与人类评分的高度一致。

表 5 | 简答题的自动评分结果与人工评分几乎完全一致。

IMO-ProofBench — 巨大的分水岭

从答案到证明，模型间的性能差距急剧扩大。

一张表格，展示了专家对各模型在 IMO-ProofBench 基础与高阶子集的评估结果。

表 6 | IMO-ProofBench 上的专家评估结果。多数模型未能在奥数难度下生成严谨证明。

观察结果:

基础集中仅少数模型超过 50%，Gemini Deep Think (IMO Gold) 达到 **89.0% **。
高阶集中，非 Gemini 模型均跌至 25% 以下，而 IMO Gold 达到 **65.7% **, 领先幅度达 42.4%。
按题型分解可见潜在过拟合: Grok 4 在熟悉的 USAMO 2025 题上表现良好，但在新题上显著下降。Gemini Deep Think 表现稳定，显示出真实泛化能力。

ProofAutoGrader 的表现如何？

作者将 ProofAutoGrader 的成绩与专家人工评分进行了对比。

在公开模型测试中:

**皮尔逊相关系数 **: 基础集 0.96，高阶集 0.93
在 170 个内部模型上:** r = 0.87 **, 即使推理质量差异较大，仍保持强相关性

一张散点图，显示 ProofAutoGrader 与人类专家在内部模型评分之间的高相关性 (Pearson r = 0.87)。

图 4 | ProofAutoGrader 与人类评估在内部模型上的一致性。

大多数分歧出现于相近等级之间 (不正确 vs. 部分正确) 。

一个混淆矩阵，显示 ProofAutoGrader 最常见的错误分类发生在“不正确”和“部分正确”之间。

图 5 | ProofAutoGrader 的常见错误分类。即使接近人类水平，在相近评分间区分仍最具挑战性。

总体而言，ProofAutoGrader 证明了可扩展的证明评估可行。对于关键性评估仍建议人工复核，但自动化推理评估的基础已牢固建立。

IMO-GradingBench — 元推理的前沿

该基准挑战模型在无参考解答的情况下为他人证明评分，需要高度理解力。

一张表格，展示各模型在 IMO-GradingBench 上的准确率与平均绝对误差 (MAE)。

表 7 | 各模型在 IMO-GradingBench 上的表现。准确率 (%) 越高越好；平均绝对误差 (MAE) 越低越好。

关键观察:

最佳准确率 (o3) 为 **54.0% **, 总体结果凸显此挑战的艰难性。
Gemini Deep Think (IMO Gold) 取得最低 MAE (18.4%)，展现更优的细粒度判断。
IMO-GradingBench 显示，评估数学推理本身是一项前沿挑战——理解证明比撰写证明更难。

结论: 为 AI 推理设立更高标准

IMO-Bench 为评估 AI 数学能力树立了新的黄金标准。它不再只奖励最终答案，而是衡量创造性推理与形式正确性——正是区分真正理解与猜测的关键。

主要结论:

**推理差距确实存在。 ** 擅长找答案的模型往往在写证明时失利。IMO-ProofBench 清晰揭示了这一差异。
**稳健性至关重要。 ** 通过改写和修改题目，IMO-Bench 有效防止死记硬背，确保测试衡量的是真实推理。
**可扩展评估成为可能。 ** 借助 AnswerAutoGrader 与 ProofAutoGrader，可靠的自动评估可实现并补充人类专业判断。

随着 IMO-Bench 的公开发布，研究社区获得了一个严谨、透明的工具来衡量真正的数学推理能力。随着 AI 向通用智能迈进，前行之路或许正穿越与人类奥赛选手相同的领域——数学的创造性前沿。

挑战已然设定，接下来，是时候让模型证明自己了。

为什么选择国际数学奥林匹克竞赛？#

第一部分: IMO-AnswerBench — 模型能找到正确答案吗？#

问题选择与多样性#

使基准测试“稳健”#

自动化评分: AnswerAutoGrader#

第二部分: IMO-ProofBench — 推理能力的真正考验#

证明如何评分？#

第三部分: IMO-GradingBench — 模型能评判其他模型吗？#

结果: 当今模型的表现如何#

IMO-AnswerBench — 明显的领跑者#

IMO-ProofBench — 巨大的分水岭#

ProofAutoGrader 的表现如何？#

IMO-GradingBench — 元推理的前沿#

结论: 为 AI 推理设立更高标准#