人工智能与数学的交叉领域是当前科学界最令人兴奋的前沿之一。当我们提到“AI 用于数学”时,我们通常会想到大型语言模型 (LLMs) 撰写形式化证明或解决高中微积分应用题。然而,专业数学家的工作流程远不止写下证明那么简单。
在一个定理被证明之前,它必须先被猜想出来。而在它被猜想出来之前,数学家通常会花费数周甚至数月的时间来生成“原始数据”——计算示例、绘制图表,以及在离散结构中寻找模式。这篇新论文认为,这个阶段——建立直觉和提出猜想的阶段——正是机器学习 (ML) 可以大放异彩的地方。
在研究论文 “Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics” 中,Herman Chau 及其同事介绍了 代数组合学数据集仓库 (Algebraic Combinatorics Dataset Repository, ACD Repo) 。 这是一个新颖的数据集集合,包含九个数据集,其设计目的不是测试 AI 是否能证明已知的定理,而是测试它能否“看”到通往新数学的高维模式。
在这篇文章中,我们将探讨为什么代数组合学是机器学习的完美游乐场,深入研究这些数据集中的具体数学对象,并分析当前的 AI 模型是否能够胜任研究级的发现任务。
为什么选择代数组合学?
如果你想训练一个 AI 来发现数学模式,该从哪里开始呢?微积分是连续且混乱的。数论可能极其稀疏。作者认为, 代数组合学 (Algebraic Combinatorics) 是最佳切入点。
代数组合学研究源于抽象代数 (研究对称性和空间) 的离散结构 (可以计数的事物,如网格、图和置换) 。这就是为什么该领域特别适合机器学习的原因:
- 入门门槛低: 不像代数几何那样需要多年的理论基础才能理解基本对象,组合学对象通常是直观且可视化的 (例如堆叠方块或绘制路径) 。
- 可计算性: 因为这些对象是离散的,我们可以很容易地在计算机上表示它们。
- 数据量: 我们可以生成数百万个示例,创造出深度学习模型所渴望的海量数据集。
ACD Repo 专注于 猜想过程 (conjecturing process) 。 每个数据集都将一个数学问题 (通常是一个未解决的问题) 与一个机器学习任务配对。假设很简单: 如果一个 ML 模型能够解决这个任务 (例如,根据形状预测一个数字) ,那么它很可能学到了一条数学规则,这可能会给人类研究人员提供通往新定理的线索。
登场角色
在查看具体数据集之前,我们需要了解这个领域的“词汇”。如果你不是数学专业的学生也不用担心;这些对象惊人地直观。
1. 分拆 (Partitions) 和杨图 (Young Diagrams)
整数分拆 只是将一个数字分解为较小整数之和的一种方式。例如,数字 7 可以分拆为 \(3 + 2 + 2\)。
数学家使用 杨图 (Young diagrams) (或 Ferrers 图) 来可视化这些分拆,这本质上就是堆叠的方块。如果你拿一个杨图并根据特定规则在方块中填入数字,你就得到了一个 杨表 (Young Tableau) 。 这些图表在表示论——研究抽象代数群如何作用于向量空间——中无处不在。

如图 1 所示, 标准杨表 (Standard Young Tableau) (中) 创建了数字的特定排序,而 半标准 (Semistandard) 版本 (右) 允许在特定约束下重复数字。这些简单的网格编码了关于对称性的深层信息。
2. 置换 (Permutations)
置换是数字的重新排列。在机器学习中,我们经常将置换视为对称性 (顺序不变性) 。在组合学中,我们研究这种重新排列本身的结构。我们可以将数字集合 \(\{1, 2, 3, 4\}\) 的一个置换写为 \(2 \ 1 \ 4 \ 3\),意思是 1 移动到了位置 2,2 移动到了位置 1,依此类推。
3. 偏序集 (Posets / Partially Ordered Sets)
并不是所有的东西都可以像整数那样按直线排序 (\(1 < 2 < 3\)) 。在 偏序集 中,有些元素是可比较的,有些则不是。这就好比族谱: 你是你祖母的后代,但你不是你表亲的“后代”。你们是有联系的,但彼此之间并没有垂直的排序关系。
数据集: 研究级数学之旅
ACD Repo 包含九个数据集。我们将它们分为两组: 基础性结果 (我们已知答案的经典问题,用于基准测试模型) 和 开放性问题 (高性能可能导致新发现的问题) 。
第一组: 基础性挑战
这些数据集代表了已有算法存在、但通常复杂或计算昂贵的问题。神经网络能否仅仅通过观察示例来“学习”算法?
数据集 A: 对称群特征标 (Symmetric Group Characters) 这可以说是套件中最难的任务。目标是计算对称群表示的“特征标” (线性代数中的特定迹值) 。这些特征标由两个分拆 \(\lambda\) 和 \(\mu\) 索引。
ML 任务是: 输入两个分拆 \(\to\) 输出特征标 (一个整数) 。
虽然存在像 Murnaghan-Nakayama 规则这样的算法来计算这个值,但对于较大的 \(N\),它们的组合计算极其繁琐。这些特征标的值主要集中在零附近,但会有巨大的离群值 (长尾) 。
![图 3. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 1 8 } 特征标的直方图](/en/paper/2503.06366/images/013.jpg#center)
如上图 \(S_{18}\) 的直方图所示 (以及下面图 4 和图 5 中 \(S_{20}\) 和 \(S_{22}\) 的类似情况) ,数据极度不平衡,这使得标准回归模型在学习时极易过度拟合均值,简直是一场噩梦。
![图 4. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 2 0 } 特征标的直方图](/en/paper/2503.06366/images/014.jpg#center)
![图 5. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 2 2 } 特征标的直方图](/en/paper/2503.06366/images/015.jpg#center)
数据集 B: Robinson-Schensted-Knuth (RSK) 对应 RSK 算法是一个传奇性的结果,它将一个置换转换为一对标准杨表。它充当了组合学和表示论之间的桥梁。
ML 任务: 输入一对杨表 \(\to\) 预测原始置换。 这实际上是要求模型对 RSK 算法进行逆向工程。作者发现这个任务对于标准的 MLP (多层感知机) 来说出奇地困难,这表明 RSK 的“逻辑”对于神经网络来说是非常难以逼近的。
第二组: 开放性问题
这些数据集对于科学发现来说是最令人兴奋的。它们代表了数学家目前陷入困境或正在寻找更好公式的领域。
数据集 C: mHeight 函数 这个数据集与最近解决的一个关于 Kazhdan-Lusztig 多项式的猜想有关。“mHeight” 是根据置换内部的特定模式 (称为 3412-模式) 计算出的统计量。

ML 任务是对置换的 mHeight 进行分类。有趣的是,简单的模型在这里表现得相当不错。如果一个小型的神经网络能够以 99% 的准确率预测这个值,这就意味着可能存在比当前涉及模式搜索的复杂定义更简单的 mHeight “规则”或公式。
数据集 D: 格拉斯曼簇代数 (Grassmannian Cluster Algebras) 这涉及检查半标准杨表 (SSYT) 是否对应于一个“簇变量”。这连接了几何 (格拉斯曼流形) 与代数。

ML 任务是 二元分类 : 观察杨表 (如图 7 中的那些) 并预测它是否“有效” (索引了一个簇变量) 。这种任务的视觉性质——寻找网格数字中的局部模式——使其非常适合卷积神经网络 (CNN) 或类似的架构。
数据集 E: Kazhdan-Lusztig (KL) 多项式 这些多项式是几何表示论的基础,但它们仍然很神秘。它们的系数没有简单的封闭公式。
\[ P _ { x , w } ( q ) = 1 + 1 6 q + 1 0 3 q ^ { 2 } + 3 3 7 q ^ { 3 } + 5 6 6 q ^ { 4 } + 5 2 9 q ^ { 5 } + 2 7 5 q ^ { 6 } + 6 6 q ^ { 7 } + 3 q ^ { 8 } \]ML 任务涉及在给定两个置换的情况下预测这些多项式的特定系数。因为系数是整数 (且通常很小) ,所以这被视为一个分类问题。
数据集 F: 格路偏序 (Lattice Path Partial Orders) 这个数据集处理的是网格上不能越过特定对角线的路径。对这些路径进行“排序”有两种不同的方法: 匹配序 (Matching order) 和 拉格朗日序 (Lagrange order) 。 数学家想了解这两种顺序之间的关系。

ML 任务是观察两条路径 (如图 9 中的路径) 并预测其中一条是否在任一顺序中“覆盖”另一条。这是一个几何推理任务。
数据集 G: 箭图突变等价性 (Quiver Mutation Equivalence) 箭图 (Quivers) 是有向图。“突变”是一种改变图中箭头的特定操作。一个开放性问题是确定两个箭图是否“突变等价” (你能否通过突变从 A 变到 B?) 。ML 任务是对给定箭图邻接矩阵的等价类进行分类。
实验与结果
那么,AI 能做数学吗?作者使用标准的“专用 (narrow)”模型 (逻辑回归、MLP、Transformer) 对这些数据集进行了基准测试,在某些情况下还使用了大型语言模型 (LLM) 。
“简单的”胜利 vs. 残酷的真相
结果各不相同,凸显了“数学难度”并不总是与“机器学习难度”一致。
成功案例:
- 箭图分类: 模型达到了很高的准确率。
- 格拉斯曼簇代数: 简单的 MLP 就能以 >99% 的准确率区分有效的杨表。
- mHeight: 同样非常容易学习。
失败案例:
- \(S_n\) 特征标: 如下面的表 3 所示,简单的回归模型彻底失败了。误差幅度巨大。这表明从分拆 \(\to\) 特征标的映射是非线性的且极其不稳定的。

缩放假设
实验中一个有趣的观察是,性能如何随着数学参数 \(n\) (问题的大小) 的增加而变化。通常,更大的 \(n\) 意味着更难的数学问题 (更多的置换,更大的网格) 。然而,对于 ML 来说,更大的 \(n\) 也意味着 更多的训练数据 。

在图 2 (左和右) 中,我们看到准确率通常随着 \(n\) 的增加而 提高。更高 \(n\) 所提供的海量数据帮助模型克服了数学对象增加的复杂性。
案例研究: LLM 与“作弊”
论文中最引人入胜的部分之一涉及使用 GPT-4 和其他模型对 Schubert 多项式数据集执行 程序合成 (Program Synthesis) 。 他们没有要求 AI 预测答案,而是要求它编写一个 Python 程序来解决问题。
LLM 达到了 100% 的准确率。很神奇,对吧?
并不完全是。经过检查,研究人员意识到 LLM 并没有发现深奥的数学。它们对用于创建数据集的采样方法进行了“逆向工程”。它们注意到了一个奇偶性伪影 (与置换的长度有关) ,它可以完美地预测结构常数是零还是非零。
虽然这没有解决开放的数学问题,但它展示了一种强大的能力: AI 可以充当 取证工具 , 检测我们在生成数学数据时引入的微妙偏差或模式。
结论与未来启示
代数组合学数据集仓库代表了我们对 AI 在数学中作用的思考方式的转变。它从“AI 作为计算器”或“AI 作为证明撰写者”的范式,转向了 “AI 作为直觉泵 (Intuition Pump)” 。
通过在这些数据集上训练模型,研究人员可以:
- 识别可解问题: 如果一个 MLP 获得了 99% 的准确率,那么很可能存在一个简单的公式。
- 生成反例: 如果一个模型在特定例子上失败,那些可能就是值得研究的数学“极端情况”。
- 可解释性: 通过分析神经网络 如何 解决箭图任务 (例如,观察它关注哪些子图) ,数学家可以找到通往严谨定理的线索。
对于机器学习领域的学生和研究人员来说,这些数据集提供了独特的挑战。它们干净、结构化,没有现实世界数据中的噪声,但它们捕捉到的逻辑深奥到足以难倒最聪明的人类头脑。代数组合学的下一个伟大的定理可能不是来自黑板,而是来自神经网络的权重。
](https://deep-paper.org/en/paper/2503.06366/images/cover.png)