AI 能生成数学猜想吗？连接机器学习与代数组合学

人工智能与数学的交叉领域是当前科学界最令人兴奋的前沿之一。当我们提到“AI 用于数学”时，我们通常会想到大型语言模型 (LLMs) 撰写形式化证明或解决高中微积分应用题。然而，专业数学家的工作流程远不止写下证明那么简单。

在一个定理被证明之前，它必须先被猜想出来。而在它被猜想出来之前，数学家通常会花费数周甚至数月的时间来生成“原始数据”——计算示例、绘制图表，以及在离散结构中寻找模式。这篇新论文认为，这个阶段——建立直觉和提出猜想的阶段——正是机器学习 (ML) 可以大放异彩的地方。

在研究论文 “Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics” 中，Herman Chau 及其同事介绍了 代数组合学数据集仓库 (Algebraic Combinatorics Dataset Repository, ACD Repo) 。这是一个新颖的数据集集合，包含九个数据集，其设计目的不是测试 AI 是否能证明已知的定理，而是测试它能否“看”到通往新数学的高维模式。

在这篇文章中，我们将探讨为什么代数组合学是机器学习的完美游乐场，深入研究这些数据集中的具体数学对象，并分析当前的 AI 模型是否能够胜任研究级的发现任务。

为什么选择代数组合学？

如果你想训练一个 AI 来发现数学模式，该从哪里开始呢？微积分是连续且混乱的。数论可能极其稀疏。作者认为, 代数组合学 (Algebraic Combinatorics) 是最佳切入点。

代数组合学研究源于抽象代数 (研究对称性和空间) 的离散结构 (可以计数的事物，如网格、图和置换) 。这就是为什么该领域特别适合机器学习的原因:

入门门槛低: 不像代数几何那样需要多年的理论基础才能理解基本对象，组合学对象通常是直观且可视化的 (例如堆叠方块或绘制路径) 。
可计算性: 因为这些对象是离散的，我们可以很容易地在计算机上表示它们。
数据量: 我们可以生成数百万个示例，创造出深度学习模型所渴望的海量数据集。

ACD Repo 专注于 猜想过程 (conjecturing process) 。每个数据集都将一个数学问题 (通常是一个未解决的问题) 与一个机器学习任务配对。假设很简单: 如果一个 ML 模型能够解决这个任务 (例如，根据形状预测一个数字) ，那么它很可能学到了一条数学规则，这可能会给人类研究人员提供通往新定理的线索。

登场角色

在查看具体数据集之前，我们需要了解这个领域的“词汇”。如果你不是数学专业的学生也不用担心；这些对象惊人地直观。

1. 分拆 (Partitions) 和杨图 (Young Diagrams)

整数分拆 只是将一个数字分解为较小整数之和的一种方式。例如，数字 7 可以分拆为 $3 + 2 + 2$。

数学家使用 杨图 (Young diagrams) (或 Ferrers 图) 来可视化这些分拆，这本质上就是堆叠的方块。如果你拿一个杨图并根据特定规则在方块中填入数字，你就得到了一个 杨表 (Young Tableau) 。这些图表在表示论——研究抽象代数群如何作用于向量空间——中无处不在。

图 1. (左) 分拆 ( 3 , 2 , 2 ) 的杨图。 (中) 分拆 ( 3 , 2 , 2 ) 的标准杨表。 (右) 分拆 ( 3 , 2 , 2 ) 的半标准杨表

如图 1 所示, 标准杨表 (Standard Young Tableau) (中) 创建了数字的特定排序，而 半标准 (Semistandard) 版本 (右) 允许在特定约束下重复数字。这些简单的网格编码了关于对称性的深层信息。

2. 置换 (Permutations)

置换是数字的重新排列。在机器学习中，我们经常将置换视为对称性 (顺序不变性) 。在组合学中，我们研究这种重新排列本身的结构。我们可以将数字集合 $\{1, 2, 3, 4\}$ 的一个置换写为 $2 \ 1 \ 4 \ 3$，意思是 1 移动到了位置 2，2 移动到了位置 1，依此类推。

3. 偏序集 (Posets / Partially Ordered Sets)

并不是所有的东西都可以像整数那样按直线排序 ($1 < 2 < 3$) 。在 偏序集 中，有些元素是可比较的，有些则不是。这就好比族谱: 你是你祖母的后代，但你不是你表亲的“后代”。你们是有联系的，但彼此之间并没有垂直的排序关系。

数据集: 研究级数学之旅

ACD Repo 包含九个数据集。我们将它们分为两组: 基础性结果 (我们已知答案的经典问题，用于基准测试模型) 和 开放性问题 (高性能可能导致新发现的问题) 。

第一组: 基础性挑战

这些数据集代表了已有算法存在、但通常复杂或计算昂贵的问题。神经网络能否仅仅通过观察示例来“学习”算法？

数据集 A: 对称群特征标 (Symmetric Group Characters) 这可以说是套件中最难的任务。目标是计算对称群表示的“特征标” (线性代数中的特定迹值) 。这些特征标由两个分拆 $\lambda$ 和 $\mu$ 索引。

ML 任务是: 输入两个分拆 $\to$ 输出特征标 (一个整数) 。

虽然存在像 Murnaghan-Nakayama 规则这样的算法来计算这个值，但对于较大的 $N$，它们的组合计算极其繁琐。这些特征标的值主要集中在零附近，但会有巨大的离群值 (长尾) 。

$图 3. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 1 8 } 特征标的直方图$

如上图 $S_{18}$ 的直方图所示 (以及下面图 4 和图 5 中 $S_{20}$ 和 $S_{22}$ 的类似情况) ，数据极度不平衡，这使得标准回归模型在学习时极易过度拟合均值，简直是一场噩梦。

$图 4. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 2 0 } 特征标的直方图$

$图 5. 区间 [ - 5 0 0 , 5 0 0 ] 内 S _ { 2 2 } 特征标的直方图$

数据集 B: Robinson-Schensted-Knuth (RSK) 对应 RSK 算法是一个传奇性的结果，它将一个置换转换为一对标准杨表。它充当了组合学和表示论之间的桥梁。

ML 任务: 输入一对杨表 $\to$ 预测原始置换。 这实际上是要求模型对 RSK 算法进行逆向工程。作者发现这个任务对于标准的 MLP (多层感知机) 来说出奇地困难，这表明 RSK 的“逻辑”对于神经网络来说是非常难以逼近的。

第二组: 开放性问题

这些数据集对于科学发现来说是最令人兴奋的。它们代表了数学家目前陷入困境或正在寻找更好公式的领域。

数据集 C: mHeight 函数 这个数据集与最近解决的一个关于 Kazhdan-Lusztig 多项式的猜想有关。“mHeight” 是根据置换内部的特定模式 (称为 3412-模式) 计算出的统计量。

图 6. 在置换上计算 mHeight 的示例。

ML 任务是对置换的 mHeight 进行分类。有趣的是，简单的模型在这里表现得相当不错。如果一个小型的神经网络能够以 99% 的准确率预测这个值，这就意味着可能存在比当前涉及模式搜索的复杂定义更简单的 mHeight “规则”或公式。

数据集 D: 格拉斯曼簇代数 (Grassmannian Cluster Algebras) 这涉及检查半标准杨表 (SSYT) 是否对应于一个“簇变量”。这连接了几何 (格拉斯曼流形) 与代数。

图 7. 格拉斯曼簇代数数据集中的一个有效 (左) 和无效 (右) 杨表示例。

ML 任务是 二元分类 : 观察杨表 (如图 7 中的那些) 并预测它是否“有效” (索引了一个簇变量) 。这种任务的视觉性质——寻找网格数字中的局部模式——使其非常适合卷积神经网络 (CNN) 或类似的架构。

数据集 E: Kazhdan-Lusztig (KL) 多项式 这些多项式是几何表示论的基础，但它们仍然很神秘。它们的系数没有简单的封闭公式。

\[ P _ { x , w } ( q ) = 1 + 1 6 q + 1 0 3 q ^ { 2 } + 3 3 7 q ^ { 3 } + 5 6 6 q ^ { 4 } + 5 2 9 q ^ { 5 } + 2 7 5 q ^ { 6 } + 6 6 q ^ { 7 } + 3 q ^ { 8 } \]

ML 任务涉及在给定两个置换的情况下预测这些多项式的特定系数。因为系数是整数 (且通常很小) ，所以这被视为一个分类问题。

数据集 F: 格路偏序 (Lattice Path Partial Orders) 这个数据集处理的是网格上不能越过特定对角线的路径。对这些路径进行“排序”有两种不同的方法: 匹配序 (Matching order) 和 拉格朗日序 (Lagrange order) 。数学家想了解这两种顺序之间的关系。

图 9. 两个从 ( 0 , 0 ) 到 ( 3 , 2 ) 的格路示例。这并不对应于覆盖关系。

ML 任务是观察两条路径 (如图 9 中的路径) 并预测其中一条是否在任一顺序中“覆盖”另一条。这是一个几何推理任务。

数据集 G: 箭图突变等价性 (Quiver Mutation Equivalence) 箭图 (Quivers) 是有向图。“突变”是一种改变图中箭头的特定操作。一个开放性问题是确定两个箭图是否“突变等价” (你能否通过突变从 A 变到 B？) 。ML 任务是对给定箭图邻接矩阵的等价类进行分类。

实验与结果

那么，AI 能做数学吗？作者使用标准的“专用 (narrow)”模型 (逻辑回归、MLP、Transformer) 对这些数据集进行了基准测试，在某些情况下还使用了大型语言模型 (LLM) 。

“简单的”胜利 vs. 残酷的真相

结果各不相同，凸显了“数学难度”并不总是与“机器学习难度”一致。

成功案例:

箭图分类: 模型达到了很高的准确率。
格拉斯曼簇代数: 简单的 MLP 就能以 >99% 的准确率区分有效的杨表。
mHeight: 同样非常容易学习。

失败案例:

$S_n$ 特征标: 如下面的表 3 所示，简单的回归模型彻底失败了。误差幅度巨大。这表明从分拆 $\to$ 特征标的映射是非线性的且极其不稳定的。

表 3. 回归数据集上的现成模型准确率。结果是在第 C.1 节概述的超参数搜索后，对三个随机权重初始化取平均值，并带有 9 5 % 的置信区间。

缩放假设

实验中一个有趣的观察是，性能如何随着数学参数 $n$ (问题的大小) 的增加而变化。通常，更大的 $n$ 意味着更难的数学问题 (更多的置换，更大的网格) 。然而，对于 ML 来说，更大的 $n$ 也意味着 更多的训练数据 。

$图 2. (左) 格路数据集上的性能作为格路终点的函数 (更大的终点意味着更长和更多的路径) 。随着 n \\times n - 1 中 _ n 的增长，训练集大小增加，但问题也可能变得更难。 (中) E 型与 D 型箭图分类任务的性能作为深度的函数，该深度必须针对 n = 1 0 , 1 1 , 1 2 个顶点的 E 型箭图指定。 (右) 作为顶点数 _ n 的函数。$

在图 2 (左和右) 中，我们看到准确率通常随着 $n$ 的增加而提高。更高 $n$ 所提供的海量数据帮助模型克服了数学对象增加的复杂性。

案例研究: LLM 与“作弊”

论文中最引人入胜的部分之一涉及使用 GPT-4 和其他模型对 Schubert 多项式数据集执行 程序合成 (Program Synthesis) 。他们没有要求 AI 预测答案，而是要求它编写一个 Python 程序来解决问题。

LLM 达到了 100% 的准确率。很神奇，对吧？

并不完全是。经过检查，研究人员意识到 LLM 并没有发现深奥的数学。它们对用于创建数据集的采样方法进行了“逆向工程”。它们注意到了一个奇偶性伪影 (与置换的长度有关) ，它可以完美地预测结构常数是零还是非零。

虽然这没有解决开放的数学问题，但它展示了一种强大的能力: AI 可以充当 取证工具 , 检测我们在生成数学数据时引入的微妙偏差或模式。

结论与未来启示

代数组合学数据集仓库代表了我们对 AI 在数学中作用的思考方式的转变。它从“AI 作为计算器”或“AI 作为证明撰写者”的范式，转向了 “AI 作为直觉泵 (Intuition Pump)” 。

通过在这些数据集上训练模型，研究人员可以:

识别可解问题: 如果一个 MLP 获得了 99% 的准确率，那么很可能存在一个简单的公式。
生成反例: 如果一个模型在特定例子上失败，那些可能就是值得研究的数学“极端情况”。
可解释性: 通过分析神经网络如何解决箭图任务 (例如，观察它关注哪些子图) ，数学家可以找到通往严谨定理的线索。

对于机器学习领域的学生和研究人员来说，这些数据集提供了独特的挑战。它们干净、结构化，没有现实世界数据中的噪声，但它们捕捉到的逻辑深奥到足以难倒最聪明的人类头脑。代数组合学的下一个伟大的定理可能不是来自黑板，而是来自神经网络的权重。

为什么选择代数组合学？#

登场角色#

1. 分拆 (Partitions) 和杨图 (Young Diagrams)#

2. 置换 (Permutations)#

3. 偏序集 (Posets / Partially Ordered Sets)#

数据集: 研究级数学之旅#

第一组: 基础性挑战#

第二组: 开放性问题#

实验与结果#

“简单的”胜利 vs. 残酷的真相#

缩放假设#

案例研究: LLM 与“作弊”#

结论与未来启示#