引言: 发现的错觉

想象一下你是一位物理学教授。你让一名学生写下爱因斯坦的质能方程。学生立即写出了 \(E=mc^2\)。这令人印象深刻吗?并不尽然——他们只是记住了这一串著名的字符。现在,想象一下你给同一个学生一张关于弹簧振动的原始实验数据表,并要求他们从头推导出控制定律,且不告诉他们观察的是什么物理现象。如果他们能推导出正确的微分方程,那就不再是死记硬背了;那是发现

这种区别正是今天人工智能在科学领域面临的核心危机。大语言模型 (LLMs) 在编码和数学方面表现出了惊人的天赋,这让研究人员不禁要问: 我们能利用这些模型来发现的科学定律吗?我们能自动化牛顿或开普勒的工作吗?

早期的尝试很有希望,但它们面临一个致命的缺陷。大多数用于测试这些 AI“科学家”的基准测试都基于教科书上的著名方程 (如费曼物理学讲义) 。因为 LLM 是在互联网数据上训练的,它们可能已经见过这些方程成千上万次了。当 AI 解决这些问题时,它是在进行数据驱动的推理,还是仅仅在背诵它在训练数据中读到的内容?

为了回答这个问题,一组研究人员推出了 LLM-SRBench , 这是一个严格的新基准,旨在剥离死记硬背这一“拐杖”。通过迫使 LLM 求解已知定律的变换版本和全新的“合成”科学问题,这篇论文揭示了 AI 在科学发现方面的真实能力——以及当前的局限性。

图1. 简单 LLM 采样 (Llama3.1-8B) 在 100 个 Feynman 问题上与 LLM-SRBench 数据集上的误差分析比较。

图 1 所示,差异是巨大的。当在标准的 Feynman 问题 (红线) 上测试时,错误率急剧下降,表明模型几乎瞬间“知道”了答案。但当在新的 LLM-SRBench 数据集 (蓝线和绿线) 上测试时,模型陷入了明显的挣扎,这表明真正的发现是一座更难攀登的高山。

背景: 从遗传算法到大语言模型

什么是方程发现?

方程发现,正式名称为符号回归 (Symbolic Regression, SR) , 是一项旨在找到最能描述数据集的符号数学表达式的任务。与标准的神经网络 (由权重和偏差组成的“黑盒”) 不同,符号回归旨在输出人类可读的公式 (例如,\(F=ma\)) 。

传统上,这一领域由遗传规划 (Genetic Programming, GP) 主导。这些算法会生成随机的数学树结构,“繁殖”最拟合的那些,并通过数代的变异来找到解决方案。虽然有效,但 GP 计算量大且是“盲目的”——它不懂物理;它只是在处理数字。

LLM 的范式转变

LLM 提供了一种新的范式。因为它们阅读了数百万篇科学论文,它们拥有“嵌入式科学知识”。理论上,LLM 应该知道,如果变量涉及“质量”和“加速度”,结果方程可能涉及力。

图2. 基于 LLM 的科学方程发现概述。

图 2 展示了基于 LLM 的方程发现的现代工作流程。

  1. 输入: 模型接收目标、科学背景 (变量名称) 和少量数值数据。
  2. 发现过程: LLM 充当假设生成器。它利用其科学先验知识提出公式建议 (例如,“也许这是一个谐振子?”) 。
  3. 优化/提炼: 系统检查公式与数据的拟合程度。它可能会使用标准优化器来调整参数 (找到常数如 \(k\) 或 \(g\) 的确切值) 。
  4. 反馈: 结果被反馈到提示 (prompt) 中,要求 LLM 改进其猜测。

然而,尽管这个循环看起来很有希望,我们又回到了死记硬背的问题上。如果“科学背景”触发 LLM 回忆起教科书的特定页面,“发现过程”就变成了“检索过程”。

核心方法: 设计 LLM-SRBench

为了严格评估 AI 是否真正在进行推理,LLM-SRBench 的作者创建了一个包含 239 个问题的数据集,分为两个新颖的类别。这些类别的设计使得通过简单的死记硬背无法解决问题。

图3. LLM-SRBench 中两个数据集类别的数据生成流程。

图 3 概述了生成流程。让我们分解所使用的两个主要策略: LSR-Transform (变换)LSR-Synth (合成)

1. LSR-Transform: 经典的“变体”

第一类 LSR-Transform 对模型耍了一个聪明的小花招。它采用了费曼基准测试中 100 个众所周知的物理方程,但在数学形式上对它们进行了重排。

在标准的教科书问题中,你可能会得到质量 (\(m\))、频率 (\(\omega\)) 和位移 (\(x\)),并被要求求能量 (\(E\))。方程是 \(E = \frac{1}{4}m(\omega^2 + \omega_0^2)x^2\)。LLM 对这个标准形式烂熟于心。

但如果我们反转剧本呢?如果我们提供能量、质量和频率,并要求模型找出位移 (\(x\))?或者质量 (\(m\))?

图7. 示例展示了如何从原始 Feynman 基准问题获得 LLM-SRBench (LSR-Transform) 问题

图 7 展示了这种变换的实际应用。

  • 顶行: 标准谐振子方程被求解为质量 (\(m\))。结果方程在数学上是有效的,但在教科书中很少以这种特定形式出现。
  • 中间行: 电偶极子势能被求解为偶极矩 (\(p_d\)) 或半径 (\(r\))。
  • 底行: 半导体二极管方程被重排以求解温度 (\(T\))。

这迫使 LLM 进行代数推理。它不能简单地自动补全文本。它必须理解变量之间的关系,并根据提供的数据推导出逆形式。

至关重要的是,研究人员确保这些变换后的方程不只是随意地变得更难。他们过滤了数据集,以确保复杂性 (方程树中的节点数) 与原始 Feynman 问题保持相似。

图8. Feynman 基准与 LLM-SRBench (LSR-Transform) 数据集之间表达式复杂性分布的比较。

图 8 所示,原始 Feynman 基准 (红色) 和新的 LSR-Transform (蓝色) 之间的复杂性分布非常相似。这控制了变量: 如果 LLM 失败了,不是因为数学公式“更长”了——而是因为模型无法依赖死记硬背。

2. LSR-Synth: 合成的科学世界

第二类 LSR-Synth 更进一步。研究人员没有修改现有的定律,而是在四个领域生成了全新的、科学上合理的问题: 化学、生物学、物理学和材料科学。

这里的目标是模拟发现科学现象的过程。为此,他们使用了“已知 + 合成”的方法。

  1. 已知项: 他们识别与某个领域相关的标准数学项 (例如,生物学中的逻辑斯谛增长或化学中的阿伦尼乌斯方程) 。
  2. 合成项: 他们引入新颖但合理的交互项 (例如,饱和项或特定的振荡) ,代表假设的新机制。

图9. 跨不同领域的具有已知项和合成项的 LLM-SRBench (LSR-Synth) 问题示例。

图 9 提供了这些“缝合式”方程的例子。看看化学示例 (左上角) : 它结合了标准的二级反应项 (\(-C_0 A(t)^2\)) 和一个涉及浓度平方根的正弦波的新颖合成项。

这些方程在物理上是可解的,在数值上是稳定的,但它们不存在于任何教科书中。为了解决这些问题,AI 不能依赖训练数据。它必须观察数值数据点并意识到: “嘿,这里有一个标准动力学无法解释的周期性振荡”,然后假设出正确的数学结构。

图13. LLM-SRBench (LSR-Synth) 数据集中问题复杂性在各科学领域的分布。

图 10 (文中引用为图 10,对应图片文件名 013) 显示了这些合成问题的复杂性分布。它们涵盖了很广的范围,确保基准测试能够测试从简单关系到复杂多项交互的所有内容。

如何给 AI 科学家评分

评估方程发现众所周知地困难。如果标准答案是 \(y = x + x\),而 AI 预测的是 \(y = 2x\),标准的字符串匹配会将其标记为错误,即使它们在数学上是完全相同的。

研究人员采用了一种多层面的评估策略:

1. 数据保真度 (数值检查)

最基本的检查是发现的方程是否实际上预测了数据。

Acc_tau 和 NMSE 的方程

如上所示,他们使用:

  • \(\text{Acc}_\tau\) (容差准确率): 预测值在实际值的某个小容差 (\(\tau\)) 范围内的测试点百分比。
  • NMSE (归一化均方误差): 衡量曲线与数据点偏离程度的标准指标。

他们在域内 (ID) 数据 (用于训练的数据范围内的点) 和域外 (OOD) 数据 (推断未来时间步或不同条件) 上对此进行评估。OOD 性能是科学的黄金标准;物理定律必须即使在未观察到的情况下也成立。

2. 符号准确率 (逻辑检查)

数值拟合是不够的。高次多项式几乎可以“拟合”任何曲线,但对物理学没有任何解释力 (这称为过拟合) 。我们需要知道 AI 是否找到了正确的符号结构。

为了处理“\(x+x\) vs \(2x\)”的问题,研究人员使用了一种新颖的方法: 基于 LLM 的评估。 他们让 GPT-4o 充当数学法官。

图11. 方程发现中的符号评估,使用 GPT-4o 作为评估者

图 11 展示了这个过程。评估者获得标准答案 (Ground Truth) 和假设 (Hypothesis) 。它分析两者的数学属性。

  • 案例 1 (左) 中,评估者识别出提供的程序代码在数学上等同于标准答案表达式。
  • 案例 2 (右) 中,评估者正确地识别出假设包含无法简化以匹配标准答案的项 (特别是关于平方根内的二次项) 。

这种语义评估比以前的方法更加稳健,提供了更真实的发现度量。

实验与结果

研究人员对几种最先进的方法进行了基准测试,包括:

  • Direct Prompting (直接提示): 只是要求 LLM 找到方程 (数据盲) 。
  • SGA: 一种结合 LLM 和 PyTorch 优化的方法。
  • LaSR: 使用“概念学习”来演化方程。
  • LLM-SR: 使用 LLM 编写代表方程的 Python 程序,并通过进化搜索进行改进。

他们使用 Llama-3.1、GPT-3.5 和 GPT-4o-mini 作为骨干模型测试了这些方法。

主要结论: 真的很难。

表 1 总结的结果令人深省。

表1. LLM-SRBench 上不同基于 LLM 的科学方程发现方法的比较。

表现最好的模型 (使用 GPT-4o-mini 的 LLM-SR) 在 LSR-Transform 数据集上仅达到了 31.5% 的符号准确率。在合成数据集上,许多类别的表现甚至更低。

将其与顶部的“Direct Prompting”行进行比较。当模型在没有反馈循环的情况下盲目猜测时,准确率接近于零 (例如 3.61% 或 0%) 。这证实了 LLM 无法简单地“直觉”出新物理;它们需要严格的、迭代的搜索过程。

记忆与推理之间的差距

关于死记硬背的最确凿证据来自于比较 Feynman 问题与变换后对应问题的表现。

图4. Feynman 和 LSR-Transform 数据集在不同方程复杂性水平上的性能比较

图 4 按方程复杂性划分了性能。

  • 红柱 (Feynman): 高准确率。即使是简单的 LLM 在简单的 Feynman 方程上也能得分 60-80%。
  • 蓝柱 (LSR-Transform): 准确率暴跌至 10-20%。

请记住,这些方程具有相同的复杂性。唯一的区别在于,红柱代表 LLM 在教科书中见过的形式,而蓝柱代表相同定律的代数重排。这种差距量化了“死记硬背的代价”。

泛化: 科学的真正考验

这篇论文的一个主要贡献是关注域外 (OOD) 泛化。

图5. 使用归一化均方误差的域内 (ID) 和域外 (OOD) 性能的详细结果。

图 5 按科学领域细分了错误率 (NMSE)。

  • 实心柱 (域内) 较低,意味着模型很好地拟合了训练数据。
  • 带阴影柱 (域外) 始终较高。

请注意, Direct Prompting (紫色) 的错误率极高,经常超出图表范围。相比之下,像 LLM-SR (蓝色) 和 LaSR (绿色) 这样的迭代方法保持了更好的稳定性,特别是在物理和材料科学领域。这表明,虽然 LLM 很难找到精确的符号定律,但迭代搜索过程能有效地找到泛化能力尚可的模型。

符号准确率预示泛化能力

值得纠结于精确的符号公式吗?是的。

图6. 符号准确率与 OOD 性能之间的相关性。

图 6 显示了明显的相关性。

  • 左 (a): 更高的符号准确率与更高的 OOD 准确率相关 (向右上方为好) 。
  • 右 (b): 更高的符号准确率与更低的 OOD 误差相关 (向右下方为好) 。

这验证了符号回归的前提: 如果你找到了真正的控制定律,你的预测将在任何地方都成立。如果你只是进行曲线拟合,推断时可能会失败。

定性分析: 模型实际上输出了什么?

让我们看一个生物学的例子: 种群增长。

图14. 不同 LLM 科学方程发现方法针对 BPG0 问题的输出假设示例。

图 14 展示了种群增长问题的输出。

  • 标准答案 (Ground Truth): 特定的逻辑斯谛增长模型。
  • Direct Prompting: 猜测了一个通用的多项式结构。很模糊。
  • LaSR: 产生了一个高度复杂、令人费解的表达式,包含正弦波和对数,看起来像“数学大杂烩”。
  • LLM-SR: 成功识别了逻辑斯谛增长结构 (\(P(1-P)\)) 并尝试添加周期性因子,非常接近真相。

这直观地展示了困难所在: LLM 经常“产生幻觉”,编造复杂的数学项来试图拟合数据,而不是找到优雅、简单的底层定律。

在化学 (图 15) 和物理 (图 17) 中也看到了类似的挣扎,模型有时会将正确的物理直觉与错误的数学运算符混合在一起。

图15. 不同 LLM 科学方程发现方法针对 CKR2 问题的输出假设示例。

图17. 不同 LLM 科学方程发现方法针对 PO0 问题的输出假设示例。

结论: 前路漫漫

LLM-SRBench 为“AI 用于科学”领域提供了一次现实检验。它表明,虽然 LLM 是强大的工具,但它们还不是自主的科学家。它们在以前基准测试中的高性能在很大程度上是死记硬背造成的假象。

当面对变换后的方程 (LSR-Transform) 或新颖的合成场景 (LSR-Synth) 时,当前最先进的方法很难突破 30% 的准确率大关。

然而,这篇论文也指明了前进的方向。将 LLM 的语义知识与严格的、数据驱动的进化搜索相结合的方法 (如 LLM-SR 和 LaSR) 显着优于原始 LLM。科学发现的未来可能在于这些神经-符号混合系统——这些系统可以“阅读”文献以生成假设,但使用硬数学优化来根据现实验证和改进它们。

LLM-SRBench 提供了构建下一代 AI 科学家所需的严格测试场。它确保了当 AI 最终声称发现了新的物理定律时,是因为它真正理解了数据,而不是因为它记住了答案。