AI 中的物理学: 为何仅凭测试精度不足以进行材料模拟
在计算化学和材料科学领域,我们正见证着一场革命。几十年来,密度泛函理论 (Density Functional Theory, DFT) 一直是模拟原子相互作用的黄金标准。它为发现新药物、设计更好的电池以及理解半导体的热学性质提供了量子力学基础。但 DFT 有一个主要瓶颈: 它的速度极其缓慢。其计算成本随着系统中电子数量的增加呈立方级增长 (\(O(n^3)\)) ,这意味着模拟大型系统或长时间尺度通常是不可能的。
机器学习原子间势 (Machine Learning Interatomic Potentials, MLIPs) 应运而生。这些神经网络承诺以 DFT 一小部分的计算成本来逼近其精度。近年来,我们看到 MLIPs 在测试数据集上实现了极小的误差。如果你只看排行榜,这个问题似乎已经解决了。
然而,来自 Meta FAIR 团队的一篇新论文 “Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction” (学习用于物理性质预测的平滑且表达力强的原子间势) 强调了一个关键的脱节问题。研究人员表明,在静态测试集上误差最低的模型,在投入运动模拟时并不一定遵守物理定律。具体来说,许多最先进的模型在分子动力学 (MD) 模拟过程中无法守恒能量。
在这篇深度文章中,我们将探讨为什么高精度并不总是等同于好的物理学,研究人员如何诊断这个问题,以及他们提出的架构解决方案: eSEN (等变平滑能量网络,equivariant Smooth Energy Network) 。
1. 脱节: 测试集与物理现实
要理解核心问题,我们首先需要了解这些 AI 模型通常是如何进行基准测试的。通常,数据集被分为训练集和测试集。模型预测测试集中原子的能量和力,然后我们计算平均绝对误差 (MAE) 。如果 MAE 很低,我们就假设模型理解了系统的物理规律。
但是,预测静态原子快照上的力与运行模拟有着天壤之别。在分子动力学 (MD) 模拟中,我们利用预测的力在数千或数百万个时间步长内移动原子。如果模型产生微小的系统性误差——或者如果它预测的能量景观不够“平滑”——模拟可能会失控。
漂移问题
研究人员为 MLIPs 提出了一个试金石: 能量守恒 。
在微正则系综 (NVE) 模拟中,一个孤立的系统必须守恒总能量 (动能 + 势能) 。如果驱动模拟的机器学习模型导致总能量开始显著漂移,那么该模拟在物理上就是无效的。

如上图 图 1(a) 所示,这正是许多领先模型所发生的情况。该图绘制了能量随时间的漂移。
- 蓝线代表 eSEN (本文提出的模型) 。注意它是多么平坦;能量漂移微乎其微。
- 其他线条 (CHGNet, EqV2, Orb) 显示出巨大的能量漂移。仅仅 40 皮秒后,使用这些模型的模拟就变得不符合物理规律了。
为什么会发生这种情况?作者指出了两个主要罪魁祸首: 非保守力预测和学习到的势能面 (PES) 缺乏平滑性 。
2. 预备知识: 势能的物理学
在分析解决方案之前,让我们先建立一个好模型必须满足的物理约束。
保守力
在物理学中,如果沿闭合回路移动粒子所做的功为零,则该力是“保守的”。这本质上意味着你不能仅仅通过让原子绕一圈回到起点就凭空创造自由能。
在数学上,这表示为:

为了使该条件成立,力矢量场 \(\boldsymbol{F}\) 必须是标量势能场 \(E\) 的负梯度:
\[ \boldsymbol{F} = -\nabla_{\boldsymbol{r}} E \]如果一个 AI 模型分别预测能量 \(E\) 和力 \(\boldsymbol{F}\) (许多模型为了节省计算时间而这样做) ,那么在数学上无法保证 \(\boldsymbol{F}\) 是 \(E\) 的导数。这些被称为 直接力模型 (Direct-Force Models) 。 它们在计算上很高效,但在物理上是“破碎”的,因为它们违反了能量守恒。
有界导数和平滑性
即使模型将力计算为能量的梯度,如果能量景观是“锯齿状”的,它在模拟中仍然可能失败。
MD 模拟通常使用 Verlet 算法来积分运动方程。该算法依赖于能量函数是平滑的假设——具体来说,假设其高阶导数存在且有界。
论文强调了 Verlet 积分器的误差界限:

这个方程看起来可能很吓人,但其含义很简单: 能量守恒取决于能量函数的平滑度。 术语 \(C_N\) 取决于能量 \(E\) 的高阶导数的界限。
如果你的神经网络使用的函数引入了尖锐的折点或不连续点 (例如,邻居列表的硬截断或离散化网格) ,导数就会爆炸,误差项飙升,你的模拟就会崩溃 (或漂移成无意义的结果) 。
3. 解决方案: eSEN (等变平滑能量网络)
研究人员介绍了 eSEN , 这是一种明确设计为优先考虑“平滑性”和“守恒性”,而非单纯追求计算捷径的模型。
架构概览
eSEN 是一个消息传递神经网络 (MPNN) 。它将原子表示为图中的节点,将原子间的相互作用表示为边。

如 图 2 所示,该架构总体上遵循现代 Transformer 或 Equiformer 的结构,但在物理方面进行了特定修改:
- 严格的能量-力关系: 与直接力模型不同,eSEN 预测单个标量能量值 (\(E\)) 。力是通过反向传播 (计算梯度 \(-\nabla E\)) 获得的。根据定义,这保证了力是保守的。
- 等变表示: 模型使用球谐函数 (定义在球体表面的数学函数) 来表示原子环境。这确保了如果你旋转一个分子,预测的能量不会改变,且力矢量也会相应旋转。
实现平滑性的设计选择
eSEN 的“秘方”不仅仅在于高层架构;还在于为确保势能面 (PES) 连续可微而做出的具体设计选择。作者进行了严格的消融实验来证明哪些组件至关重要。
1. 避免离散化
许多等变网络 (如 eSCN 或 EquiformerV2) 将球谐函数投影到网格上以高效执行非线性操作。
- 问题: 在连续球谐函数和离散网格之间来回转换会引入“混叠”或采样误差。这些误差就像能量表面上的微小锯齿边缘。
- eSEN 解决方案: eSEN 在其节点操作中完全避免了网格投影。它使用一种专门的“门控非线性 (Gated non-linearity) ”,直接在球谐函数空间中运行。
2. 平滑截断 (包络函数)
在图神经网络中,一个原子与一定半径内 (例如 6 埃) 的邻居相互作用。
- 问题: 如果一个原子从 5.99Å 移动到 6.01Å,它会突然从邻居列表中“消失”。这会导致能量函数出现不连续 (跳跃) 。
- eSEN 解决方案: 他们使用了多项式 包络函数 (Envelope Function) 。 当原子接近截断距离时,其相互作用强度会平滑地衰减至完全为零。
3. 无邻居限制
为了加快训练速度,许多模型将邻居数量限制为一个固定值 (例如,“最近的 20 个原子”) 。
- 问题: 如果第 21 个原子移动得比第 20 个原子稍微近一点,邻居列表就会突然交换。这会产生不连续性。
- eSEN 解决方案: eSEN 包含截断半径内的 所有 邻居,无论有多少个。
验证设计选择
研究人员不仅仅是猜测这些选择;他们通过运行模拟并测量能量漂移进行了测试。

图 4 是一个令人震惊的证据。请看 y 轴上的对数刻度 (能量漂移) :
- 图 (a1): 橙色线 (直接力) 显著漂移。蓝色线 (保守) 是稳定的。
- 图 (c1): 橙色线 (“邻居限制”) 显示出巨大的漂移。蓝色线 (eSEN 默认) 是稳定的。
- 图 (c1): 绿色线 (“无包络”) 也未能守恒能量。
这证实了即使你拥有保守的架构,像邻居限制或缺乏包络函数这样的小实现细节也会破坏模型的物理有效性。
4. 一个巧妙的训练技巧: 使用直接力进行预训练
保守模型有一个缺点: 训练速度较慢。因为在 训练期间 计算力需要一次完整的反向传播,所以它比直接力预测消耗更多的内存和时间。
作者提出了一种“两全其美”的策略:
- 预训练模型使用 直接力预测 (Direct-Force prediction) 。 这很快,并且能让模型达到“大概正确”的状态。
- 微调模型使用 保守 (基于梯度) 方法。

图 3 显示了随时间变化的验证损失。 绿线代表这种混合策略 (“微调”) 。注意它是如何迅速下降 (归功于快速预训练) ,然后稳定在与完全保守模型 (橙线) 相同的低误差水平,但墙上时间 (wall-clock time) 减少了大约 40%。
5. 实验结果: 全面达到 SOTA
eSEN 不仅仅在理论上纯粹;它在困难的基准测试中也表现出色。
材料稳定性 (Matbench Discovery)
Matbench Discovery 是一个模拟发现新无机晶体的基准测试。目标是预测哪些晶体结构是稳定的 (存在于自然界中) ,哪些会分解。
这项任务需要 几何优化 (弛豫) 。你从一个晶体结构开始,让模型移动原子以找到最低能量状态。如果能量表面粗糙 (锯齿状) ,优化就会陷入局部极小值,导致错误的稳定性预测。
eSEN 取得了 0.831 的 F1 分数 , 在所有合规模型中最高。
声子和热导率
也许最令人印象深刻的结果来自 声子计算 。
声子是代表晶体中原子集体振动的准粒子。准确的声子预测是势能平滑性的“终极 BOSS”,因为它需要能量的准确 二阶导数 (海森矩阵) 。如果能量表面有哪怕是很小的折点,二阶导数 (曲率) 就会完全错误。
视觉证据
让我们比较 eSEN 和直接力模型 (eqV2) 在预测声子能带结构方面的表现。
以下是 eSEN 的结果 (图 5) :

注意那些干净的线条。彩色线条 (不同设置下的模型预测) 几乎与绿色虚线 (DFT 基本真值) 完美重合。能带在 Gamma 点 (图的左侧) 归零,这在物理上是声学支模态所要求的。
现在,将其与直接力模型进行比较 (图 C.11) :

这种差异是天壤之别。
- 虚频: 在第一张图 (Si) 中,注意线条下潜到零以下进入负数区域 (代表虚频) 。这意味着晶体是不稳定的,这对硅来说是错误的。
- 缺失声学支模态: 能带没有正确收敛到 Gamma 点 (\(\Gamma\) 符号) 的零值。
- 噪声: 线条弯弯曲曲,且显著偏离绿色虚线 (DFT)。
这直观地表明,虽然直接力模型可能在 能量 上大致正确,但它们未能捕捉到能量景观的 曲率,这使得它们在热导率等高级性质预测中毫无用处。
效率
人们可能会担心强制执行这些约束会使模型变得太慢。然而,作者将 eSEN 与 MACE (一种流行的轻量级模型) 进行了基准测试。

如 图 B.10 所示,轻量级版本的 eSEN (3.2M 参数) 在实现更低误差的同时,推理速度与 MACE-OFF-L 相当。
6. 结论: “测试集”陷阱
这篇论文最重要的贡献可能是视角的转变。很长一段时间以来,该领域一直在追求静态测试集上更低的 MAE。
作者提供了令人信服的证据,表明 MD 中的能量守恒 是比单纯的测试误差更能反映下游性能的代理指标。

图 6 深刻地说明了这一点。标记为 方框 的模型是保守的 (eSEN 变体) 。标记为 叉号 的模型则不是。
- 保守模型显示出紧密的相关性: 较低的测试误差导致更好的性质预测 (\(\kappa_{SRME}\))。
- 非保守模型则非常分散。你可能拥有极低的能量误差,但物理预测得分却很糟糕。
关键要点总结
- 守恒至关重要: 模型必须守恒能量才能用于 MD 模拟。
- 平滑性是关键: 如果能量表面是锯齿状的,静态结构上的高精度对于振动性质 (声子) 来说毫无用处。
- 架构 > 数据: 你不能仅仅通过在更多数据上训练模型来修复非保守行为;它需要架构上的选择 (例如,包络函数、避免网格、基于梯度的力) 。
- eSEN: 所提出的模型通过严格遵守这些物理原则,实现了 SOTA 结果。
这篇论文给 AI4Science 社区敲响了警钟: 我们要做的不仅仅是拟合曲线;我们是在模拟物理现实。我们的损失函数和基准测试需要反映这一点。
](https://deep-paper.org/en/paper/2502.12147/images/cover.png)