引言: 从语言到自然法则
近年来,一种新范式重塑了人工智能的格局——基础模型。像 GPT-4 这样的系统已经展示了,一个庞大的模型经过一次性训练后,可以适配到无数任务——写诗、生成代码、回答问题——而无需重新训练。这种“一次训练,随处部署”的理念,彻底改变了自然语言处理领域。
现在,想象一下将这个概念应用于物理世界。
如果一个预训练模型可以模拟任何事物——无论是机翼上方的湍流、超音速喷气机产生的激波,还是流体在多孔岩石中的缓慢渗透——那会怎样?一个物理基础模型 (PFM) 可以让高保真模拟大众化、加速科学发现,并为每一种新问题免去多年开发专用数值求解器的工作。
这个想法长期以来一直是物理感知机器学习 (PAML) 的圣杯。然而当今的模型都是“专才”: 各自为一个极窄的领域精心训练。例如,一个为模拟天气模式而训练的模型,若不进行大规模重新训练,就无法预测超音速激波。物理定律、量级尺度与边界条件的多样性,使得通用模型看起来依然像科幻小说。
论文 《Towards a Physics Foundation Model》 (迈向物理基础模型) 正是朝着将科幻想法变为现实迈出的决定性一步。它提出了通用物理 Transformer (GPhyT) 并在一个庞大的 1.8 TB 数据集上训练,该数据集覆盖了七类截然不同的模拟类型。其关键洞见在于将物理学当作一种语言来处理: GPhyT 并不显式输入控制方程,而是通过一小段过去状态序列推断出这些方程——这便是物理学中的提示 (prompt) 。
作者提出了三个核心问题:
- 单个 Transformer 能否模拟各种不同的物理系统?
- 它能否通过情境学习 (in-context learning) 泛化到全新的物理规律或边界条件?
- 它能否生成面向现实世界应用所需的稳定、长期预测?
正如我们即将看到的,他们的答案标志着一次重大飞跃——通用物理引擎不再只是科幻。
背景: 追求更快的物理模拟
物理模拟依赖求解复杂的偏微分方程 (PDEs) ,是现代科学与工程的基石。然而它们往往速度缓慢、成本高昂,常常需要超级计算机运行数天甚至数周。这促使研究者探索神经代理模型 (neural surrogates) ——即能以更快速度近似这些模拟的人工智能模型。
目前主要有两种范式:
- 物理信息神经网络 (PINNs) : 将 PDE 嵌入损失函数中,以保障物理一致性并降低数据需求。但它们受限于训练时所用的特定方程——一旦换方程,就必须重新训练新的模型。
- 神经算子 (NOs) : 学习从输入条件到解的映射,且与离散化方式无关。这类方法功能强大,但同样针对特定系统。例如傅里叶神经算子 (FNOs) 和 DeepONets。
近期的工作虽然训练了多物理场模型,但几乎总需针对新问题进行微调 (fine-tuning) ——仍旧需要额外数据和训练,距离随处部署的愿景相去甚远。
作者提出了第三条路径,借鉴驱动大型语言模型 (LLMs) 的 Transformer 架构。Transformer 使用自注意力机制 (self-attention) 来捕捉长程依赖,这一特性首先在语言中得到验证,随后在图像领域的 Vision Transformer (ViT) 中得到应用,并推广到将视频视为图像块序列的任务上。如果它们能捕捉到人类语言与视觉运动的“语法”,能否同样学会物理的时空语法?
核心方法: 通用物理 Transformer 内部揭秘
GPhyT 的目标是通用且方程无关——不为某类特定物理提前植入归纳偏置。它将一个学习组件和一个经典的数值框架结合起来。
任务分为两步:
- 学习动力学: 基于 Transformer 的神经微分器学习系统的瞬时变化率——时间导数 \(\frac{\partial X}{\partial t}\)。
- 向前推进: 数值积分器使用该导数计算下一状态。
图 1: (a) 通用架构: 原始物理场与计算出的导数输入微分器,产生时间导数供数值积分器使用。(b) Transformer 层包括层归一化、时空注意力和 MLP。
1. 神经微分器
输入是一小段快照序列 (例如 4 个时间步) ——即提示 (prompt) 。微分器由此推断动力学的演化趋势。
- 分词 (Tokenization) : 将时空输入划分为不重叠的“管状”块 (tubelet patches) ,每个块表示连续时间步中一小区域的空间信息。
- 统一时空注意力 (Unified Spatiotemporal Attention) : 不同于分解式方法,这里注意力机制在空间与时间上联合运作,从而捕捉湍流、激波交互等不可分离的现象。
- 梯度辅助 (Gradient Assistance) : 通过中心差分计算一阶空间导数 (\(dx, dy\)) 与时间导数 (\(dt\)) ,并与输入物理场拼接,增强特征分辨率。
- 解词 (Detokenization) : 将块重新组装,重建整个物理场的 \(\frac{\partial X}{\partial t}\)。
2. 数值积分器
利用学习到的导数前推:
\[ X_{t_{i+1}} = f\left( X_{t_i}, \frac{\partial X}{\partial t}\Big|_{t_i}, \Delta t \right) \]作者发现,简单的前向欧拉法 (Forward Euler) 在精度上可与高阶方法媲美,且计算成本极低。
动力之源: 庞大而多样化的数据集
基础模型依赖海量、多样化的数据。GPhyT 的训练语料库包含:
表 1: 数据集的全量明细,包括每个物理域的轨迹数、时间步和唯一样本数。
涵盖的核心物理现象包括: 不可压缩的剪切流与可压缩激波、热对流、障碍物干扰流以及多相多孔介质流。
两种数据增强方式提升了泛化能力:
- 可变时间步长 (\(\Delta t\)) : 使用不同时间间隔训练,迫使模型学习与采样频率无关的动力学。
- 按数据集归一化 (Per-Dataset Normalization) : 各数据集独立归一化,保留内部尺度,同时要求模型从提示中推断绝对量级与空间尺度。
实验: 测试 GPhyT
Q1: 多物理场能力
GPhyT 的单步预测在各个领域与 FNO 和 UNet 进行基准对比。
图 2: 在相似模型规模下,GPhyT-M 的中位数 MSE 比 UNet 低 5 倍,比 FNO 低 29 倍。
图 3: 对于平滑系统,GPhyT 与 UNet 都能捕捉细节结构;FNO 在定位上失效。在混沌系统中,GPhyT 保留了清晰特征与物理合理性。
Q2: 零样本泛化
两项压力测试:
- 未见过的边界条件: 训练集未包括的开放边界。
- 全新的物理: 超音速弓形激波;湍流辐射层。
表 2: 已知与未见过的边界条件下准确度相差不大;新物理场景下的输出依旧合理。
图 4: 尽管此前无相关经验,模型依然生成了弓形激波与湍流结构——涌现泛化能力的体现。
Q3: 长期预测
模型连续滚动预测超过 50 个时间步,测量已知与全新系统的误差累积。
图 5: 长时间范围内保持稳定性;修改边界的系统误差增长与原条件相当;全新物理下误差虽更高,但增长可控。
结论: 迈向通用物理引擎
通用物理 Transformer 证明了:
- 广度: 单一 Transformer 超越多种专用架构,适用多个物理领域。
- 涌现性: 实现情境学习——无需再训练即可适应全新边界与新物理。
- 稳定性: 无论已知还是全新场景,长时间预测均能保持物理一致性。
GPhyT 证实了基础模型的理念——一次训练,通过情境适配——在物理领域是可行的。意义重大: 成熟的 PFM 将能实现快速工程原型、加速科学假设验证以及互动式教育工具。
当然局限依然存在: 目前范围仅限二维,极长时间尺度精度不及数值求解器,物理领域覆盖主要集中于流体/热学。扩展到三维、更广泛的学科 (力学、化学、光学) 、支持可变分辨率并提升稳定性,是后续关键目标。
尽管如此,GPhyT 已是令人信服的概念验证。它通过从数据中学习物理的“语言”,指向了不仅能分析世界,更能理解其法则的 AI 系统——预示着通用物理引擎的黎明已经到来。