在现代科学和工程中,我们已经不再仅仅依靠几个手写方程来对现象进行建模。相反,我们依赖复杂的随机计算机模拟。从预测气候变化到模拟心血管系统,这些模拟器使我们能够描述那些无法通过简单解析解来处理的复杂过程。
然而,对模拟的依赖引入了一个关键问题。我们经常使用这些模拟器来解决逆问题 : 给定一个真实世界的观测值 (数据) ,生成它的物理参数是什么?这就是基于模拟的推理 (Simulation-Based Inference, SBI) 的领域。
当模拟器完美地反映现实时,SBI 的效果极佳。但在现实世界中,“所有模型都是错的,但有些是有用的。”模拟器只是近似值。它们简化了物理过程,忽略了某些变量,或者做出了不正确的假设。这种差异被称为模型错配 (model misspecification) 。 当我们使用存在错配的模拟器从真实世界数据中推断参数时,结果可能是灾难性的错误——不仅估计值有偏差,预测结果也可能危险地过度自信。
在这篇文章中,我们将探讨一种名为鲁棒后验估计 (Robust Posterior Estimation, RoPE) 的新框架。该方法承认模拟器是不完美的,并使用一小部分真实世界的“校准数据”来弥合模拟与现实之间的鸿沟。通过利用最优传输 (Optimal Transport, OT) , RoPE 学习了模拟世界与真实世界之间的关系,使我们即使在模拟器有缺陷的情况下也能信任推理结果。
问题所在: 当模拟撒谎时
要理解 RoPE,我们首先需要定义标准的 SBI 设置以及它在哪里失效。
基于模拟的推理 (SBI)
在标准的 SBI 设置中,我们有一个模拟器 \(S\),它接收物理参数 \(\theta\) (如动脉的硬度或感染率) 和一个随机源 \(\varepsilon\),以生成模拟观测值 \(\mathbf{x}_s\)。
\[ \mathbf{x}_s = S(\theta, \varepsilon) \]我们的目标是估计后验分布 \(p(\theta | \mathbf{x}_o)\)。该分布告诉我们给定特定真实世界观测值 \(\mathbf{x}_o\) 时参数 \(\theta\) 的可能值。由于模拟器很复杂,我们无法直接写出似然函数 \(p(\mathbf{x}|\theta)\)。相反,像神经后验估计 (NPE) 这样的方法通过从模拟器生成数百万个 \((\theta, \mathbf{x}_s)\) 对来训练神经网络以近似该分布。

上面的公式显示了 NPE 的标准目标: 最大化给定模拟数据时真实参数的对数概率。如果成功,我们将得到一个作为后验代理的神经网络。
错配鸿沟
陷阱就在这里。NPE 学习的是 \(p(\theta | \mathbf{x}_s)\)。它变成了通过模拟数据进行解释的专家。然而,如果真实世界数据 \(\mathbf{x}_o\) 的分布由于物理简化或测量噪声而与 \(\mathbf{x}_s\) 略有不同,神经网络可能会失效。
如果从模拟器导出的后验分布与真实世界数据的真实后验分布不匹配,我们就称该模拟器存在错配。

如下方图 4 的左侧面板所示,“现实 (Reality)”路径与“模拟器 (Simulator)”路径之间存在偏差。如果我们盲目地将基于底部路径训练的推理应用于顶部路径的数据,我们的结果将是无效的。

解决方案: 鲁棒后验估计 (RoPE)
研究人员提出 RoPE 来处理这种特定场景。该方法专为以下情况设计:
- 我们有一个模拟器 (即使是有缺陷的) 。
- 我们有一个校准集 : 一小部分真实世界的观测值及其对应的地面真值 (ground-truth) 参数。
RoPE 的核心洞察是将错配视为一个几何问题 。 我们有两团数据: 模拟数据点和真实世界数据点。即使它们在数据空间中没有完美重叠,它们共享相同的底层物理机制 (参数 \(\theta\)) 。RoPE 使用最优传输在两团数据之间架起一座桥梁。
建模假设
RoPE 依赖于一个特定的条件独立性假设,以使数学计算变得可行:

这意味着,如果我们知道与真实观测值 \(\mathbf{x}_o\) 对应的模拟观测值 \(\mathbf{x}_s\),那么真实观测值本身就不会提供关于 \(\theta\) 的额外信息。换句话说,尽管模拟器不完美,但它捕捉了参数和观测值之间所有相关的物理关系。“错配”只是观测值的扭曲,而不是参数与数据之间联系的根本断裂。
在这个假设下,真实世界数据的后验可以写成:

这里,\(p(\theta | \mathbf{x}_s)\) 是我们要从模拟器得到的后验 (使用标准 NPE) ,而 \(\pi^\star(\mathbf{x}_s | \mathbf{x}_o)\) 是错配模型 。 这一项回答了这个问题: 给定一个真实世界的观测值,它与哪些模拟观测值最相关?
第一步: 学习共享表示
在我们将真实数据和模拟数据联系起来之前,我们需要通过相同的视角来观察它们。原始数据 (如图像或时间序列) 可能过于复杂或嘈杂,无法直接比较。
RoPE 首先在模拟数据上训练一个神经统计估计器 (NSE),记为 \(h_\omega\)。这个网络将高维模拟压缩成紧凑的向量 (摘要统计量) 。
然而,由于模拟器存在错配,这个网络可能会寻找那些存在于模拟中但不存在于现实中的特征。为了解决这个问题,RoPE 使用小的校准集对这个网络进行微调 。 它调整权重,使得真实观测值的表示 \(\mathbf{g}_\varphi(\mathbf{x}_o)\) 接近于由相同参数生成的模拟观测值的预期表示。

这一步确保了用于描述真实数据和模拟数据的“语言”是一致的。
第二步: 最优传输 (耦合)
这是 RoPE 方法的核心。我们有一组真实观测值 (来自测试集或校准集) 和一组模拟观测值。我们想要定义它们之间的“耦合”或映射。
RoPE 将其公式化为一个最优传输 (OT) 问题。想象一下,真实数据是一堆土,模拟数据是一组坑。我们想用最少的努力把土填进坑里。“努力”或成本由它们的表示 (在第一步中学习到的) 之间的距离定义。

具体来说,RoPE 求解一个传输矩阵 \(P^\star\)。
- 成本 (\(C\)): 模拟数据和真实数据的神经表示之间的欧几里得距离。
- 约束: 该方法使用半平衡 OT。这确保了每个真实观测值都能匹配到某些东西,但允许该方法忽略那些看起来不像现实的模拟观测值。
- 正则化 (\(\gamma\)): 添加了熵正则化项。这鼓励传输计划变得“模糊”,而不是硬性的一对一映射。这种模糊性至关重要——它通过将概率质量分散在多个相似的模拟上,防止模型过度自信。

第三步: 鲁棒后验
一旦计算出传输矩阵 \(P^\star\),为新的真实世界观测值 \(\mathbf{x}_o^i\) 估计参数 \(\theta\) 就变成了加权平均。
对于特定的真实观测值,我们查看它与哪些模拟观测值耦合 (通过 \(P^\star\)) 。我们取这些模拟的后验分布进行平均,权重由传输概率决定。

这个公式实际上是在说: “这张真实图像的后验是那 50 张看起来最像它的模拟图像的后验的混合。”
实验结果
RoPE 真的有效吗?作者在几个基准测试上测试了该框架,从合成数学问题到真实的物理实验。
基准测试
有两个突出的基准涉及真实的物理系统:
- 光隧道 (Task E): 从图像中推断光源的颜色设置和偏振器角度。模拟器是一个生成六边形斑点的简化渲染引擎,而真实数据看起来像光源的实际照片 (见下图 1) 。
- 风洞 (Task F): 根据压力传感器读数推断风洞中舱口的位置。
性能指标
性能通过以下指标衡量:
- LPP (对数后验概率): 越高越好。衡量模型分配给真实参数值的概率大小。
- ACAUC: 越接近 0 越好。这衡量校准度 。 如果模型说“我有 90% 的把握参数在 0 到 1 之间”,那么它在 90% 的情况下应该是正确的。
主要发现
图 1 总结了六项任务的性能。

- RoPE (黑线): 即使校准集非常小 (10-50 个样本) ,也能始终如一地实现高 LPP 和低 ACAUC (接近零) 。
- 基准:
- SBI (仅模拟): 经常完全失效 (水平线) ,因为它忽略了现实鸿沟。
- J-NPE / MLP: 这些方法试图直接从校准集中学习或混合数据。它们需要更多的真实数据才能赶上 RoPE 的性能。在小样本量下,它们并不可靠。
结果在任务 F (风洞) 中进一步凸显,RoPE 在其他方法举步维艰的地方保持了鲁棒性。

后验可视化
数字虽好,但概率分布实际上长什么样?
图 7 显示了光隧道和风洞任务的“角图 (corner plots)”。这些图可视化了参数的估计可信区间。
- 在光隧道 (左) 中, RoPE (黑色) 的轮廓紧紧包围着真实参数值 (星号) 。
- 其他方法如 OT-only (紫色) 或 MLP (粉色) 经常产生偏移 (偏差) 或太宽 (不自信) 的轮廓。

对先验错配的鲁棒性
贝叶斯推理中的一个常见问题是拥有不正确的先验——假设参数是均匀分布的,而实际上它们集中在特定范围内。
RoPE 包含一种通过“非平衡”传输参数 \(\tau\) 来处理此问题的机制。如果我们设置 \(\tau < 1\),我们允许算法丢弃与真实数据分布不匹配的模拟数据。

如图 3(b) 所示,当先验错误时,标准 RoPE (其中 \(\tau=1\),蓝线) 表现较差。然而, RoPE* (其中 \(\tau < 1\),橙/绿线) 恢复了性能,有效地忽略了先验分布中具有误导性的部分。
这一点在图 5 中得到了视觉证实。当先验错配时 (右侧) ,标准公式可能会产生偏差,但半平衡 OT 公式使后验保持以真值为中心。

分布外泛化
RoPE 最强大的功能之一是它依赖于模拟器中编码的物理学,而不仅仅是拟合校准数据。
在图 6 所示的一个实验中,研究人员在标准图像上训练模型,然后在翻转的图像上进行测试。
- MLP 和 J-NPE: 这些方法从训练数据的像素中学习了“捷径”。当测试图像翻转时,它们的性能崩溃了。
- RoPE: 因为模拟器的物理原理 (颜色混合) 对图像方向是不变的,而且 RoPE 依赖模拟器进行推理结构,所以它的性能保持稳定。

结论
基于模拟的推理是一个强大的工具,但“现实鸿沟”长期以来一直是其在关键领域安全部署的障碍。 RoPE 提供了一种跨越这一桥梁的原则性方法。
通过结合模拟器的结构性知识和少量真实世界校准集的经验基础,RoPE 实现了两全其美。它使用最优传输来对齐模拟域和真实域,在不丢弃模型中编码的有价值物理知识的情况下纠正错配。
主要结论是:
- 不要盲目相信错配的模拟器: 它们会产生过度自信和有偏差的结果。
- 数据驱动的校准是有效的: 少量带标签的真实世界示例可以纠正模拟器中的深层结构错误。
- 几何很重要: 最优传输提供了一种可控、鲁棒的方式将模拟映射到现实,在精确度和校准的不确定性之间取得平衡。
随着我们继续构建更复杂的数字孪生和模拟器,像 RoPE 这样的方法对于确保我们的数字预测在物理世界中站得住脚将至关重要。
](https://deep-paper.org/en/paper/2405.08719/images/cover.png)