引言: 科学模拟器中的缺失数据问题

从流行病学中对疾病传播进行建模,到天体物理学中模拟引力波,计算机模拟已成为理解复杂现象不可或缺的工具。这些机理模型——通常被称为 *模拟器 *(simulators) ——使科学家能够探索理论模型在各种条件下的行为,检验假设,并估计那些无法通过实验直接获得的参数。

然而,将这些模拟器与真实世界的数据进行拟合是一项重大挑战。似然函数——即在给定模型参数 \( p(\mathbf{x} \mid \theta) \) 下观测到数据的概率——通常难以处理或计算成本高昂。基于模拟的推断 (Simulation-Based Inference, SBI) 方法通过依赖前向模拟而非显式的似然评估来克服这一障碍。通过在不同参数下反复模拟数据,SBI 即使在似然函数不可用时也能学会推断后验 \( p(\theta \mid \mathbf{x}) \)。

但是,问题在于: SBI 假设观测数据完整且干净。实际上,由于传感器故障、仪器限制或采样不完整,数据集常常存在缺失值。用零或平均值简单填充缺失项看似方便,但这可能会扭曲变量间的关系,使所推断的参数产生偏差。

缺失数据对 SBI 的影响。随着缺失数据百分比 (ε) 的增加,使用简单插补方法 (零填充) 估计的后验会变得有偏,并偏离真实的参数值 (黑色十字) 。

图 1. 随着缺失数据百分比 (\( \varepsilon \)) 的增加,简单的零填充插补会导致有偏的后验,使其偏离真实参数 (黑色十字) 。

这正是 Verma 等人 在论文 《通过神经过程在缺失数据下进行稳健的基于模拟的推断》 中所解决的核心挑战。作者提出了 RISE——即 *Robust Inference under imputed SimulatEd data *(插补模拟数据下的稳健推断) ——一种可同时执行参数推断与数据插补的方法。通过在一个统一的摊销框架中耦合这两项任务,RISE 减轻了偏差,即使在大量数据缺失的情况下也能产生可靠的估计。

本文将剖析 SBI 中的缺失数据问题,探讨 RISE 的方法论,并重点介绍其在基准测试与真实任务中的表现。


背景: SBI 与不完整数据的挑战

在深入了解 RISE 之前,需要先理解它所依托的基础方法——尤其是 神经后验估计 (Neural Posterior Estimation, NPE) 以及缺失数据的不同机制。

神经后验估计 (NPE) 简介

在贝叶斯推断中,我们关心的是后验分布 \( p(\theta \mid \mathbf{x}) \): 即给定观测数据 \( \mathbf{x} \) 时参数 \( \theta \) 的概率。由于计算似然函数往往不可行,NPE 使用一个带参数 \( \phi \) 的神经网络 \( q_{\phi}(\theta \mid \mathbf{x}) \) 来近似这一定义。

训练流程简单而高效:

  1. 采样: 从先验 \( p(\theta) \) 中抽取一个参数向量 \( \theta_i \)。
  2. 模拟: 使用模拟器生成数据 \( \mathbf{x}_i \sim p(\cdot \mid \theta_i) \)。
  3. 训练: 优化神经网络,使得在给定 \( \mathbf{x}_i \) 时 posterior 能正确捕获 \( \theta_i \)。

其训练目标是最小化负对数似然损失:

\[ \ell_{\text{NPE}}(\phi) = -\frac{1}{n} \sum_{i=1}^{n} \log q_{\phi}(\theta_i \mid \mathbf{x}_i) \]

训练完成后,NPE 能快速地为新观测生成后验预测。这种“一次训练,多次推断”的特性被称为 摊销 (amortization),是 SBI 的关键优势之一。

三种类型的缺失数据

实际数据极少是完整的。每条样本都可以拆分为观测与缺失部分:

\[ \mathbf{x} = (\mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \]

理解缺失机制至关重要。Rubin 于 1976 年提出了三种经典分类:

  1. 完全随机缺失 (MCAR): 缺失与观测值和真实值均无关 (例如传感器随机失效) 。
  2. 随机缺失 (MAR): 缺失依赖已观测数据,但与缺失值无关 (例如特定人群跳过某些问卷问题) 。
  3. 非随机缺失 (MNAR): 缺失依赖其自身的缺失值 (例如高收入者更可能不报告收入) 。

大多数简单插补方法假设数据是 MCAR,若实际为 MAR 或 MNAR,则易引入偏差并累积推断误差。一个稳健的 SBI 方法必须能处理这三种情况。


核心方法: RISE 的工作原理

作者在 SBI 框架下形式化了缺失数据问题,表明在不完整数据中进行推断本质上涉及对潜在缺失值配置的积分。

两步插补法的不足

理想情况下,观测数据的 SBI 后验表示如下:

\[ p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}) = \int p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \, p_{\text{true}}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \, d\mathbf{x}_{\text{mis}} \]

其中推断项依赖完整数据,而插补项依赖缺失值分布。但真实的分布 \( p_{\text{true}}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \) 通常未知,只能近似为:

\[ \hat{p}_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}) = \int p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \, \hat{p}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \, d\mathbf{x}_{\text{mis}} \]

如果估计的插补分布 \(\hat{p}\) 偏离真实分布,则得到的后验也会有偏差,这说明准确插补与有效推断必须同步进行。

RISE 框架: 联合插补与推断

与传统的“先插补后推断”不同,RISE 将两者统一建模,联合学习插补分布与后验推断,并在训练期间自然校正偏差。

RISE 的目标函数结合两个对数似然项: [ \hat{\phi}, \hat{\varphi} = \arg\min_{\phi, \varphi}

  • \mathbb{E}{(\mathbf{x}{\text{obs}},\theta)} \mathbb{E}{\mathbf{x}{\text{mis}}} \left[ \log \hat{p}{\varphi}(\mathbf{x}{\text{mis}} \mid \mathbf{x}_{\text{obs}})
  • \log q_{\phi}(\theta \mid \mathbf{x}{\text{obs}}, \mathbf{x}{\text{mis}}) \right] ] 该 RISE 损失函数 同时优化:
  • 插补网络 (\( \hat{p}_{\varphi} \)): 学习缺失数据分布;
  • 推断网络 (\( q_{\phi} \)): 基于插补数据逼近后验。

这一统一的摊销模型可减少偏差,能够适应 MCAR、MAR 与 MNAR 三种缺失机制,无需单独重新训练。


构建插补模型: 神经过程

RISE 使用 神经过程 (Neural Processes, NPs) 来参数化插补模型 \( \hat{p}_{\varphi}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \)。

NPs 结合了神经网络的灵活性与概率过程的不确定性建模能力: 它们学习输入位置到输出的函数分布,并对预测不确定性建模,因此非常适合用于缺失值插补。

每个 NP 包含:

  • 编码器 \( \hat{p}_{\beta}(\tilde{z} \mid C) \): 为上下文 (观测数据及其位置) 生成潜在表示 \(\tilde{z}\);
  • 解码器 \( \hat{p}_{\alpha}(x_{\text{mis},i} \mid c_{\text{mis},i}, \tilde{z}) \): 在位置 \(c_{\text{mis},i}\) 上为每个缺失值预测高斯分布。

一个板图,展示了 RISE 中基于神经过程的插补生成模型。观测数据 (X_obs, C_obs) 提供信息生成一个潜在表示 (Z̃),然后用它来生成缺失数据 (X_mis)。

图 2. 基于 NP 的插补模型的板图。观测数据 (\( X_{\text{obs}}, C_{\text{obs}} \)) 生成潜在表示 \( \tilde{Z} \),用于推断缺失值 \( X_{\text{mis}} \)。

NP 的预测分布公式如下:

\[ \hat{p}_{\varphi}(\mathbf{x}_{\text{mis}} \mid \mathbf{c}_{\text{mis}}, C) = \int \hat{p}_{\beta}(\tilde{z} \mid C) \prod_{i=1}^{k} \hat{p}_{\alpha}(x_{\text{mis},i} \mid c_{\text{mis},i}, \tilde{z}) \, d\tilde{z} \]

这一设计使插补结果具备不确定性量化能力,进而提升下游推断的稳健性。

元学习缺失性: RISE-Meta

除了提高准确性,RISE 还注重适应性。其元学习版本 RISE-Meta 在不同缺失比例 (\( \varepsilon = 10\%, 25\%, 60\% \)) 下训练,从而实现跨任务摊销。RISE-Meta 可泛化到具有未知缺失率的新数据集,而无需重新训练。


实验: 检验 RISE 的性能

RISE 在合成 SBI 基准任务和真实世界场景中均接受了严格测试,以评估其推断与插补性能。

SBI 任务上的基准表现

RISE 与若干基线方法比较,包括 NPE-NN (联合 NPE 与神经网络插补) 、Wang 等 (2024) 以及 Simformer (Gloeckler 等,2024) 。实验涵盖四种标准模型:** Ricker**、Ornstein–Uhlenbeck (OUP)广义线性模型 (GLM)高斯线性均匀模型 (GLU)

RISE 在四个基准数据集上,无论是在 MCAR 还是 MNAR 缺失情况下,以及在不同缺失数据水平 (ε) 下,都持续优于基线方法。它获得了更高的 NLPP 和更低的 C2ST 分数,表明其后验估计更准确。

图 3. RISE 在不同缺失率和缺失机制下均取得比基线更准确的后验估计。

在 NLPP、C2ST 与 MMD 指标上,RISE 均表现优越。随着缺失比例上升,其优势进一步显现——展示了在极端数据缺失场景下的稳健性。

真实案例研究: Hodgkin–Huxley 神经元模型

为了验证其实用性,作者将 RISE 应用于经典神经科学模拟器 Hodgkin–Huxley 模型,用于模拟神经元离子通道的动态过程。

Hodgkin-Huxley 模型的后验估计。即使在有 60% 数据缺失的情况下,RISE 的后验 (紫色) 仍然集中在真实参数值 (黑色十字) 附近。而基线 NPE-NN 的后验 (橙色) 随缺失率上升明显偏离。

图 4. 随着缺失率上升,Hodgkin–Huxley 模型的后验分布。RISE (紫色) 与真实参数保持一致,NPE-NN (橙色) 则随着数据缺失增加而偏离。

即使缺失达 60%,RISE 仍能准确定位后验分布。覆盖分析也显示其具有更好的校准表现。

对未知缺失率的泛化能力

随后,RISE-Meta 在缺失比例未知的数据上测试,其中 \( \varepsilon \sim \mathcal{U}(0,1) \)。即使测试时无法获知具体缺失率,RISE-Meta 仍展现出良好的泛化能力。

泛化结果。当在具有未知缺失水平的数据集上进行测试时,RISE-Meta 实现了比基线更低的最大均值差异 (MMD),显示出其有效的泛化能力。

图 5. 在随机缺失率测试中,RISE-Meta 获得更低的 MMD 分数,体现强泛化能力。

消融实验: 验证设计选择

两项关键的消融实验评估了 RISE 的架构设计:

  • 插补性能: 在生物活性数据集 (肾上腺素能和激酶测定) 上,基于 NP 的插补网络相较 QSAR、协同矩阵分解与深度神经网络基线,取得了更高的 \( R^2 \) 分数。
  • 联合训练 vs. 分步训练: 比较 RISE 的联合训练与分离的插补–推断策略,结果表明联合方法可获得更低的 RMSE,验证了组件间的协同效应。

消融研究证实了 RISE 设计的有效性。基于 NP 的插补模型达到了业界顶尖水平 (左图) ,而联合学习策略优于分开的两步法 (右图) 。

图 6. RISE 的插补性能最佳 (左) ,联合学习优于两步法基线 (右) 。


RISE 的重要性: 启示与展望

缺失数据在科学研究中十分普遍,处理不当会引发偏差。RISE 通过将插补与推断直接整合进 SBI 工作流程,成为使无似然推断在数据缺失情况下依然稳健的重要突破。

核心要点:

  • 稳健性: RISE 在高缺失率下仍能生成无偏后验;
  • 摊销特性: 一次训练即可高效泛化至新样本;
  • 泛化能力: RISE-Meta 能适应未知缺失,无需重新训练;
  • 不确定性感知: 神经过程提供插补不确定性量化,提升模型置信度。

尽管 RISE 仍继承了 NPE 的部分校准挑战,并在高度非线性场景中可能受限,但它从根本上拓展了 SBI 的应用边界,使其能够应对科学数据的不完美现实。

通过弥合不完整观测与复杂模拟模型之间的鸿沟,RISE 让“缺失值”不再意味着“缺失洞见”。