引言: 科学模拟器中的缺失数据问题
从流行病学中对疾病传播进行建模,到天体物理学中模拟引力波,计算机模拟已成为理解复杂现象不可或缺的工具。这些机理模型——通常被称为 *模拟器 *(simulators) ——使科学家能够探索理论模型在各种条件下的行为,检验假设,并估计那些无法通过实验直接获得的参数。
然而,将这些模拟器与真实世界的数据进行拟合是一项重大挑战。似然函数——即在给定模型参数 \( p(\mathbf{x} \mid \theta) \) 下观测到数据的概率——通常难以处理或计算成本高昂。基于模拟的推断 (Simulation-Based Inference, SBI) 方法通过依赖前向模拟而非显式的似然评估来克服这一障碍。通过在不同参数下反复模拟数据,SBI 即使在似然函数不可用时也能学会推断后验 \( p(\theta \mid \mathbf{x}) \)。
但是,问题在于: SBI 假设观测数据完整且干净。实际上,由于传感器故障、仪器限制或采样不完整,数据集常常存在缺失值。用零或平均值简单填充缺失项看似方便,但这可能会扭曲变量间的关系,使所推断的参数产生偏差。
图 1. 随着缺失数据百分比 (\( \varepsilon \)) 的增加,简单的零填充插补会导致有偏的后验,使其偏离真实参数 (黑色十字) 。
这正是 Verma 等人 在论文 《通过神经过程在缺失数据下进行稳健的基于模拟的推断》 中所解决的核心挑战。作者提出了 RISE——即 *Robust Inference under imputed SimulatEd data *(插补模拟数据下的稳健推断) ——一种可同时执行参数推断与数据插补的方法。通过在一个统一的摊销框架中耦合这两项任务,RISE 减轻了偏差,即使在大量数据缺失的情况下也能产生可靠的估计。
本文将剖析 SBI 中的缺失数据问题,探讨 RISE 的方法论,并重点介绍其在基准测试与真实任务中的表现。
背景: SBI 与不完整数据的挑战
在深入了解 RISE 之前,需要先理解它所依托的基础方法——尤其是 神经后验估计 (Neural Posterior Estimation, NPE) 以及缺失数据的不同机制。
神经后验估计 (NPE) 简介
在贝叶斯推断中,我们关心的是后验分布 \( p(\theta \mid \mathbf{x}) \): 即给定观测数据 \( \mathbf{x} \) 时参数 \( \theta \) 的概率。由于计算似然函数往往不可行,NPE 使用一个带参数 \( \phi \) 的神经网络 \( q_{\phi}(\theta \mid \mathbf{x}) \) 来近似这一定义。
训练流程简单而高效:
- 采样: 从先验 \( p(\theta) \) 中抽取一个参数向量 \( \theta_i \)。
- 模拟: 使用模拟器生成数据 \( \mathbf{x}_i \sim p(\cdot \mid \theta_i) \)。
- 训练: 优化神经网络,使得在给定 \( \mathbf{x}_i \) 时 posterior 能正确捕获 \( \theta_i \)。
其训练目标是最小化负对数似然损失:
\[ \ell_{\text{NPE}}(\phi) = -\frac{1}{n} \sum_{i=1}^{n} \log q_{\phi}(\theta_i \mid \mathbf{x}_i) \]训练完成后,NPE 能快速地为新观测生成后验预测。这种“一次训练,多次推断”的特性被称为 摊销 (amortization),是 SBI 的关键优势之一。
三种类型的缺失数据
实际数据极少是完整的。每条样本都可以拆分为观测与缺失部分:
\[ \mathbf{x} = (\mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \]理解缺失机制至关重要。Rubin 于 1976 年提出了三种经典分类:
- 完全随机缺失 (MCAR): 缺失与观测值和真实值均无关 (例如传感器随机失效) 。
- 随机缺失 (MAR): 缺失依赖已观测数据,但与缺失值无关 (例如特定人群跳过某些问卷问题) 。
- 非随机缺失 (MNAR): 缺失依赖其自身的缺失值 (例如高收入者更可能不报告收入) 。
大多数简单插补方法假设数据是 MCAR,若实际为 MAR 或 MNAR,则易引入偏差并累积推断误差。一个稳健的 SBI 方法必须能处理这三种情况。
核心方法: RISE 的工作原理
作者在 SBI 框架下形式化了缺失数据问题,表明在不完整数据中进行推断本质上涉及对潜在缺失值配置的积分。
两步插补法的不足
理想情况下,观测数据的 SBI 后验表示如下:
\[ p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}) = \int p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \, p_{\text{true}}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \, d\mathbf{x}_{\text{mis}} \]其中推断项依赖完整数据,而插补项依赖缺失值分布。但真实的分布 \( p_{\text{true}}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \) 通常未知,只能近似为:
\[ \hat{p}_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}) = \int p_{\text{SBI}}(\theta \mid \mathbf{x}_{\text{obs}}, \mathbf{x}_{\text{mis}}) \, \hat{p}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \, d\mathbf{x}_{\text{mis}} \]如果估计的插补分布 \(\hat{p}\) 偏离真实分布,则得到的后验也会有偏差,这说明准确插补与有效推断必须同步进行。
RISE 框架: 联合插补与推断
与传统的“先插补后推断”不同,RISE 将两者统一建模,联合学习插补分布与后验推断,并在训练期间自然校正偏差。
RISE 的目标函数结合两个对数似然项: [ \hat{\phi}, \hat{\varphi} = \arg\min_{\phi, \varphi}
- \mathbb{E}{(\mathbf{x}{\text{obs}},\theta)} \mathbb{E}{\mathbf{x}{\text{mis}}} \left[ \log \hat{p}{\varphi}(\mathbf{x}{\text{mis}} \mid \mathbf{x}_{\text{obs}})
- \log q_{\phi}(\theta \mid \mathbf{x}{\text{obs}}, \mathbf{x}{\text{mis}}) \right] ] 该 RISE 损失函数 同时优化:
- 插补网络 (\( \hat{p}_{\varphi} \)): 学习缺失数据分布;
- 推断网络 (\( q_{\phi} \)): 基于插补数据逼近后验。
这一统一的摊销模型可减少偏差,能够适应 MCAR、MAR 与 MNAR 三种缺失机制,无需单独重新训练。
构建插补模型: 神经过程
RISE 使用 神经过程 (Neural Processes, NPs) 来参数化插补模型 \( \hat{p}_{\varphi}(\mathbf{x}_{\text{mis}} \mid \mathbf{x}_{\text{obs}}) \)。
NPs 结合了神经网络的灵活性与概率过程的不确定性建模能力: 它们学习输入位置到输出的函数分布,并对预测不确定性建模,因此非常适合用于缺失值插补。
每个 NP 包含:
- 编码器 \( \hat{p}_{\beta}(\tilde{z} \mid C) \): 为上下文 (观测数据及其位置) 生成潜在表示 \(\tilde{z}\);
- 解码器 \( \hat{p}_{\alpha}(x_{\text{mis},i} \mid c_{\text{mis},i}, \tilde{z}) \): 在位置 \(c_{\text{mis},i}\) 上为每个缺失值预测高斯分布。
图 2. 基于 NP 的插补模型的板图。观测数据 (\( X_{\text{obs}}, C_{\text{obs}} \)) 生成潜在表示 \( \tilde{Z} \),用于推断缺失值 \( X_{\text{mis}} \)。
NP 的预测分布公式如下:
\[ \hat{p}_{\varphi}(\mathbf{x}_{\text{mis}} \mid \mathbf{c}_{\text{mis}}, C) = \int \hat{p}_{\beta}(\tilde{z} \mid C) \prod_{i=1}^{k} \hat{p}_{\alpha}(x_{\text{mis},i} \mid c_{\text{mis},i}, \tilde{z}) \, d\tilde{z} \]这一设计使插补结果具备不确定性量化能力,进而提升下游推断的稳健性。
元学习缺失性: RISE-Meta
除了提高准确性,RISE 还注重适应性。其元学习版本 RISE-Meta 在不同缺失比例 (\( \varepsilon = 10\%, 25\%, 60\% \)) 下训练,从而实现跨任务摊销。RISE-Meta 可泛化到具有未知缺失率的新数据集,而无需重新训练。
实验: 检验 RISE 的性能
RISE 在合成 SBI 基准任务和真实世界场景中均接受了严格测试,以评估其推断与插补性能。
SBI 任务上的基准表现
RISE 与若干基线方法比较,包括 NPE-NN (联合 NPE 与神经网络插补) 、Wang 等 (2024) 以及 Simformer (Gloeckler 等,2024) 。实验涵盖四种标准模型:** Ricker**、Ornstein–Uhlenbeck (OUP)、广义线性模型 (GLM) 与 高斯线性均匀模型 (GLU)。
图 3. RISE 在不同缺失率和缺失机制下均取得比基线更准确的后验估计。
在 NLPP、C2ST 与 MMD 指标上,RISE 均表现优越。随着缺失比例上升,其优势进一步显现——展示了在极端数据缺失场景下的稳健性。
真实案例研究: Hodgkin–Huxley 神经元模型
为了验证其实用性,作者将 RISE 应用于经典神经科学模拟器 Hodgkin–Huxley 模型,用于模拟神经元离子通道的动态过程。
图 4. 随着缺失率上升,Hodgkin–Huxley 模型的后验分布。RISE (紫色) 与真实参数保持一致,NPE-NN (橙色) 则随着数据缺失增加而偏离。
即使缺失达 60%,RISE 仍能准确定位后验分布。覆盖分析也显示其具有更好的校准表现。
对未知缺失率的泛化能力
随后,RISE-Meta 在缺失比例未知的数据上测试,其中 \( \varepsilon \sim \mathcal{U}(0,1) \)。即使测试时无法获知具体缺失率,RISE-Meta 仍展现出良好的泛化能力。
图 5. 在随机缺失率测试中,RISE-Meta 获得更低的 MMD 分数,体现强泛化能力。
消融实验: 验证设计选择
两项关键的消融实验评估了 RISE 的架构设计:
- 插补性能: 在生物活性数据集 (肾上腺素能和激酶测定) 上,基于 NP 的插补网络相较 QSAR、协同矩阵分解与深度神经网络基线,取得了更高的 \( R^2 \) 分数。
- 联合训练 vs. 分步训练: 比较 RISE 的联合训练与分离的插补–推断策略,结果表明联合方法可获得更低的 RMSE,验证了组件间的协同效应。
图 6. RISE 的插补性能最佳 (左) ,联合学习优于两步法基线 (右) 。
RISE 的重要性: 启示与展望
缺失数据在科学研究中十分普遍,处理不当会引发偏差。RISE 通过将插补与推断直接整合进 SBI 工作流程,成为使无似然推断在数据缺失情况下依然稳健的重要突破。
核心要点:
- 稳健性: RISE 在高缺失率下仍能生成无偏后验;
- 摊销特性: 一次训练即可高效泛化至新样本;
- 泛化能力: RISE-Meta 能适应未知缺失,无需重新训练;
- 不确定性感知: 神经过程提供插补不确定性量化,提升模型置信度。
尽管 RISE 仍继承了 NPE 的部分校准挑战,并在高度非线性场景中可能受限,但它从根本上拓展了 SBI 的应用边界,使其能够应对科学数据的不完美现实。
通过弥合不完整观测与复杂模拟模型之间的鸿沟,RISE 让“缺失值”不再意味着“缺失洞见”。