量化不确定性是构建真正可信赖人工智能系统的最大障碍之一。一个模型要可靠,就必须能够识别它所不知道的东西。无论是自动驾驶汽车遇到异常障碍物,还是医疗 AI 在分析罕见病症时,我们都希望模型可以回答“我不确定”,而不是给出一个自信却错误的预测。
多年来,机器学习社区针对这个问题发展出了几种截然不同的方法。一方面,我们有遵循原则、概率优先的贝叶斯方法。这些方法,包括变分推断 (VI) 和朗之万采样等技术,不将模型参数视作单一的点估计,而是看作完整的概率分布——这可以自然地捕捉不确定性。
另一方面,我们有一种出奇有效且简单的启发式方法:** 深度集成**——用不同的随机初始化多次训练同一个神经网络,并对它们的预测进行平均。
尽管深度集成在实践中取得了显著成功,但在理论上它一直是个谜团。它们是隐性的贝叶斯方法吗?还是完全不同的东西?相关的讨论一直十分激烈。
最近,一篇 NeurIPS 2023 的论文 “A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods” 提出了一个统一理论,将深度集成、变分推断以及全新的算法纳入同一个概念框架之下。其核心洞见在于重构整个问题: 不是在复杂、非凸的损失景观中直接优化模型参数,而是将问题提升到无限维的概率测度空间,在这个空间中,优化问题变得凸且性质良好。
借助 Wasserstein 梯度流 (WGF) 的数学工具,这一视角不仅解释了深度集成为何有效,还催生了具有收敛性理论保证的全新集成算法。
从崎岖小路到平坦大道: 通过概率提升实现凸性
在深度学习中,我们要最小化的损失函数通常是高度非凸的。想象一个广阔的山地景观,布满山峰和山谷。标准的梯度下降就像让一个球从高处滚落——它会停在最近的山谷 (局部最小值) ,而这个位置可能距离整个最深的山谷 (全局最小值) 很远。这种复杂性让理论分析和保证变得困难。
作者提出,通过将优化问题从参数空间 \(\theta \in \mathbb{R}^J\) 提升到参数的概率测度空间 \(\mathcal{P}(\mathbb{R}^J)\),可以“夷平”这片景观。
图 1: 概率提升与凸化的分步骤示意。
具体过程如下:
标准问题:
\[ \min_{\theta \in \Theta} \ell(\theta) \]
寻找一组最优参数 \(\theta\)。概率提升:
\[ \min_{Q \in \mathcal{P}(\mathbb{R}^J)} \int \ell(\theta) \, dQ(\theta) \]
将寻找单个 \(\theta\) 的任务,替换为寻找一个关于 \(\theta\) 的分布 \(Q\):
该目标函数在 \(Q\) 上是线性的,因此为凸的。严格凸化:
\[ \min_{Q} \left[ \int \ell(\theta) \, dQ(\theta) \;+\; \lambda\,D(Q, P) \right] \]
添加一个严格凸的正则项 \(D(Q, P)\),用来衡量 \(Q\) 与固定参考分布 \(P\) 之间的散度:
由此得到唯一的全局最优解 \(Q^*\)。
图 2: 广义变分推断 (GVI) 的目标结构。
这种由损失项加正则化项组成的形式,就是广义变分推断 (GVI) 目标。通过恰当选择 \(\ell\) 和 \(D\),它可以涵盖多种范式:
- 贝叶斯推断: \(\ell\) 为负对数似然,\(D\) 为 KL 散度,\(P\) 为先验,\(Q^*\) 为后验分布。
- PAC-Bayes 界: \(\ell\) 为预测误差,\(D(Q,P)\) 衡量 \(Q\) 相对于 \(P\) 的复杂度。
这种提升把原本混乱的非凸景观转化为一个更高维、更优雅的严格凸优化问题,并在其中找到唯一的最优解 \(Q^*\),同时综合了最优的局部与全局解。
无限维空间中的梯度下降
现在我们拥有了凸的 \(L(Q)\),但 \(Q\) 是一个概率测度,即无限维对象,那么如何直接优化它?
有限维 GVI (FD-GVI):
将 \(Q\) 限制在某个参数化分布族中,例如参数为 \(\nu = (\mu, \sigma^2)\) 的高斯分布 \(Q_\nu\),然后用标准梯度下降法在 \(\nu\) 上优化 \(L(Q_\nu)\)。这就是经典的变分推断。
缺点:
- 近似误差: 简单族无法刻画复杂、多峰的 \(Q^*\)。
- 凸性丢失: \(L(Q_\nu)\) 对 \(\nu\) 往往是非凸的,重新引入了原本的问题。
无限维 GVI (ID-GVI):
不对 \(Q\) 施加限制,而是在概率测度空间中直接进行梯度下降。
实现方式是梯度流: 梯度下降轨迹的连续时间极限。在这里,空间的几何由 2-Wasserstein 距离 所决定——它衡量概率分布之间的“运输成本”。
在 Wasserstein 空间中的离散时间更新为:
图 3: 迭代式 WGF 更新——由损失项与 Wasserstein 距离惩罚共同组成。
当 \(\eta \to 0\) 时,就得到Wasserstein 梯度流 (WGF) 的偏微分方程 (PDE):
图 4: 描述密度 \(q(t,\theta)\) 沿概率空间最速下降方向演化的 PDE。
从抽象流到具体粒子
在高维下直接数值求解 WGF 的 PDE 不可行。关键突破在于: 对于一大类目标,WGF 等价于模拟相互作用的粒子系统。
考虑自由能泛函:
图 5: 外部势 \(V\)、成对相互作用 \(\kappa\) 和熵项。
该目标的 WGF 对应于 McKean–Vlasov 随机过程,可以通过 \(N_E\) 个相互作用粒子来近似,它们演化遵循以下过程:
图 6: 漂移由 \(\nabla V\) 和粒子间相互作用产生;扩散由布朗运动提供。
每个粒子 \(\theta_n\) 的运动由以下因素驱动:
- 外部漂移: \(-\nabla V(\theta_n)\)
- 相互作用: 由 \(\kappa\) 产生的排斥或吸引
- 噪声: 由 \(\lambda_2\) 缩放的布朗运动扰动
不同的正则项 \(D(Q,P)\) 会映射为不同的 \(V, \lambda_1, \lambda_2\),从而得到不同的集成算法。
一个统一的集成算法家族
情况 1: 无正则化项 → 深度集成 (DE)
\(\lambda_1 = 0, \lambda_2 = 0\) → 独立的确定性梯度下降:
图 7: DE 粒子从不同的 \(Q_0\) 出发,遵循纯梯度下降。
理论表明,DE 收敛到局部最小值的混合分布,权重由初始吸引盆大小决定——而非真正的 \(Q^*\)。
情况 2: KL 正则化项 → 深度朗之万集成 (DLE)
KL 正则化 (\(D = \mathrm{KL}\)) → 无相互作用,但有布朗运动噪声:
图 8: DLE 粒子遵循朗之万动力学——漂移由 \(\ell\) 与 \(\log p\) 决定,并伴随各向同性噪声。
结果: 粒子从 KL 正则化目标的唯一全局最优解 \(Q^*\) 中采样。
情况 3: MMD + KL 正则化项 → 深度排斥性朗之万集成 (DRLE)
MMD 引入粒子间的排斥力;KL 保证密度存在性。此时三种作用力全部存在:
这种机制鼓励探索多个模式,避免粒子聚集。DRLE 是全新的算法,并且可证明收敛到对应的 \(Q^*\)。
理论与现实: 实验验证
理论示例
一维玩具模型:
图 9: DLE 与 DRLE 在理论上的 \(Q^*\) 拟合良好;DE 在两个局部最小处均稳定下来。
二维多峰损失:
图 10: ID-GVI 方法捕捉到全部四个模式;高斯族的 FD-GVI 则错过多峰结构。
真实数据 —— UCI 回归
表 1: 三种方法没有哪一个在所有数据集上都占优——性能因数据集而异。
为什么 DE 依然有竞争力
深度学习的损失景观可能包含数以百万计的不同最小值。当集成规模很小 (\(N_E \ll\) 最小值数量) 时,每个粒子几乎总是落入各自相互分离的局部吸引盆中,并且难以逃脱——即便引入噪声或排斥作用也无济于事。
图 11: 当模式数远大于粒子数时,DE、DLE、DRLE 的表现几乎一样。
这类似于 MCMC 的多峰困境: 采样器一旦陷入某个模式,很难有效探索其他模式。
结论: 不确定性的新语言
通过将优化问题提升至概率测度空间,并应用 Wasserstein 梯度流,这篇论文将贝叶斯推断与深度集成统一成了单一理论框架。
关键要点:
- 统一视角: DE、VI、朗之万方法和 DRLE 都是基于粒子的 WGF 算法实例。
- 对 DE 的严谨解释: DE = 在无正则化提升损失上的无限维梯度下降。
- 生成性理论: 框架启发了新 DRLE 算法,且具备收敛性保证。
- 实践洞察: 在模式高度丰富但粒子稀少的景观中,DE ≈ DLE ≈ DRLE。
WGF 视角为不确定性量化提供了强大且具有生成性的理论工具——既能带来清晰的理论解释,也能激发在深度学习中设计新颖、鲁棒算法的灵感。