](https://deep-paper.org/en/papers/2025-10/2305.15027/images/cover.png)
深度集成为何有效?新理论将其与贝叶斯方法统一
量化不确定性是构建真正可信赖人工智能系统的最大障碍之一。一个模型要可靠,就必须能够识别它所不知道的东西。无论是自动驾驶汽车遇到异常障碍物,还是医疗 AI 在分析罕见病症时,我们都希望模型可以回答“我不确定”,而不是给出一个自信却错误的预测。 多年来,机器学习社区针对这个问题发展出了几种截然不同的方法。一方面,我们有遵循原则、概率优先的贝叶斯方法。这些方法,包括变分推断 (VI) 和朗之万采样等技术,不将模型参数视作单一的点估计,而是看作完整的概率分布——这可以自然地捕捉不确定性。 另一方面,我们有一种出奇有效且简单的启发式方法:** 深度集成**——用不同的随机初始化多次训练同一个神经网络,并对它们的预测进行平均。 尽管深度集成在实践中取得了显著成功,但在理论上它一直是个谜团。它们是隐性的贝叶斯方法吗?还是完全不同的东西?相关的讨论一直十分激烈。 最近,一篇 NeurIPS 2023 的论文 “A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods” 提出了一个统一理论,将深度集成、变分推断以及全新的算法纳入同一个概念框架之下。其核心洞见在于重构整个问题: 不是在复杂、非凸的损失景观中直接优化模型参数,而是将问题提升到无限维的概率测度空间,在这个空间中,优化问题变得凸且性质良好。 借助 Wasserstein 梯度流 (WGF) 的数学工具,这一视角不仅解释了深度集成为何有效,还催生了具有收敛性理论保证的全新集成算法。 从崎岖小路到平坦大道: 通过概率提升实现凸性 在深度学习中,我们要最小化的损失函数通常是高度非凸的。想象一个广阔的山地景观,布满山峰和山谷。标准的梯度下降就像让一个球从高处滚落——它会停在最近的山谷 (局部最小值) ,而这个位置可能距离整个最深的山谷 (全局最小值) 很远。这种复杂性让理论分析和保证变得困难。 作者提出,通过将优化问题从参数空间 \(\theta \in \mathbb{R}^J\) 提升到参数的概率测度空间 \(\mathcal{P}(\mathbb{R}^J)\),可以“夷平”这片景观。 图 1: 概率提升与凸化的分步骤示意。 具体过程如下: 标准问题: \[ \min_{\theta \in \Theta} \ell(\theta) \] 寻找一组最优参数 \(\theta\)。 概率提升: 将寻找单个 \(\theta\) 的任务,替换为寻找一个关于 \(\theta\) 的分布 \(Q\): \[ \min_{Q \in \mathcal{P}(\mathbb{R}^J)} \int \ell(\theta) \, dQ(\theta) \] 该目标函数在 \(Q\) 上是线性的,因此为凸的。 ...