引言

在机器学习领域,我们经常需要优化“黑盒”函数——这些函数计算成本高昂,没有已知的梯度,本质上就像一个神秘的盒子: 输入 \(x\),得到一个带有噪声的输出 \(y\)。这就是 贝叶斯优化 (Bayesian Optimization, BO) 的领域。

如果你研究过 BO,你会知道社区中对于 采集函数 (Acquisition Functions, AFs) 存在一些分歧——即决定下一步去 哪里 采样的数学规则。

一方面,我们有 期望提升 (Expected Improvement, EI) 。 它是 BO 的主力军。它简单、计算成本低且激进。它提出的问题是: “与我目前找到的最佳点相比,这个点可能会好多少?”

另一方面,我们有 信息论 (Information-Theoretic) 函数,例如 熵搜索 (Entropy Search, ES)最大值熵搜索 (Max-value Entropy Search, MES) 。 这些是复杂的战略家。它们提出的问题是: “这个点能为我提供多少关于全局最优解的信息?”

多年来,这两大家族被视为根本不同的哲学: 一种侧重于价值提升,另一种侧重于信息增益。

但如果它们实际上是同一回事呢?

在论文 A Unified Framework for Entropy Search and Expected Improvement in Bayesian Optimization 中,研究人员提出了一个突破性的观点。他们利用 变分推断 (Variational Inference) 证明了期望提升实际上只是最大值熵搜索的一个特殊的近似情况。

通过识别这种联系,他们不仅解决了一个理论难题;他们还架起了一座桥梁。他们引入了一种新的采集函数 VES-Gamma , 它融合了两个世界的优点,在作为高维优化任务中达到了最先进的性能。

在这篇文章中,我们将打破 EI 和熵搜索之间的壁垒,逐步推导这个新框架,并看看 Gamma 分布如何极大地增强你的优化策略。


背景: 两个家族的故事

要理解这种统一,我们需要先定义参与其中的两个角色。

1. 实用主义者: 期望提升 (EI)

期望提升无疑是最流行的采集函数。它依赖于高斯过程 (GP) 代理模型来预测未观测点的目标函数的均值和方差。

逻辑很简单: 给定我们目前观察到的最佳值 (\(y^*_t\)),我们计算新点 \(x\) 超出该值的期望程度。

Equation for Expected Improvement.

这个公式平衡了探索 (高方差区域可能会带来巨大的提升) 和利用 (高均值区域是“安全”的赌注) 。

2. 战略家: 信息论 AFs

虽然 EI 寻求眼前的收益,但信息论方法则着眼于长远。它们的目标是减少关于全局最大值 位置数值 的不确定性 (熵) 。

最初的 熵搜索 (ES) 试图减少最优集 \(x^*\) 的熵。然而,计算这一点的计算量非常大。

Equation for Entropy Search.

后来, 预测熵搜索 (PES) 提高了效率,但在可处理性方面的真正突破来自于 最大值熵搜索 (MES) 。 MES 不再寻找位置 \(x^*\),而是关注最大 \(y^*\)。它寻找能够最大化观测值 \(y_x\) 与全局最大值 \(y^*\) 之间互信息的点 \(x\)。

MES 的公式如下所示:

Equation for Max-value Entropy Search (MES).

问题在于: 上式中的第二项涉及对全局最大值 \(y^*\) 的期望。这一项是“非闭式的”,意味着我们无法直接计算它。我们通常不得不通过采样或启发式方法来近似它,这可能不准确或很慢。

冲突

从历史上看,EI 和 MES 被视为不同的猛兽。EI 是一种几何启发式方法;MES 是关于信息论的。这篇论文的作者挑战了这一观点。他们认为,如果我们通过 变分推断 的视角来看待 MES,我们可以从中直接推导出 EI。


核心方法: 变分熵搜索 (VES)

这项工作的核心贡献是 变分熵搜索 (VES) 框架。要理解它,我们需要快速回顾一下变分推断 (VI)。

在贝叶斯统计中,当后验分布太难计算时 (就像 MES 中的那一项) ,我们会用一个来自特定族 (如高斯分布或指数分布) 的更简单的分布 \(q(z)\) 来近似它。然后,我们通过最大化一个称为 证据下界 (ELBO) 的量,试图使 \(q(z)\) 尽可能接近真实分布 \(p(z|\tilde{x})\)。

General definition of the Evidence Lower Bound (ELBO).

熵搜索下界 (ESLBO)

研究人员将这种 VI 逻辑应用于 MES 采集函数。他们推导出了 MES 的下界,称之为 ESLBO

他们不再费力计算精确的熵减,而是最大化这个下界:

Derivation of the Entropy Search Lower Bound from MES.

通过忽略不依赖于我们选择的 \(x\) 的常数项,我们得到了 ESLBO 的清晰定义:

Definition of the ESLBO.

这里,\(q(y^* | \mathcal{D}_t, y_x)\) 是我们的“变分分布”。这是我们在给定当前数据和一个潜在新样本的情况下,对全局最大值 \(y^*\) 分布样貌的一个猜测。

这是论文的关键时刻。分布 \(q\) 的选择决定了采集函数的行为。

可视化框架

下图完美地概括了 VES 框架。

  1. 左图: 我们有一个高斯过程,包含一些数据点 (叉号) 和一个潜在的新样本 (红星) 。
  2. 右图: 我们试图近似全局最大值 \(y^*\) 的分布 (蓝色曲线) 。
  • 如果我们用 指数分布 (绿色虚线) 来近似它,我们就得到了 EI。
  • 如果我们用 Gamma 分布 (红线) 来近似它,我们就得到了一种更灵活、更强大的方法。

Illustration of the VES framework comparing true distribution, exponential approximation, and gamma approximation.

让我们详细拆解这两个选择。


1. VES-Exp: 理论桥梁 (复现 EI)

作者提出了一个有趣的问题: 如果我们限制变分族 \(Q\) 为指数分布会怎样?

他们将变分密度 \(q\) 定义为从当前观测到的最佳值开始的指数分布:

Exponential variational density definition.

当你把这个特定的 \(q\) 代入前面推导的通用 ESLBO 方程时,数学式子坍缩成了非常熟悉的形式。

ESLBO under exponential assumption equals log lambda minus constant plus Expected Improvement.

仔细看最后一项: 它正是期望提升 (EI)。

前两项依赖于 \(\lambda\),但对于固定的 \(\lambda\),最大化这个下界在数学上等同于最大化 EI。这证明了 定理 3.2 :

期望提升实际上是最大值熵搜索的一种变分近似,其中最优解的后验被假设为指数分布。

这改变了我们看待 EI 的方式。它不仅仅是一种启发式方法;它是一种信息论方法,只是对未知的最大值做出了非常严格的假设 (指数性) 。

2. VES-Gamma: 进化

指数分布很简单,正如我们在可视化图 (图 1) 中看到的那样,它通常是错误的。全局最大值的真实分布 (\(p(y^*)\)) 很少是单调的。它通常从低处开始,升至峰值,然后拖尾——这是指数曲线无法匹配的形状。

为了修正这个问题,作者提出了 VES-Gamma 。 他们用 Gamma 分布 替换了指数分布,Gamma 分布是指数分布的推广,但增加了一个形状参数 \(k\)。

Gamma variational density definition.

这种灵活性允许近似分布拥有一个“隆起” (当 \(k > 1\) 时) ,从而更好地拟合真实后验。当我们把这个 Gamma 分布代入 ESLBO 时,我们得到了 VES-Gamma 采集函数 :

The full VES-Gamma acquisition function equation.

这个方程非常美妙。

  • 最后一项是 EI (由 \(\beta\) 缩放) 。
  • 其他项 (涉及 \(k\) 和对数) 充当基于信息论原则的正则化项或“修正项”。
  • 如果 \(k=1\),这就退化回 EI。

自动调整超参数

VES-Gamma 的一个挑战是确定参数 \(k\) 和 \(\beta\)。论文提出了一种自动确定方法。对于每个候选点 \(x\),他们求解能最大化下界的最优 \(k\) 和 \(\beta\)。

这涉及求解一个包含 Digamma 函数 \(\psi(k)\) 的特定方程:

Equation relating log k and digamma to expectations.

如下所示,函数 \(\log k - \psi(k)\) 是单调的,确保了唯一解的存在。

Plot of log k minus psi(k) showing strictly decreasing behavior.

这种自动调整使得 VES-Gamma 对用户来说是无参数的。它根据函数的景观动态调整“纯 EI”行为和“信息搜索”行为之间的平衡。


实验与结果

这个统一的理论是否转化为更好的优化性能?作者在合成函数、GP 样本和现实世界问题上对比了 VES-Gamma 与标准 EI 和 MES。

验证: VES-Exp 真的就是 EI 吗?

首先,他们必须证明他们的理论。他们使用标准 EI 和他们推导出的“VES-Exp”运行了一次优化。

Comparison traces of VES-Exp and EI showing they are nearly identical.

如上面的轨迹所示,这两种方法的行为几乎完全相同。研究人员使用 Kolmogorov-Smirnov (KS) 检验 证实了这一点,显示出统计学上的显著相似性。微小的偏差归因于 VES 中使用的数值近似 (蒙特卡洛采样) ,而 EI 使用的是闭式方程。

性能: 合成基准

在标准测试函数 (Branin, Levy, Hartmann, Griewank) 上,VES-Gamma (蓝色三角形) 的表现始终名列前茅。

Results on synthetic benchmarks. VES-Gamma performs best on Branin and Hartmann.

它在 Hartmann (6D) 函数上的表现尤为强劲,显著优于 MES。这表明 Gamma 近似比 MES 中使用的标准近似或 EI 隐含的指数假设能更好地捕捉最优解的不确定性。

性能: GP 样本 (高维)

VES-Gamma 的优势在直接从 GP 先验采样的高维空间 (高达 100 维) 中变得显而易见。

Results on 100-dimensional GP samples. VES-Gamma dominates at lower length scales.

在上面的图中,请注意长度尺度 (\(l\)) 较小 (左上角) 时的差异。小长度尺度意味着一个“摆动”剧烈、复杂的函数。在这里,标准 EI 和 MES 难以取得进展,很可能陷入了局部最优。然而, VES-Gamma 继续显著提高目标值。

性能: 现实世界基准

最后,作者在现实世界的工程和 ML 调优问题上进行了测试:

  • Rover: 轨迹优化 (60D).
  • Mopta08: 车辆设计 (124D).
  • Lasso-DNA: 稀疏回归 (180D).
  • SVM: 超参数调优 (388D).

Results on real-world benchmarks. VES-Gamma is superior on SVM and competitive elsewhere.

SVM 基准 (右下角) 上,VES-Gamma 是明显的赢家,找到了比 EI 或 MES 更好的超参数。在其他任务上,它也保持了高度的竞争力,通常与表现最好的基线持平。

复杂的代价

天下没有免费的午餐。由于 VES-Gamma 需要一个内部优化循环来为每个候选点找到最佳的 \(k\) 和 \(\beta\) 参数,因此它的计算成本比闭式的 EI 更高。

Table showing runtime comparison. VES is significantly slower per iteration.

如表 2 所示,VES 每次迭代的时间大约是 EI 的 10 倍。然而,在贝叶斯优化中,目标函数 (例如训练神经网络或运行物理模拟) 通常需要几分钟甚至几小时。在这种情况下,多花 10 秒钟来选择一个更好的采样点,相对于可能大幅减少所需的函数评估次数来说,成本是可以忽略不计的。


结论与启示

这篇论文为贝叶斯优化中两个迥异的子领域提供了一个令人满意的统一。

  1. 理论统一: 通过将期望提升视为熵搜索的变分近似 (特别是使用指数后验) ,作者揭开了基于价值的优化和基于信息的优化之间关系的神秘面纱。
  2. 实践创新: VES-Gamma 采集函数利用了这一见解。通过使用更灵活的 Gamma 分布,它比 EI (太僵化) 和 MES (依赖困难的近似) 更好地适应问题几何结构。

其影响是令人兴奋的。既然框架已经建立,未来的研究可以探索除 Gamma 分布之外更复杂的变分族,从而可能为高维、昂贵的黑盒函数解锁更高效的优化算法。

对于学生和从业者来说,结论很明确: 不要将 EI 和熵搜索视为敌人。 它们是同一个家族的一部分,理解它们之间的联系使我们能够构建更好的工具来解决最困难的优化问题。