超越 A/B 测试——自适应算法如何革新实验设计

想象一下，你正在为一种新药进行临床试验，或者在一个高流量的电子商务网站上测试一项新功能。在传统的“A/B 测试”世界中，你可能会抛硬币决定: 50% 的人接受治疗，50% 的人作为对照。你将此过程运行一个月，收集数据，然后分析结果。

但是，如果在这个月进行到一半时，数据开始暗示治疗组的方差远高于对照组呢？或者，如果特定的人群亚组反应不同呢？固定的 50/50 分配比例很少是估计真相的最有效方式。它浪费了样本和时间。

这就引出了自适应实验设计 (Adaptive Experimental Design) 。我们不再在实验开始前就确定规则，而是根据目前看到的数据，实时更新分配治疗的概率。这里的目标不一定是找到“最佳”分支 (像多臂老虎机问题那样) ，而是以尽可能高的精度 (最低的方差) 来估计平均治疗效应 (Average Treatment Effect, ATE) 。

在最近的一篇论文 Stronger Neyman Regret Guarantees for Adaptive Experimental Design 中，研究人员 Noarov、Fogliato、Bertran 和 Roth 提出了强大的新算法，使这些自适应实验的效率显著提高。他们引入的方法比之前的最先进方法收敛得更快，并且可以处理复杂、重叠的人群亚组。

在这篇文章中，我们将详细剖析他们的贡献，解释“Neyman 遗憾 (Neyman Regret) ”背后的数学原理，并探索“睡眠专家 (Sleeping Experts) ”如何帮助我们进行更好的实验。

目标: 估计 ATE

因果推断实验的核心是平均治疗效应 (ATE) 。在一个理想的世界里，对于每一个人 \(t\)，我们都知道如果他们服用了药物会发生什么 (\(y_t(1)\)) ，以及如果他们没有服用会发生什么 (\(y_t(0)\)) 。ATE 仅仅是这两种潜在结果在整个人群中的平均差异。

平均治疗效应 (ATE) 的公式。

然而，我们面临一个基本问题: 我们无法观察到同一个人在两种情况下的结果。我们只能看到实际分配的治疗所对应的结果 (\(Z_t\)) 。为了无偏地估计 ATE，我们使用逆倾向加权 (Inverse Propensity Weighting, IPW) 估计量。

自适应 IPW 估计量公式。

在这里，\(p_t\) 是个体 \(t\) 被分配接受治疗的概率。通过将观测到的结果除以此概率，我们修正了随着时间推移我们可能会更频繁或更不频繁地分配治疗这一事实。

度量标准: Neyman 遗憾

我们如何衡量我们的自适应策略是否“好”？我们将它与事后看来我们本可以选择的最佳固定策略进行比较。

如果我们事先知道所有的潜在结果，我们可以计算出确切的固定概率 \(p^*\) (例如，60% 的时间分配治疗) ，使估计量的方差最小化。由于我们无法预知未来，我们的自适应算法试图学习结果模式并调整 \(p_t\) 以接近该最佳方差。

因为无法立即知道最佳固定设计而产生的代价被称为Neyman 遗憾 (Neyman Regret) 。它是我们的自适应设计的方差与最佳非自适应设计的方差之间的差值。

Neyman 遗憾的定义。

如果我们的 Neyman 遗憾增长速度慢于样本数量 (\(T\)) ，则我们的设计是“次线性”的，这意味着它在渐近上变得与最佳固定设计一样有效。

贡献 1: 利用 ClipOGD\(^SC\) 突破速度限制

在此项工作之前，针对这种设置的最佳自适应算法是 ClipOGD (截断在线梯度下降) ，它实现了 \(\tilde{O}(\sqrt{T})\) 的遗憾。研究人员问道: 我们能做得更好吗？

答案是肯定的，前提是我们做一个自然的假设: 结果是有界的并且具有一定的方差 (它们不全为零) 。

对潜在结果的假设: 有界的幅度和下界的方差。

强凸性

关键的洞察涉及强凸性 (Strong Convexity) 这一数学性质。决定估计量方差的函数是凸函数。在上述假设下，研究人员证明它实际上是强凸的。

用优化的术语来说，标准的凸函数看起来像一个宽碗，找到底部可能需要一段时间 (\(\sqrt{T}\)) 。而强凸函数看起来像一个陡峭的山谷，重力会让你更快地到达底部。

通过修改原始 ClipOGD 算法的学习率以利用这种几何特性，研究人员开发了 ClipOGD\(^{SC}\) 。这种新方法实现了 \(\tilde{O}(\log T)\) 的遗憾界。这是对之前 \(\sqrt{T}\) 标准的指数级改进。

ClipOGD SC 的 Neyman 遗憾界是关于 T 的对数。

可视化改进

这种理论上的加速在实践中重要吗？绝对重要。

研究人员在不同噪声水平 (\(\sigma\)) 的合成数据上测试了旧方法 (ClipOGD\(^0\)) 和新方法 (ClipOGD\(^{SC}\)) 。

ClipOGD^0 和 ClipOGD^SC 之间的治疗概率和 Neyman 遗憾的比较。

在图 1 的底行，请看 Neyman 遗憾 (y 轴) 。橙色线 (旧方法) 保持高位或下降缓慢。蓝色线 (ClipOGD\(^{SC}\)) 则迅速骤降至零。这意味着算法非常快地找到了最佳治疗比例并坚持下去，从而最小化了估计误差。

贡献 2: 上下文实验与“睡眠专家”

第一个贡献处理的是“普通”实验，其中个体是不可区分的。但在现实中，实验个体具有特征 (协变量) 。在医学试验中，患者有年龄、性别和病史。在网络测试中，用户有位置和设备类型。

我们需要一种算法，不仅能保证整个人群的效率，还能保证由这些特征定义的每个亚组的效率。

重叠组的挑战

假设你希望你的实验对“女性”、“50 岁以上的人”和“糖尿病患者”都有效。同一个患者可能同时属于这三个组。优化“女性”组的方差可能需要 0.4 的治疗概率，而“50 岁以上的人”组则需要 0.7。

研究人员引入了多组 Neyman 遗憾 (Multigroup Neyman Regret) 来解决这个问题。

多组 Neyman 遗憾的定义。

该度量标准要求自适应设计在同时针对每个组的表现都能像最佳固定设计一样好，且仅考虑该组成员出现的时间步。

解决方案: 睡眠专家

为了实现这一目标，作者利用了在线学习中的一个概念，称为睡眠专家 (Sleeping Experts) 。

想象你有一个专家小组。每个专家负责一个组 (例如，“糖尿病专家”) 。

当一名患者到达时，我们检查他们的特征。
如果患者患有糖尿病，糖尿病专家就会“醒来”并建议一个治疗概率。如果患者也超过 50 岁，“50 岁以上专家”也会醒来并提出建议。无关组别的专家保持睡眠状态。
算法汇总所有醒着的专家的建议以做出最终决定。
观察结果后，我们评估每个醒着的专家对方差梯度的预测情况，并更新他们的“可信度”权重。

研究人员提出了一种名为 MGATE (Multi-Group ATE) 的算法。它结合了 ClipOGD\(^{SC}\) 强大的梯度下降更新和“无标度 (scale-free) ”睡眠专家聚合策略。

理论分析证明，MGATE 实现了针对每个组同时达到 \(\tilde{O}(\sqrt{T})\) 的遗憾。

多组自适应设计 (MGATE) 的遗憾界。

MGATE 实战

为了验证上下文相关的方法，作者在真实的微额信贷数据上测试了 MGATE。他们根据数据创建了重叠的组，并将 MGATE 的遗憾与非上下文基线进行了比较。

组条件 Neyman 遗憾比较。

在图 3 中，红线代表 MGATE。请注意，对于每个组 (组 0、1 和 2) ，MGATE 都实现了最低或接近最低的遗憾。非上下文方法 (蓝色和橙色) 可能在一个组上侥幸成功，但在其他组上却失败了，因为它们将整个人群视为铁板一块。MGATE 则适应了每个亚人群的特定方差结构。

现实应用: 大语言模型 (LLM) 基准测试

这项工作的一个迷人应用是大语言模型 (LLM) 的基准测试。评估 LLM 既昂贵又耗时。我们希望用尽可能少的样本来估计它们的准确性 (模型与基准之间的 ATE) 。

研究人员将 ClipOGD 应用于 BigBench 和 MMLU 等数据集。

LLM 基准测试数据上的治疗概率和方差。

在图 4 中，我们看到了 LLM 基准测试的结果。中间一行至关重要: 它显示了方差。蓝色线 (ClipOGD\(^{SC}\)) 始终比基线更快地实现更低的方差。这意味着只需更少的示例就能获得 AI 模型的统计显著得分——从而节省计算资源和时间。

结论

这项研究标志着自适应实验向前迈出了重要一步。通过从数学上证明我们可以利用方差目标的强凸性，作者提供了一种比以前的方法收敛速度呈指数级加快的方法( ClipOGD\(^{SC}\) )。此外，通过整合“睡眠专家”框架，他们创建了 MGATE , 这是一个多功能的工具，可确保实验在复杂、重叠的亚人群中保持高效。

对于数据科学家和研究人员来说，这意味着从静态 A/B 测试转向自适应设计不仅仅是一种理论上的好奇——它是一种用更少的数据获得更精确答案的实用方法。

有关完整的数学证明和算法细节，请参阅 Noarov 等人的原始论文: “Stronger Neyman Regret Guarantees for Adaptive Experimental Design”。

目标: 估计 ATE#

度量标准: Neyman 遗憾#

贡献 1: 利用 ClipOGD\(^SC\) 突破速度限制#

强凸性#

可视化改进#

贡献 2: 上下文实验与“睡眠专家”#

重叠组的挑战#

解决方案: 睡眠专家#

MGATE 实战#

现实应用: 大语言模型 (LLM) 基准测试#

结论#