引言
想象一下,你训练了一个机器学习模型来执行一项关键任务——也许是识别医学扫描中的肿瘤,或者是控制工厂里的机械臂。在训练期间,模型的表现似乎不错。但是,当安全至关重要时,“似乎表现不错”就足够了吗?
在现实世界中,训练表现与部署可靠性之间的差距可能是危险的。为了弥合这一差距,我们通常会执行校准 (calibration) : 选择合适的超参数 (设置) ,以确保模型符合严格的安全标准,例如“在真实总体上达到 95% 的准确率”。
解决这个问题的标准方法被称为“先学后测” (Learn-then-Test,简称 LTT) 框架。虽然 LTT 在统计上是严谨的,但它非常僵化。它要求你预先决定确切的测试次数,并且通常会浪费资源去测试那些明显失败的模型。
如果我们能更聪明一点呢?如果我们的测试程序可以在运行过程中“学习”,将预算集中在最有希望的模型上,并在找到赢家时提前停止,那会怎样?
在这篇文章中,我们将深入探讨一种名为自适应先学后测 (Adaptive Learn-then-Test,简称 aLTT) 的新方法。这种方法利用“E值 (e-values) ”和“下注得分 (betting scores) ”的数学原理,创建了一个既像旧方法一样安全,但效率却大幅提高的测试框架。我们将探索它的工作原理、背后的数学知识,以及它在强化学习和提示工程 (Prompt Engineering) 等复杂任务中的表现。
问题: 寻找可靠的少数派
在解决问题之前,让我们先从数学角度定义它。我们有一个 AI 应用程序 \(\mathcal{M}_{\lambda}\),其行为取决于超参数 \(\lambda\)。我们希望从候选集 \(\Lambda\) 中选择一个 \(\lambda\),使得模型的风险 (错误率) 低于某个阈值 \(\alpha\)。
模型的“真实”风险 \(R(\lambda)\) 是整个数据总体上的期望损失:

我们的目标是识别出一组可靠的超参数 \(\Lambda^{\text{rel}}\),其中风险安全地低于我们的目标 \(\alpha\):

问题在于我们不知道数据的真实分布,所以我们永远无法完美地计算出 \(R(\lambda)\)。我们必须使用有限的样本来估计它。如果我们不小心,可能会误认为一个模型是安全的,而实际上它是危险的 (这被称为“错误发现”) 。
基线方法: 先学后测 (LTT)
现有的标准方法 LTT 将此视为一个多重假设检验 (MHT) 问题。对于每一个候选超参数,它设定一个“原假设”,即该模型是不安全的 (\(R(\lambda) > \alpha\)) 。然后它收集数据试图推翻这一假设。
LTT 使用 P值 (p-values) 。 P值告诉你: “如果这个模型实际上是不安全的,那么我们看到这么好的数据的可能性有多小?”如果 P值非常低,我们就拒绝原假设并宣布模型是安全的。
为了直观地展示这个过程在实践中是如何运作的,让我们看一个提示工程的例子:

在图 1 的标准 LTT 版本中 (暂时忽略“自适应”部分) ,你会:
- 收集一个固定的数据集。
- 在整个数据集上测试所有候选提示。
- 在最后计算 P值。
- 应用校正 (如 Bonferroni 或 Benjamini-Hochberg) 以确保不会做出太多的错误发现。
这保证了统计上的有效性,通常控制族错误率 (FWER) 或错误发现率 (FDR) 。
- FWER: 甚至让一个不安全模型通过的概率被限制在上限内 (例如 \(\leq 5\%\)) 。
- FDR: 被选中的模型中不安全模型的预期比例被限制在上限内。
虽然安全,但 LTT 是非自适应的 。 如果你有 100 个候选模型,其中 90 个非常糟糕,LTT 依然会浪费时间在数千个数据点上测试这 90 个模型,只为了计算出一个最终的 P值来说明“它确实很糟糕”。
创新点: 自适应先学后测 (aLTT)
研究人员提出了 aLTT 来解决效率瓶颈。核心思想很简单: 不要等到最后。 如果一个模型看起来有希望,就多测试它。如果它看起来很糟糕,就停止测试。如果你已经找到了足够多的好模型,就停止整个实验。
为了在数学上实现这一点,aLTT 摒弃了静态的 P值,转而采用 E值 (e-values) 和 E过程 (e-processes) 。
E值: 通过下注进行测试
E值是衡量反对原假设证据的另一种方式。你可以把它想象成一个下注得分 。
想象一个赌徒正在与“庄家” (自然) 对赌。
- 庄家声称: 这个模型是不安全的 (原假设 \(H_i\)) 。
- 赌徒相信: 这个模型是安全的。
赌徒从 1 美元开始。随着数据的输入,赌徒对结果进行下注。如果模型表现良好 (损失低) ,赌徒的财富就会增长。如果模型表现不佳,财富就会缩水。
如果“庄家”说的是真话 (模型是不安全的) ,赌徒就不能指望长期赚钱。在数学上,在原假设下,E值 \(E_i\) 的期望值至多为 1:

然而,如果模型实际上是可靠的,赌徒的财富可以增长到无穷大。高 E值 (巨额财富) 是原假设为假 (即模型可靠) 的有力证据。
E过程 (The E-Process)
E值的美妙之处在于它们能自然地处理序列数据 。 我们可以将连续下注的结果相乘来追踪随时间变化的财富。这个序列被称为 E过程 。
在任何时间步 \(t\),超参数 \(i\) 的 E过程都会根据新的数据点 \(Z\) 进行更新。更新规则如下所示:

在这里,\(\mu\) 代表下注策略——赌徒投入多少钱。
- 如果模型被测试 (\(\lambda_i \in \mathcal{I}^t\)) 且表现良好 (风险 \(R < \alpha\)) ,则项 \((1 + \mu(\alpha - R))\) 变得大于 1,财富增长。
- 如果模型表现不佳,财富缩水。
这个方程允许 aLTT 在每一个数据点之后更新每个超参数的“得分”。
从下注到 P值
为了将其与标准统计保证 (如 FWER 和 FDR 控制) 结合起来,我们需要将这些下注得分转换回类似于 P值的东西。
由于 E过程的数学特性 (具体来说,它们在原假设下是非负上鞅) ,我们可以将赌徒财富的运行最大值转换为随时有效的 P值 (anytime-valid p-value) :

这个方程非常强大。它表明,在任何时间点 \(t\),我们可以查看目前为止获得的最高财富 (\(max E^\tau\)) 并取其倒数。这给了我们一个有效的 P值,我们可以立即检查它,而无需等待实验结束。
aLTT 算法
有了这些工具,自适应先学后测算法在一个循环中运行:
- 自适应获取 (Adaptive Acquisition) : 查看当前的 E值。哪些模型“富有” (有希望) ?哪些“贫穷”?使用一种算法 (如 \(\epsilon\)-greedy) 来选择下一批要测试的模型。
- 测试: 在新的数据点上运行选定的模型。
- 更新证据: 使用下注方程更新被测试模型的 E过程 (财富) 。
- 检查停止条件: 计算随时 P值。应用选择规则 (如用于 FDR 的 Benjamini-Hochberg) 。如果我们找到了足够多的可靠模型, 提前停止 。
这种方法允许 aLTT 快速丢弃糟糕的模型,并将测试预算集中在确认好的模型上。
实验结果
研究人员在多个领域验证了 aLTT。让我们来看看两个最令人信服的案例: 强化学习和提示工程。
案例研究 1: RL 的在线策略选择
在离线强化学习中,我们在静态数据集上训练智能体。然而,在静态数据上训练的机器人可能会在现实世界中失败。我们需要在线验证这些策略,但现实世界的交互 (如移动物理机器人) 既昂贵又有潜在危险。
研究人员为“Half Cheetah”机器人模拟测试了 20 种不同的控制策略。他们希望找到达到特定奖励阈值的策略。
效率提升:
下图显示了真阳性率 (TPR) ——成功识别出的有效策略的百分比——随时间的变化。

- 黑色虚线 (LTT) : 直到最后 (t=5000) 一直停留在零。直到实验完全结束,它什么结果也不给你。
- 彩色线 (aLTT) : 这些线急剧上升。特别是实心绿线 (使用 \(\epsilon\)-greedy 策略挑选有希望的模型) ,仅用一小部分数据就识别出了几乎所有可靠的策略。
统计有效性:
这种速度是以牺牲安全性为代价的吗?不。研究人员测量了实际的错误率 (FWER 和 FDR) ,以确保它们保持在目标 \(\delta\) (0.1) 以下。

如图 3 所示,错误率的表现符合预期,遵守了用户定义的容忍水平。这证实了“下注”方法提供了数学上有效的安全保证。
案例研究 2: 自动化提示工程
大型语言模型 (LLM) 对提示词非常敏感。“自动化提示工程”涉及生成数百个候选提示,并测试它们以查看哪些能持续产生正确的输出。测试需要调用 LLM API,这需要花费金钱和时间。
研究人员使用 Llama-3 模型生成并测试了各种 NLP 任务的提示。
发现速度:

图 4 反映了 RL 的结果。aLTT 几乎立即识别出了可靠的提示。例如,使用 \(\epsilon=0.25\) (一种非常倾向于测试有希望的提示的策略) ,aLTT 在前 1000 轮内就找到了 50% 的可靠提示。非自适应策略 (虚线) 则慢得多。
选定提示的质量:
这里还有一个迷人的次要好处。由于 aLTT 效率极高,在固定预算下,它比 LTT 找到了更多的可靠提示。这个更大的赢家池允许进行更好的后选择优化。
在这个实验中,目标是找到最短的可靠指令 (更短的提示可以节省 Token 和金钱) 。

在图 5 中,y 轴是找到的最佳提示的长度。越低越好。实心绿线 (aLTT) 始终低于其他线。因为 aLTT 没有浪费时间测试垃圾提示,它有足够的预算来验证各种各样的好提示,最终找到了更短、更高效的提示。
下注策略的影响
最后一个细节: 赌徒如何下注很重要。研究人员比较了不同的下注策略,例如“单位下注 (Unit Bet) ” (下注固定金额) 与“aGRAPA” (一种根据历史优化下注大小的自适应策略) 。

如图 6 所示,像 aGRAPA (蓝色方块) 这样的智能下注策略比像单位下注 (黑色十字) 这样的朴素策略能更快地产生更高的真阳性率。这突显了算法中的“财富”不仅仅是一个隐喻——直接优化财富增长与更快地找到好模型息息相关。
结论
从 AI 开发到部署的过渡充满了风险。我们不能简单地相信在数据集上训练的模型在野外也会表现安全。我们必须测试它。
然而,安全性不应该需要无限的资源。 自适应先学后测 (aLTT) 框架证明了我们可以鱼与熊掌兼得。通过放弃传统 P值测试的僵化结构,拥抱 E过程的动态、序列化特性,我们可以:
- 提前停止: 一旦我们有了足够多的可靠模型就停止测试。
- 自适应: 将我们的测试预算集中在确实有希望的模型上。
- 保证安全: 保持严格的 FWER 或 FDR 控制。
无论是为 LLM 寻找完美的提示,还是确保机器人不会撞毁,aLTT 都为高效且可靠的 AI 校准提供了一条数学上合理的路径。它将校准过程从盲目的数据收集活动转变为一场战略性的博弈游戏——在这里,赔率经过严格计算,以确保庄家 (安全性) 永远是赢家。
](https://deep-paper.org/en/paper/2409.15844/images/cover.png)