引言
在大语言模型 (LLM) 时代,我们热衷于各种基准测试。看着那些庞大的排行榜,看到某个模型“在 MMLU 上达到 85% 的准确率”或“在 HellaSwag 上达到 90%”,这些汇总的数字虽然能让我们对模型能力有个大致了解,但往往掩盖了一个关键问题: 模型并不是在所有方面都同样出色。
从业者往往关心具体、细粒度的话题。你可能不关心通用的“法律”,但你可能非常关心“19 世纪知识产权法”。问题在于数据稀缺。虽然对于宽泛的类别我们有成千上万个问题,但在小众的子群 (subgroups) 中,可能只有十几个或二十个例子可用于测试。
当你只有少量测试问题时,如何准确估算模型在某一话题上的表现?
如果你仅仅对结果取平均值 (例如,模型答对了 10 题中的 7 题,所以准确率是 70%) ,你的估算将深受高方差的困扰。一次侥幸的猜对或一个棘手的问题都会让分数剧烈波动。相反,如果你依赖模型的整体表现来推测其在小众领域的表现,就会引入偏差——仅仅因为一个模型擅长通用历史,并不意味着它擅长小众法律史。
在论文 “Precise Model Benchmarking with Only a Few Observations” (仅用少量观测值进行精确模型基准测试) 中,来自亚马逊云科技 (AWS) 和加州大学伯克利分校的研究人员针对这一困境提出了一种稳健的统计学解决方案: 经验贝叶斯 (Empirical Bayes, EB) 估计量。通过智能地结合观测数据与预测模型,这种方法使我们即使在数据稀缺的情况下,也能精确地对模型进行基准测试。
问题: 方差与偏差的权衡
要理解解决方案,我们首先需要将问题形式化。我们要处理一个被划分为不同子群 (话题、领域或任务) 的数据集。假设我们有一个子群 \(g\) (例如“跳高”相关的问题) 。我们想知道模型在该子群上的真实表现 \(\mu_g\)。
然而,我们只有一小组观测值。衡量表现的标准方法是 直接估计量 (Direct Estimator, DT) 。
直接估计量 (DT)
直接估计量是我们大多数人直觉上会使用的: 取该子群中问题的平均准确率。如果有 10 个问题,模型答对了 6 个,那么 DT 就是 0.6。
问题在于 方差 。 当样本量 (\(n_g\)) 很小时,DT 是不稳定的。

请看上方的 图 1 。 实心红圆点代表直接估计量。注意像“跑马拉松 (Running a marathon) ”这类类别的误差线 (垂直线) 非常宽。因为样本量很小,置信区间非常大。我们无法确定模型是真有实力还是仅仅运气好。
合成回归 (SR)
另一种选择是 合成回归 (Synthetic Regression, SR) 。 这种方法假设相关话题上的表现是相关联的。我们可以训练一个回归模型 (如 XGBoost) ,查看子群的特征 (例如问题的文本嵌入) ,并预测模型的准确率。
这降低了方差,因为回归模型是从 整个 数据集中学习,而不仅仅是那个小子群。然而,这引入了 偏差 。 如图 1 所示 (虚线红叉) ,SR 估计值可能很稳定,但如果回归模型未能完美捕捉到特定任务 (如“跳高”) 的细微差别,估计值将始终是错误的 (有偏差的) 。
论文的目标是最小化 均方误差 (MSE) , 该指标同时考虑了偏差和方差:

研究人员需要一种方法,通过在充满噪声的直接估计量和可能存在偏差的合成回归之间找到“最佳平衡点”,来最小化这个误差。
解决方案: 经验贝叶斯 (EB)
研究人员提出了 经验贝叶斯 (EB) 估计量。从概念上讲,经验贝叶斯是一种“收缩”方法。它从充满噪声的直接估计量开始,将其向稳定的合成回归估计值“收缩”。
其中的奥妙在于收缩 多少。它不是简单地对两者取平均;而是根据该特定子群数据的可靠程度,动态计算一个加权因子。
估计量公式
论文的核心是以下 EB 估计量 \(\hat{\mu}_g\) 的公式:

让我们拆解一下。最终的估计值是两个部分的加权和:
- \(\hat{f}(X_g)\): 来自回归模型的预测 (SR) 。
- \(Z_g\): 观测到的平均准确率 (DT) 。
这种平衡由方差 (\(\hat{\sigma}_g^2\)) 和异质性 (\(\hat{A}\)) 决定。
- \(\hat{\sigma}_g^2\) (观测方差) : 这代表直接数据中的噪声。如果样本量很小,这个方差就很大。
- \(\hat{A}\) (模型方差/信号) : 这代表了回归模型 无法 解释的真实潜在表现的变异。
实际运作原理
可以将上述方程中的加权系数视为一种“信任机制”。
情况 1: 小样本量 (高噪声) 。 如果一个子群的问题非常少,\(\hat{\sigma}_g^2\) 会很大。看看附在回归项 \(\hat{f}(X_g)\) 上的分数,分子中巨大的 \(\hat{\sigma}_g^2\) 使得权重接近 1。估计量会忽略充满噪声的观测数据 (\(Z_g\)) ,转而信任回归模型。
情况 2: 大样本量 (低噪声) 。 如果一个子群有数百个问题,\(\hat{\sigma}_g^2\) 会变小。回归项上的权重下降,\(Z_g\) 上的权重增加。估计量信任硬数据,因为它具有统计显著性。
情况 3: 回归拟合差。 如果回归模型不擅长预测这类任务,无法解释的方差 \(\hat{A}\) 会增加。这将权重转移回直接观测值 \(Z_g\),保护估计值免受回归模型偏差的影响。
这种动态调整使得 EB 能够持续优于基线方法。它实际上是在说: “当数据充足时,相信数据;否则,相信在类似数据中发现的规律。”
置信区间
这项工作的一个主要贡献不仅在于点估计 (单个数值) ,还在于不确定性量化。作者利用了适用于该方法的稳健置信区间。

正如前面的 图 1 所示,EB 置信区间 (点划线红三角) 明显比直接估计量的区间更紧密 (更窄) ,同时仍保持准确性。这使得从业者无需收集更多数据,就能对模型表现做出更有力的断言。
实验与结果
为了验证这种方法,作者在多种数据集上测试了估计量,包括 BIG-bench、HellaSwag、MMLU 和 MedMCQA。他们通过对这些大数据集进行二次采样来模拟数据稀缺的情况,然后将估计的准确率与“真值” (使用完整数据集计算得出) 进行比较。
降低均方误差
成功的主要指标是相对于直接估计量的 MSE 比率。比率小于 1.0 意味着该方法优于标准方法。

图 2 清晰地展示了结果。直接估计量 (基准线 1.0) 始终被经验贝叶斯 (红叉) 击败。
- SR (蓝菱形) : 虽然通常优于直接估计,但在某些情况下 (位于线上方很远的点) SR 表现极差,特别是在像 BIG-bench 这样的数据集上,回归模型可能未能捕捉到任务的复杂性。
- EB (红叉) : 经验贝叶斯估计值聚集在底部,始终提供最低的误差。在许多情况下,EB 的 MSE 比标准方法低 20-30%。
处理子群规模
最有趣的发现之一是不同方法在不同子群规模下的表现差异。

图 3 将结果分为较小子群 (\(\leq 15\) 个问题) 和较大子群 (\(> 15\) 个问题) 。
- 左侧 (小子群) : 直接估计量 (DT) 由于高方差而表现挣扎。合成回归 (SR) 表现良好,EB 有效地模仿 SR 以获取这些增益。
- 右侧 (大子群) : 在这里,SR 开始表现得比 DT 差。为什么?因为有了足够的数据,直接估计量非常精确,SR 引入的偏差反而成了累赘。然而,请注意 EB (红叉) 适应了这种情况。它识别出数据充足,并将自身与 DT 对齐,保持低误差。
更好的置信区间
精确度不仅仅关于估计值;还关于知道自己可能有多大的误差。理想情况下,95% 置信区间应该有 95% 的时间包含真值 (覆盖率) ,并且尽可能窄 (宽度) 。

图 4 比较了“平均宽度”与“平均覆盖率”。
- DT (圆圈) : 高覆盖率 (好) ,但高宽度 (坏) 。区间太宽,信息量不足。
- EB (红叉) : EB 区间显著向左偏移,意味着它们更窄 (更紧密) ,但它们仍保持了非常接近标称 95% 的覆盖率水平 (虚线) 。
这个结果对于基准测试至关重要。这意味着你可以在不收集更多数据的情况下,获得更窄的合理性能值范围。
超越文本: 视觉与表格数据
虽然重点通常在大语言模型上,但经验贝叶斯的数学基础是跨领域的。作者将实验扩展到了计算机视觉 (使用 CLIP 模型) 和表格数据。
计算机视觉结果
研究人员评估了视觉分类任务 (如识别 CIFAR-10 或 ImageNet 中的物体) 的零样本准确率。

如 图 5 所示,趋势依然成立。经验贝叶斯估计量 (红叉) 始终低于 1.0 线,表明其产生的误差小于直接估计量。相比之下,合成回归 (蓝菱形) 波动很大——有时有帮助,但当视觉特征与准确率不完全相关时,往往会损害性能。
表格数据结果
最后,他们将该方法应用于表格数据中的公平性任务,例如根据人口统计子群预测收入或就业情况。

图 7 证实了该方法的通用性。无论是最小化均方误差还是交叉熵,EB 都能为子群表现提供最可靠的估计。
结论
随着模型变得越来越强大,任务变得越来越具体,评估机器学习模型正变得越来越困难。我们不能再依赖单一的全局“准确率”分数。我们需要了解在特定的、往往是小众的子群上的表现,而这些领域的数据既昂贵又稀缺。
论文 “Precise Model Benchmarking with Only a Few Observations” 表明,我们并不总是需要 更多 数据来获得 更好 的基准测试——我们需要更好的统计方法。通过从简单的平均值 (直接估计量) 转向 经验贝叶斯 方法,我们可以:
- 借力 于整个数据集,以稳定小子群的估计值。
- 避免偏差 , 当样本量足够大时回归到直接数据。
- 量化不确定性 , 提供更紧密、信息量更大的置信区间。
无论对于学生还是从业者,这都是评估工具箱中一个有价值的工具。实施 EB 估计量可以让你从有限的观测中提取更多信号,确保当你声称模型适用于特定用例时,你有严谨的统计数据作为支持。
](https://deep-paper.org/en/paper/2410.05222/images/cover.png)