近期生成式 AI 的进展,特别是大型语言模型 (LLM) ,已确立了“从偏好中学习” (例如基于人类反馈的强化学习,即 RLHF) 作为模型训练中的关键步骤。经验告诉我们,告诉模型“回答 A 优于回答 B”往往比仅仅展示“回答 A”作为好例子能产生更好的结果。
但从统计学角度来看,为什么会这样呢?偏好数据仅仅是增加了更多信息,还是从根本上改变了学习过程的数学本质?
在研究论文 “Learning Parametric Distributions from Samples and Preferences” (从样本和偏好中学习参数分布) 中,研究人员 Marc Jourdan、Gizem Yüce 和 Nicolas Flammarion 深入探讨了这一现象背后的统计机制。他们发现了一个惊人的差距: 虽然基于标准样本的学习以 \(O(1/\sqrt{n})\) 的速率收敛,但利用确定性偏好 (deterministic preferences) 可以实现显著更快的 \(O(1/n)\) 收敛速率。
在这篇文章中,我们将剖析他们的框架,探讨噪声偏好与确定性偏好之间的区别,并理解使基于偏好的学习能够突破统计估计标准速度限制的几何原理。
1. 问题设定: 样本与偏好
要理解这一核心贡献,我们必须剥离神经网络的复杂性,专注于一个基础的统计问题: 参数估计 (Parametric Estimation) 。
假设你有一个由未知参数 \(\theta^*\) 控制的概率分布 \(p_{\theta^*}\) (例如,高斯分布的均值和方差) 。你的目标是估计 \(\theta^*\)。
两类数据
学习者可以获得两种信息来源:
- 样本: 你观察到从分布中抽取的成对数据点 \((X, Y)\)。
- 偏好: 你得到一个标签 \(Z\),根据偏好函数 \(\ell_{\theta}\) 指示哪个样本“更好”。
参数与偏好之间的关系至关重要。研究人员区分了两种类型的反馈机制。
确定性 (硬) 反馈: 在这里,偏好严格由偏好函数的符号决定。如果根据 \(\theta^*\),\(X\) 优于 \(Y\),你会以 100% 的确定性观察到这一点。

随机 (噪声) 反馈: 这是 RLHF 中通常建模的场景 (使用 Bradley-Terry 模型) 。偏好 \(X\) 优于 \(Y\) 的概率通过一个 Sigmoid 函数 \(\sigma\) 传递。这其中存在噪声;你偶尔可能会偏好“更差”的选项。

2. 基线: 仅样本 (SO) 估计
在加入偏好之前,让我们先建立基线。估计参数的标准方法是仅样本最大似然估计器 (Sample-Only Maximum Likelihood Estimator, SO MLE) 。 你只需找到使观察到数据的概率最大化的参数 \(\theta\)。

标准统计理论 (特别是 M-估计器的性质) 告诉我们,这种估计器是渐近正态的。随着样本数量 \(n\) 趋于无穷大,误差分布看起来像是以零为中心的钟形曲线。关键在于,误差的缩放比例为 \(1/\sqrt{n}\)。

这个 \(1/\sqrt{n}\) 速率是基于样本的无偏估计器的“速度限制”。要将误差减半,你需要四倍的数据量。
3. 场景 A: 随机偏好 (温和的改进)
当我们在样本之外加入偏好数据 \(Z\) 时会发生什么?如果偏好是嘈杂的 (随机的) ,我们使用随机偏好 MLE (SP MLE) 。 该方法最小化样本的标准负对数似然,加上基于偏好的分类损失项。

研究人员发现,虽然这有所帮助,但并没有改变游戏规则。估计器仍然是渐近正态的,收敛速率保持在 \(O(1/\sqrt{n})\)。

然而,它在统计上更优。渐近方差 (误差的离散程度) 减小了。如下所示,基于偏好的估计器的方差 (\(V_{SP}\)) 在 (矩阵意义上) “小于”仅样本的方差 (\(V_{SO}\)) 。

关键结论: 使用噪声偏好,你可以获得更精确的估计,但你仍然被困在 \(1/\sqrt{n}\) 收敛的“慢车道”上。
4. 场景 B: 确定性偏好 (突破)
这篇论文最引人注目的贡献是对确定性偏好的分析。当偏好没有噪声时,它们不再像软性的概率建议,而是开始像硬约束 (hard constraints) 一样起作用。
如果你确切地知道样本 \(X_i\) 优于 \(Y_i\),那么真实参数 \(\theta^*\) 必须位于满足此条件的空间区域内。
可行集
我们可以定义一个集合 \(\mathcal{C}_n\),其中包含所有能正确分类数据集中每一个观察到的偏好对的参数 \(\theta\)。这意味着最小化 0-1 损失 (完美分类) 。

任何在此集合之外的参数都是绝对不可能的。研究人员提出了确定性偏好 MLE (DP MLE) , 它在这些硬约束下优化似然。

为什么这样更快?
试想一下通过样本 \([0, \theta]\) 来估计均匀分布的最大值 \(\theta\)。样本的平均值以 \(1/\sqrt{n}\) 的速率收敛。但是,观察到的样本的最大值以 \(1/n\) 的速率收敛于 \(\theta\)。硬边界提供的信息远多于平均值。
因为确定性偏好通过硬切割对参数空间进行了切分,可行参数集 \(\mathcal{C}_n\) 迅速缩小。研究人员证明,任何位于此可行集内的估计器 (包括 DP MLE) 都以 \(O(1/n)\) 的加速速率收敛。

这是一个根本性的转变。在高维设置中 (\(d > 1\)) ,该速率包含对数因子和维度依赖性,但对样本量 \(n\) 的依赖性保持为 \(1/n\)。

5. 加速的几何原理
为了证明这个 \(1/n\) 速率,论文分析了约束的几何结构。
每当我们获得一个偏好对 \((X, Y)\),它就在参数空间中产生一个“切割”。真实参数 \(\theta^*\) 位于切割的一侧。从该切割边界到 \(\theta^*\) 的距离告诉我们该样本的信息量有多大。
研究人员定义了一个“信息样本”集 \(\mathcal{G}_1\) 和一个缩放因子 \(V_{\theta^*, u}\),用于量化特定观测在方向 \(u\) 上限制参数空间的程度。

估计器的误差受限于可行集中“最坏”的方向。这实际上表现为一组随机变量的最小值。由于随机变量 (在零点处具有正密度) 的最小值缩放比例为 \(1/n\),因此估计器的误差也是如此。

6. O(1/n) 是极限吗?
有可能更快吗?论文利用信息论技术 (Assouad 引理和 Hellinger 距离) 提供了一个下界 。

这证明了 \(O(1/n)\) 的速率确实是极小化极大最优 (minimax optimal) 的 (在常数和对数因子范围内) 。使用这种类型的反馈,通常无法以快于 \(1/n\) 的速度估计参数。
7. 实验验证
理论很有说服力,但实验结果是否相符?研究人员在具有对数概率奖励的高斯分布上测试了这些估计器。
结果 (如图 1所示) 在视觉上非常明显。
- 蓝线 (SO): 仅样本 MLE。
- 浅蓝线 (SP sto): 随机偏好。
- 粉/洋红线 (DP): 确定性偏好。

在上面的双对数坐标图中:
- 斜率很关键: 线条的斜率对应于收敛速率中的指数。
- SO (仅样本) 和SP (随机) 线的斜率约为 -0.5,对应于 \(n^{-0.5}\) 或 \(1/\sqrt{n}\)。
- DP (确定性) 线要陡峭得多,斜率接近 -1.0,对应于 \(n^{-1}\) 或 \(1/n\)。
这一经验证据与理论推导完美吻合: 确定性约束从根本上加速了学习。
协方差差距
我们在前面提到,随机偏好 (SP) 相比样本 (SO) 提供了温和的改进。实验量化了这一差距。下图显示了渐近协方差矩阵的差异。虽然 SP 优于 SO (值为正) ,但差距相对较小,并且随着维度 \(d\) 的增加而消失。

这进一步证实了偏好学习中的“巨大胜利”来自约束 (确定性机制) ,而不仅仅是随机机制中的方差减少。
8. 结论与启示
这篇论文为为什么基于偏好的学习如此有效提供了严谨的统计基础。
- 偏好 vs. 样本: 如果偏好存在噪声,它们就像标准数据一样,可以提高准确性 (方差) ,但不能提高速度 (收敛速率) 。
- 约束的力量: 如果偏好是确定性的 (或通过严格损失视为确定性) ,它们就像几何约束一样起作用。这将学习机制从平均 (慢,\(1/\sqrt{n}\)) 转变为切割 (快,\(1/n\)) 。
虽然现实世界的偏好 (如人类对 LLM 输出的反馈) 很少是完全确定性的,但该理论表明,将偏好视为硬约束或利用高置信度反馈信号的方法,可能会比单纯将偏好视为噪声概率信号的方法解锁更快的学习速率。
通过超越“M-估计器”并利用可行集的几何结构,我们可以从相同数量的数据中提取显著更多的信息——这对训练下一代高效 AI 模型是一个至关重要的见解。
](https://deep-paper.org/en/paper/2505.23557/images/cover.png)