平滑对齐之路：置信度感知标签平滑如何改进 DPO

大型语言模型 (LLM) 的训练已经演变成一个复杂的三阶段流程: 预训练 (学习语言) 、监督微调 (学习任务) 和带人类反馈的强化学习 (RLHF) 。虽然前两个阶段建立了模型的能力，但第三个阶段——RLHF——对于安全性与实用性而言，可以说是最关键的。它将模型与人类价值观对齐，确保人工智能是乐于助人而非有害的。

最近, 直接偏好优化 (Direct Preference Optimization, DPO) 已成为传统 RLHF 方法 (如 PPO) 的流行替代方案。DPO 通过将对齐视为分类问题来简化流程。然而，像许多分类任务一样，DPO 也面临数据噪声的问题。人类并不总能在哪个回答更好这一问题上达成一致，从而导致训练标签的不一致。

解决这个问题的标准方法是标签平滑 (Label Smoothing) ——一种告诉模型“不要对这个标签有 100% 的把握；保持 90% 的把握就好”的技术。但这其中存在一个问题: 我们如何选择这个平滑参数? 从历史上看，研究人员要么猜测一个数字，要么通过启发式方法进行调整。

在这篇文章中，我们将深入探讨一篇新的研究论文《Enhancing Language Model Alignment: A Confidence-Based Approach to Label Smoothing》，该论文提出了一种原则性的、基于数学的方法，称为置信度感知标签平滑 (Confidence Aware Label Smoothing, CALS) 。我们将探讨 CALS 如何根据我们对数据的置信度动态调整平滑程度，从而产生对齐效果更好的模型。

背景: RLHF 与平滑的需求

为了理解 CALS，我们首先需要回顾一下我们是如何使用偏好数据来对齐模型的。在典型的设置中，我们有一个包含提示词 (\(x\)) 和成对回答 (\(y^+\) 和 \(y^-\)) 的数据集，其中人类认为 \(y^+\) 优于 \(y^-\)。

Bradley-Terry 模型

几乎所有现代对齐工作的基础都是 Bradley-Terry 模型。它假设存在一个反映人类偏好的“真实”奖励函数 \(r^*(x, y)\)。\(y_1\) 优于 \(y_2\) 的概率被建模为它们奖励差值的 sigmoid 函数。

Bradley-Terry 模型概率方程。

在传统的 RLHF 中，我们会训练一个奖励模型，通过最小化基于该概率的损失来逼近 \(r^*\)。

奖励建模损失函数。

一旦奖励模型训练完成，我们会使用强化学习 (PPO) 来训练策略 \(\pi_\theta\) 以最大化该奖励，同时保持接近原始模型 (\(\pi_{sft}\)) 以防止“奖励黑客 (reward hacking) ”或模式坍塌。

带有 KL 散度惩罚的 RLHF 目标函数。

引入 DPO: 将对齐视为分类问题

直接偏好优化 (DPO) 表明你不需要单独的奖励模型，这彻底改变了该领域。你可以直接使用二元交叉熵 (BCE) 损失来优化策略。DPO 有效地根据最优策略重新参数化了奖励:

DPO 中奖励与最优策略的关系。

将此代入损失函数，DPO 允许我们通过简单地最小化偏好对上的分类损失来训练 LLM。

DPO 损失函数。 DPO 损失函数续。

硬标签的问题

在上面的公式中，训练过程假设使用“硬标签”。如果人类选择了回答 A 而非回答 B，模型会将回答 A 视为绝对正确的答案 (概率 1.0) 。

但人类的偏好是充满噪声的。如果两个标注者看同一对回答，他们可能会有不同意见。或者两个回答在质量上可能几乎相同。将这些偏好视为绝对事实可能会导致模型对噪声过拟合。

标签平滑解决了这个问题。与其将获胜者的目标概率设为 1.0，失败者设为 0.0，我们可能将其目标设定为 \(1 - \alpha\) 和 \(\alpha\)。这可以防止模型变得过度自信。

带有标签平滑的标准二元交叉熵 (BCE) 损失如下所示:

带有标签平滑参数 alpha 的 BCE 损失。

研究人员提出的关键问题是: 为什么要使用恒定的 \(\alpha\)? 如果一个偏好是显而易见的 (例如，一个安全的回答 vs 一个有毒的回答) ，我们应该信任标签 (低 \(\alpha\)) 。如果偏好模棱两可，我们应该对其进行显著平滑 (高 \(\alpha\)) 。

理论基础: 优化梯度估计

作者通过分析梯度解决了这个问题。当我们训练模型时，我们在估计损失的梯度。标签平滑参数 \(\alpha\) 控制着一种权衡:

偏差 (Bias) : 我们估计的梯度与“真实”梯度 (即如果我们知道偏好的完美真实概率会得到的梯度) 相差多远？
方差 (Variance) : 由于数据噪声，梯度跳动幅度有多大？

如果 \(\alpha = 0\)，我们有一个无偏估计量，但方差可能很高。如果 \(\alpha = 0.5\)，方差为零 (梯度为零) ，但偏差巨大。

定理 3.1: 最优 \(\alpha\)

研究人员证明了一个定理，描述了最小化梯度估计期望误差的最优 \(\alpha\)。结果令人着迷: 最优平滑参数不是常数。它取决于 \(q\)，即 \(p^*(w)\)——偏好标签的真实置信度。

基于距离度量定义最优 alpha 的方程。

根据你衡量距离的方式 (度量标准) ，最优 \(\alpha\) 会发生变化，但它总是依赖于潜在的置信度。

对于 \(\ell_0\) 度量 (最小化梯度指向错误方向的机会) ，最优 \(\alpha\) 为:

L0 度量的最优 alpha。

对于 \(\ell_2\) 度量 (最小化欧几里得距离误差) ，最优 \(\alpha\) 为:

L2 度量的最优 alpha。

这种关系在下图中可视化。X 轴 (\(q\)) 是置信度。如果 \(q\) 是 0 或 1 (我们可以确定偏好) ，最优平滑 (\(\alpha^*\)) 为 0。如果 \(q\) 是 0.5 (完全模糊) ，最优平滑为 0.5 (最大平滑) 。

图表显示最优标签平滑参数作为置信度 q 的函数。

这在理论上证明了标签平滑应该是具有置信度感知的。

方法: 置信度感知标签平滑 (CALS)

但存在一个难点。定理表明最优平滑取决于 \(p^*(w)\)——即回答 A 优于 B 的真实概率。 我们不知道这个概率。 我们只有充满噪声的标签 \(z \in \{0, 1\}\)。

为了解决这个问题，作者引入了置信度感知标签平滑 (CALS) 。核心思想是在模型训练时迭代地估计置信度。

概念: 动态校准

CALS 依赖于校准 (Calibration) 的概念。如果一个模型预测某事件发生的概率为 0.8，那么该事件理想情况下应该在 80% 的时间里发生。

作者建议基于模型自身的预测置信度来定义平滑参数 \(\tilde{\alpha}\)。具体来说，他们观察模型的预测与人类标签一致的频率。

基于条件概率定义的 alpha tilde。

简单来说:

将模型预测获胜概率大致为 \(x\) (例如 0.7) 的数据点分组。
查看这些点的实际标签。被偏好的回答实际上有 70% 的时间获胜了吗？
如果模型过度自信 (预测 0.9 但标签只有 0.6 的时间一致) ，我们会增加平滑参数以抑制信号。

算法

CALS 的实际实现涉及将概率空间离散化为分箱 (buckets) 。

概率的分箱策略。

在训练期间，算法维护每个分箱的“正确性”估计。它使用移动平均动态更新这些估计值。

alpha hat k 的更新规则。

这创建了一个动态反馈循环。特定数据点的平滑参数由模型当前的预测落入哪个分箱决定。

CALS 损失函数的定义。

可视化动态过程

这种动态调整改变了模型更新权重的方式。

在标准 DPO (下图 1a) 中，更新速度仅由模型当前的误差驱动。在 CALS (下图 1b) 中，我们增加了一个新维度。

绿星 (快) : 模型是错误的 (需要更新) 且标签是高置信度的。 快速更新。
红星 (慢) : 标签是低置信度的 (模糊的) 。即使模型“错”了，我们也不应该激进地更新，因为真实情况本身就是不稳固的。 慢速更新。

DPO 和 CALS 之间更新动态的比较。基于置信度和正确性的 CALS 更新动态的详细示意图。

均衡分析

作者还分析了训练收敛 (均衡) 时会发生什么。因为 CALS 基于置信度平滑标签，模型会达到一个保守均衡 。

CALS 的均衡方程。

如下图所示，与真实概率 \(p^*(w)\) (X 轴) 相比，学习到的概率 \(\tilde{p}(w)\) (Y 轴) 略微向 0.5 挤压。这种保守性在安全对齐中是一个理想的属性，因为它可以防止模型对模糊的偏好变得过度自信。

均衡概率与真实概率的图表显示保守行为。

实验结果

理论听起来很扎实，但它有效吗？作者在受控的逻辑回归任务和大规模 LLM 对齐上测试了 CALS。

逻辑回归 (健全性检查)

首先，他们在一个已知真实值的高维逻辑回归问题上测试了该方法。他们比较了三种方法:

MLE: 标准最大似然估计 (无平滑) 。
MLE-CALS-2: 使用 \(\ell_2\)-最优策略的 CALS。
MLE-CALS-0: 使用 \(\ell_0\)-最优策略的 CALS。

逻辑回归实验的损失曲线。

结果 (图 4) 显示, MLE-CALS-0 (紫色虚线) 在不同的维度 (\(d\)) 和训练集大小下均始终实现了最低的测试损失。这验证了自适应平滑可以减少估计误差的理论。

LLM 对齐: Zephyr-7B 和 StarChat-15B

真正的测试是在开放式文本生成上。他们使用 UltraFeedback 数据集微调了 Zephyr-7B 和 StarChat2-15B 。他们将标准 DPO 与配备了 CALS 的 DPO 进行了比较。

评估指标: 为了判断回答的质量，他们使用了两个强大的评估器:

GPT-4: 被提示选择更好的回答 (胜率) 。
ArmoRM: 来自 RewardBench 排行榜的最先进的奖励模型。

结果:

在 GPT-4 评估 (图 5) 中，CALS 在两个模型上都优于基线 DPO。“Win (胜) ”条 (深蓝色) 始终大于“Lose (负) ”条。

柱状图显示 CALS 对比基线的 GPT-4 胜率。

ArmoRM 评估器的结果甚至更加显著 (图 6) ，显示出对 CALS 训练模型的明显偏好。

柱状图显示 CALS 对比基线的 ArmoRM 胜率。

对初始化的鲁棒性

人们可能会问: “CALS 是否仅因为以良好的平滑参数开始才有效？”作者通过使用不同的基线平滑值 (\(\alpha \in \{0.8, 0.9, 1.0\}\)) 初始化训练来测试这一点。

无论起点如何，CALS 始终能提高性能。这表明该方法具有鲁棒性，并且能够自行纠正次优的超参数选择。

不同初始化参数下的 GPT-4 胜率。

结论与启示

这篇关于“置信度感知标签平滑”的论文强调了训练 LLM 中的一个关键细微差别: 并非所有训练数据生而平等。

通过将每个偏好标签视为同等确定，标准 DPO 浪费了潜在的性能提升空间。CALS 提供了一种机制来更仔细地“倾听”数据。当模型检测到模糊性 (通过校准) 时，它会平滑标签，有效地告诉优化器要谨慎。当信号清晰时，它会锐化标签，从而允许更快的学习。

给学生的关键要点:

梯度很重要: 理解梯度估计器中的偏差-方差权衡可以带来更好的损失函数。
自适应更好: 启发式常数 (如固定标签平滑) 很少是最优的。让参数依赖于数据通常会带来收益。
校准: 模型预测概率与经验准确率之间的一致性是一个强大的信号，可用于稳定训练。

随着 LLM 规模的不断扩大，像 CALS 这样提高数据效率和对齐稳定性的技术将变得越来越重要。它使我们从超参数中的“魔数”走向原则性的、自我调整的训练动态。

背景: RLHF 与平滑的需求#

Bradley-Terry 模型#

引入 DPO: 将对齐视为分类问题#

硬标签的问题#

理论基础: 优化梯度估计#

定理 3.1: 最优 \(\alpha\)#

方法: 置信度感知标签平滑 (CALS)#

概念: 动态校准#

算法#

可视化动态过程#

均衡分析#

实验结果#

逻辑回归 (健全性检查)#

LLM 对齐: Zephyr-7B 和 StarChat-15B#

对初始化的鲁棒性#

结论与启示#