基于人类反馈的强化学习 (RLHF) 是 ChatGPT 和 Llama 等现代大型语言模型 (LLMs) 取得成功的秘诀。正是这一过程将原本单纯的文本预测引擎转变为乐于助人的助手。然而,这一过程中隐藏着一种复杂性: 我们很少希望 AI 只做一件事。
我们希望模型既有帮助又无害。我们希望它们既有创造力又尊重事实。我们希望它们既简洁又完整。
在强化学习 (RL) 的世界里,这些是截然不同——且往往相互冲突——的奖励信号。标准的训练方法通常难以平衡这些目标。它们可能会为了优化长度 (使模型变得啰嗦) 而牺牲真实性,反之亦然。
在这篇文章中,我们将深入探讨一篇题为 “Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning” (在强化学习中通过公平稳定的奖励组合优化语言模型) 的论文。研究人员提出了一种名为 Fast RL (公平且稳定的奖励强化学习) 的新颖而优雅的方法。这种方法在训练过程中动态调整不同目标的重要性,确保模型在保持稳定性的同时全面提升各项性能。
问题所在: 相互冲突的奖励
为了理解为什么这很困难,想象一下你正在教一个学生 (即 LLM) 回答关于篮球历史的问题。你根据两个标准给他们评分:
- 真实性 (Factuality) : 信息是否真实?
- 完整性 (Completeness) : 他们提供的细节是否足够?
研究人员用下图完美地阐释了这一困境:

在 回答 1 (绿色) 中,模型的事实完全正确 (“湖人队赢了 17 次”) ,真实性得分为 1.0。然而,它太简短了,完整性得分只有 0.3。 在 回答 2 (粉色) 中,模型写了一大段话。它的完整性得分为完美的 1.0,但捏造了事实 (“湖人队在 2017 年击败了奥兰多魔术队”) ,导致其准确性得分降至 0.3。
聚合的挣扎
在标准的 RLHF 中,我们通常将这些分数合并为一个标量奖励,以便算法知道是该鼓励还是抑制这种行为。最常见的方法是简单的加权和:
\[ \text{Total Reward} = w_1 \cdot \text{Factuality} + w_2 \cdot \text{Completeness} \]问题出在哪里? 静态权重。 如果你在开始时设定了权重并且从未改变,模型通常会“钻系统的空子”。它会找出哪个指标最容易最大化 (通常是长度或语气) ,并将全部精力集中在那上面,而忽略更难的指标 (如真实性) 。这导致了过度优化和性能差异。
其他方法试图通过复杂的约束或排名系统来解决这个问题,但它们往往计算量大或不稳定。
解决方案: Fast RL
研究人员提出了 Fast RL , 这是一种受公平性理论启发的方法。其直觉很简单: 我们要“公平地”对待所有奖励函数。如果模型在一个指标 (例如安全性) 上失败,但在另一个指标 (例如有用性) 上成功,训练过程应该自动优先考虑失败的指标以缩小差距。
目标: 最大最小 (Max-Min) 优化
Fast RL 不是简单地最大化静态总和,而是将训练视为两个玩家之间的博弈:
- 模型 (\(\pi\)) : 想要最大化奖励。
- 权重选择器 (对手) : 想要通过为模型当前表现不佳的任务分配更高的权重来最小化奖励。
在数学上,这将标准的 RL 目标转化为一个最大最小 (Max-Min) 问题。目标是在权重 \(w\) 的分布即使是“最坏情况”下,也能优化策略 \(\theta\) (即 LLM) :

在这里,算法试图在“最坏情况”的权重方案下最大化奖励。通过改进表现最差的指标,模型实现了稳定性和公平性 。
架构
这在实践中看起来如何?训练循环包含两个交替的步骤:
- 更新模型: 使用标准的策略梯度 (如 PPO) 基于当前的综合奖励来改进 LLM。
- 更新权重: 根据模型刚才的表现调整每个奖励函数的重要性 (\(w\)) 。

如图 2 所示,语言模型接收状态 \(s\) 并输出动作 \(a\)。多个奖励函数 (\(r_1\) 到 \(r_n\)) 评估此动作。这些奖励被组合成 \(r_{com}\),用于更新模型。关键在于,权重 \(w\) 是通过反馈循环进行更新的。
“镜像下降”技巧
你可能认为更新这些权重需要复杂的梯度计算 (对奖励函数进行微分) ,这既缓慢又计算昂贵。
作者使用了一个绝妙的捷径: 镜像下降 (Mirror Descent) 。 他们不使用梯度,而是使用闭式估计来更新权重。

让我们拆解这个公式 (论文中的公式 4) :
- \(w^{cur}\) 是新权重。
- \(w^{pre}\) 是旧权重。
- \(r\) 是收到的奖励。
- \(\lambda\) 是超参数 (学习率) 。
注意这一项 \(\exp(-\lambda r_i)\)。
- 如果奖励 \(r_i\) 高 (模型表现良好) ,\(\exp(-\text{大数值})\) 就会很小。权重 \(w_i\) 减少 。
- 如果奖励 \(r_i\) 低 (模型表现糟糕) ,权重 \(w_i\) 增加 。
这实际上创建了一个自动平衡机制。系统自然会放大模型所忽略方面的影响力。
平滑冲突
有时,奖励会有噪声或存在根本性冲突 (如简洁性与细节) 。为了防止权重剧烈震荡,作者添加了一个平滑函数和一个偏置项:

这确保了即使在奖励信号相互打架时,训练也能保持稳定。
为什么有效: 最小化方差
作者提供的理论分析表明,他们的目标函数在数学上等同于最大化平均奖励减去奖励的方差 (不稳定性) 。

通过惩罚方差 (\(Var(r)\)) ,模型被迫将所有不同的奖励都提升到一个高标准,而不是让某一个指标飙升而其他指标崩溃。
实验结果
研究人员将 Fast RL 与强大的基线进行了对比测试,包括标准 PPO (静态权重) 和“约束 RL” (一种为每个奖励设定阈值的复杂方法) 。
场景 1: 对话生成
他们使用 DailyDialog 数据集训练了一个聊天机器人。他们使用了多达 4 个不同的奖励模型 (METEOR、意图准确性、BLEU 和 BERTScore) 。
图 3 中的结果非常引人注目。

看第一行 (评估得分 vs. Epochs) :
- 图 (a) - 2 个奖励: 所有方法都表现尚可。
- 图 (b) & (c) - 3 & 4 个奖励: 随着复杂性增加,蓝线 (约束 RL) 崩塌了——它变得不稳定。绿线 (标准 PPO) 性能下降。
- 红线 (Fast RL) : 它在整个训练过程中保持高分且稳定。
第二行展示了具体的指标。在图 (e) 中,注意约束 RL (蓝色) 为了在其他方面提升而牺牲了意图得分 (Intent Score) ,而 Fast RL (红色) 则在所有方面都保持了高性能。
GPT-4 怎么看? 研究人员使用 GPT-4 作为裁判,在不同模型生成的回复之间进行评判。

Fast RL 获得了 66% 的选择率 , 完全碾压了基线方法。
场景 2: 问答 (QA)
在这个任务中,模型必须平衡相关性、真实性和完整性 。 这众所周知地困难,因为正如我们在介绍中看到的,真实性和完整性经常相互打架。
为了可视化这一点,研究人员绘制了“奖励景观”——展示训练期间奖励之间相关性的 3D 可视化图。

- 图 4(a) - F.G. RL (基线) : 曲面分散且不规则。模型在各种次优的权衡中徘徊。
- 图 4(b) - Fast RL: 曲面更紧凑且更凸。分布集中,意味着模型找到了一个稳定的“最佳平衡点”,有效地平衡了相互冲突的奖励。
场景 3: 安全性 (无害性 vs. 有用性)
最后,他们在 SafeRLHF 数据集上进行了测试。目标是: 在不产生毒性或危险内容的前提下提供帮助。
标准方法通常会“投机取巧”,要么过于安全 (拒绝回答任何问题) ,要么过于乐于助人 (回答危险问题) 。

在表 4 中,与奖励塑造 (R.S.) 相比,Fast RL 实现了更高的奖励 (有用性) 和更低的成本 (有害性) 。
当由 GPT-4 评判时 (见下表 5) ,Fast RL 战胜监督微调基线 (SFT) 的频率比竞争方法更高。

结论
强化学习非常强大,但当你有多个目标时,它就像试图把一群猫聚在一起一样困难。如果你只是简单地将奖励相加,模型会选择阻力最小的路径,优化简单的东西而忽略难的东西。
Fast RL 论文提出了一种基于原则的解决方法。通过将奖励组合视为一个公平性问题并利用 镜像下降 更新规则,算法能够实时动态地调整其关注点。
主要收获:
- 动态权重: 不要为多目标 RL 使用固定权重。让模型的表现来决定什么是重要的。
- 无需梯度: 你可以使用数学估计高效地更新奖励权重,保持低计算成本。
- 稳定性: 最小化奖励之间的差异可以带来更稳定的训练和更全面的性能表现。
随着我们迈向更复杂的 AI 代理——它们需要同时遵守法律、符合人类价值观并执行困难任务——像 Fast RL 这样的技术对于保持它们的平衡将至关重要。
](https://deep-paper.org/en/paper/file-3463/images/cover.png)