杂耍般的平衡艺术：'Fast RL' 如何在 LLM 训练中协调相互冲突的目标

基于人类反馈的强化学习 (RLHF) 是 ChatGPT 和 Llama 等现代大型语言模型 (LLMs) 取得成功的秘诀。正是这一过程将原本单纯的文本预测引擎转变为乐于助人的助手。然而，这一过程中隐藏着一种复杂性: 我们很少希望 AI 只做一件事。

我们希望模型既有帮助又无害。我们希望它们既有创造力又尊重事实。我们希望它们既简洁又完整。

在强化学习 (RL) 的世界里，这些是截然不同——且往往相互冲突——的奖励信号。标准的训练方法通常难以平衡这些目标。它们可能会为了优化长度 (使模型变得啰嗦) 而牺牲真实性，反之亦然。

在这篇文章中，我们将深入探讨一篇题为 “Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning” (在强化学习中通过公平稳定的奖励组合优化语言模型) 的论文。研究人员提出了一种名为 Fast RL (公平且稳定的奖励强化学习) 的新颖而优雅的方法。这种方法在训练过程中动态调整不同目标的重要性，确保模型在保持稳定性的同时全面提升各项性能。

问题所在: 相互冲突的奖励

为了理解为什么这很困难，想象一下你正在教一个学生 (即 LLM) 回答关于篮球历史的问题。你根据两个标准给他们评分:

真实性 (Factuality) : 信息是否真实？
完整性 (Completeness) : 他们提供的细节是否足够？

研究人员用下图完美地阐释了这一困境:

Figure 1: An example of question answering with two types of rewards optimizing in different directions.

在 回答 1 (绿色) 中，模型的事实完全正确 (“湖人队赢了 17 次”) ，真实性得分为 1.0。然而，它太简短了，完整性得分只有 0.3。在 回答 2 (粉色) 中，模型写了一大段话。它的完整性得分为完美的 1.0，但捏造了事实 (“湖人队在 2017 年击败了奥兰多魔术队”) ，导致其准确性得分降至 0.3。

聚合的挣扎

在标准的 RLHF 中，我们通常将这些分数合并为一个标量奖励，以便算法知道是该鼓励还是抑制这种行为。最常见的方法是简单的加权和:

\[ \text{Total Reward} = w_1 \cdot \text{Factuality} + w_2 \cdot \text{Completeness} \]

问题出在哪里? 静态权重。 如果你在开始时设定了权重并且从未改变，模型通常会“钻系统的空子”。它会找出哪个指标最容易最大化 (通常是长度或语气) ，并将全部精力集中在那上面，而忽略更难的指标 (如真实性) 。这导致了过度优化和性能差异。

其他方法试图通过复杂的约束或排名系统来解决这个问题，但它们往往计算量大或不稳定。

解决方案: Fast RL

研究人员提出了 Fast RL , 这是一种受公平性理论启发的方法。其直觉很简单: 我们要“公平地”对待所有奖励函数。如果模型在一个指标 (例如安全性) 上失败，但在另一个指标 (例如有用性) 上成功，训练过程应该自动优先考虑失败的指标以缩小差距。

目标: 最大最小 (Max-Min) 优化

Fast RL 不是简单地最大化静态总和，而是将训练视为两个玩家之间的博弈:

模型 (\(\pi\)) : 想要最大化奖励。
权重选择器 (对手) : 想要通过为模型当前表现不佳的任务分配更高的权重来最小化奖励。

在数学上，这将标准的 RL 目标转化为一个最大最小 (Max-Min) 问题。目标是在权重 \(w\) 的分布即使是“最坏情况”下，也能优化策略 \(\theta\) (即 LLM) :

Optimization objective formula

在这里，算法试图在“最坏情况”的权重方案下最大化奖励。通过改进表现最差的指标，模型实现了稳定性和公平性 。

架构

这在实践中看起来如何？训练循环包含两个交替的步骤:

更新模型: 使用标准的策略梯度 (如 PPO) 基于当前的综合奖励来改进 LLM。
更新权重: 根据模型刚才的表现调整每个奖励函数的重要性 (\(w\)) 。

Figure 2: Training framework of Fast RL. The parameters of LM are updated using policy gradient, while the weights of different rewards are adjusted through mirror descent.

如图 2 所示，语言模型接收状态 \(s\) 并输出动作 \(a\)。多个奖励函数 (\(r_1\) 到 \(r_n\)) 评估此动作。这些奖励被组合成 \(r_{com}\)，用于更新模型。关键在于，权重 \(w\) 是通过反馈循环进行更新的。

“镜像下降”技巧

你可能认为更新这些权重需要复杂的梯度计算 (对奖励函数进行微分) ，这既缓慢又计算昂贵。

作者使用了一个绝妙的捷径: 镜像下降 (Mirror Descent) 。他们不使用梯度，而是使用闭式估计来更新权重。

Weight update equation using Mirror Descent

让我们拆解这个公式 (论文中的公式 4) :

\(w^{cur}\) 是新权重。
\(w^{pre}\) 是旧权重。
\(r\) 是收到的奖励。
\(\lambda\) 是超参数 (学习率) 。

注意这一项 \(\exp(-\lambda r_i)\)。

如果奖励 \(r_i\) 高 (模型表现良好) ，\(\exp(-\text{大数值})\) 就会很小。权重 \(w_i\) 减少。
如果奖励 \(r_i\) 低 (模型表现糟糕) ，权重 \(w_i\) 增加。

这实际上创建了一个自动平衡机制。系统自然会放大模型所忽略方面的影响力。

平滑冲突

有时，奖励会有噪声或存在根本性冲突 (如简洁性与细节) 。为了防止权重剧烈震荡，作者添加了一个平滑函数和一个偏置项:

Smoothed weight update equation

这确保了即使在奖励信号相互打架时，训练也能保持稳定。

为什么有效: 最小化方差

作者提供的理论分析表明，他们的目标函数在数学上等同于最大化平均奖励减去奖励的方差 (不稳定性) 。

Theoretical objective equivalent

通过惩罚方差 (\(Var(r)\)) ，模型被迫将所有不同的奖励都提升到一个高标准，而不是让某一个指标飙升而其他指标崩溃。

实验结果

研究人员将 Fast RL 与强大的基线进行了对比测试，包括标准 PPO (静态权重) 和“约束 RL” (一种为每个奖励设定阈值的复杂方法) 。

场景 1: 对话生成

他们使用 DailyDialog 数据集训练了一个聊天机器人。他们使用了多达 4 个不同的奖励模型 (METEOR、意图准确性、BLEU 和 BERTScore) 。

图 3 中的结果非常引人注目。

Figure 3: The evaluation score of different methods across three scenarios with varying number of rewards

看第一行 (评估得分 vs. Epochs) :

图 (a) - 2 个奖励: 所有方法都表现尚可。
图 (b) & (c) - 3 & 4 个奖励: 随着复杂性增加，蓝线 (约束 RL) 崩塌了——它变得不稳定。绿线 (标准 PPO) 性能下降。
红线 (Fast RL) : 它在整个训练过程中保持高分且稳定。

第二行展示了具体的指标。在图 (e) 中，注意约束 RL (蓝色) 为了在其他方面提升而牺牲了意图得分 (Intent Score) ，而 Fast RL (红色) 则在所有方面都保持了高性能。

GPT-4 怎么看? 研究人员使用 GPT-4 作为裁判，在不同模型生成的回复之间进行评判。

Table 1: GPT-4 evaluation results on DailyDialog.

Fast RL 获得了 66% 的选择率 , 完全碾压了基线方法。

场景 2: 问答 (QA)

在这个任务中，模型必须平衡相关性、真实性和完整性 。这众所周知地困难，因为正如我们在介绍中看到的，真实性和完整性经常相互打架。

为了可视化这一点，研究人员绘制了“奖励景观”——展示训练期间奖励之间相关性的 3D 可视化图。

Figure 4: Correlations among different reward models in QAFeedback.

图 4(a) - F.G. RL (基线) : 曲面分散且不规则。模型在各种次优的权衡中徘徊。
图 4(b) - Fast RL: 曲面更紧凑且更凸。分布集中，意味着模型找到了一个稳定的“最佳平衡点”，有效地平衡了相互冲突的奖励。

场景 3: 安全性 (无害性 vs. 有用性)

最后，他们在 SafeRLHF 数据集上进行了测试。目标是: 在不产生毒性或危险内容的前提下提供帮助。

标准方法通常会“投机取巧”，要么过于安全 (拒绝回答任何问题) ，要么过于乐于助人 (回答危险问题) 。

Table 4: Reward evaluation of the SafeRLHF test set.

在表 4 中，与奖励塑造 (R.S.) 相比，Fast RL 实现了更高的奖励 (有用性) 和更低的成本 (有害性) 。

当由 GPT-4 评判时 (见下表 5) ，Fast RL 战胜监督微调基线 (SFT) 的频率比竞争方法更高。

Table 5: GPT-4 evaluation of the SafeRLHF test set.

结论

强化学习非常强大，但当你有多个目标时，它就像试图把一群猫聚在一起一样困难。如果你只是简单地将奖励相加，模型会选择阻力最小的路径，优化简单的东西而忽略难的东西。

Fast RL 论文提出了一种基于原则的解决方法。通过将奖励组合视为一个公平性问题并利用 镜像下降 更新规则，算法能够实时动态地调整其关注点。

主要收获:

动态权重: 不要为多目标 RL 使用固定权重。让模型的表现来决定什么是重要的。
无需梯度: 你可以使用数学估计高效地更新奖励权重，保持低计算成本。
稳定性: 最小化奖励之间的差异可以带来更稳定的训练和更全面的性能表现。

随着我们迈向更复杂的 AI 代理——它们需要同时遵守法律、符合人类价值观并执行困难任务——像 Fast RL 这样的技术对于保持它们的平衡将至关重要。

问题所在: 相互冲突的奖励#

聚合的挣扎#

解决方案: Fast RL#

目标: 最大最小 (Max-Min) 优化#

架构#

“镜像下降”技巧#

平滑冲突#

为什么有效: 最小化方差#

实验结果#

场景 1: 对话生成#

场景 2: 问答 (QA)#

场景 3: 安全性 (无害性 vs. 有用性)#

结论#