想象一下,你正在为一位同事写绩效评估。你希望反馈既显得专业 (正式) ,又能给人以鼓励 (积极) 。现在,再想象一下你正在给一位密友发短信,吐槽你刚看的一部烂片。你想要表达得随意 (非正式) 且充满批判性 (消极) 。
作为人类,我们可以毫不费力地融合这些风格维度。我们会根据语境切换我们的“语调”,混合情感、正式度、幽默感和礼貌程度以适应不同的情境。然而,大语言模型 (LLM) 通常难以处理这种细微差别。虽然它们擅长生成通用文本,但要让它们同时遵守多个特定的风格约束——比如“既正式又消极还带有讽刺意味”——是一个复杂的工程挑战。
在论文 《Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation》 (面向多风格可控生成的动态多奖励加权) 中,来自明尼苏达大学的研究人员解决了这一难题。他们提出了一种新颖的强化学习 (RL) 方法,能够在训练过程中动态调整不同风格目标的优先级。
在这篇文章中,我们将剖析为什么多风格生成很难,探索其动态加权解决方案背后的数学原理,并分析表明该方法优于传统方法的结果。

问题所在: 文本生成中的拉锯战
控制 LLM 的单一风格是一个相对已解决的问题。如果你希望模型变得“积极”,你可以在积极评论上对其进行微调,或者使用分类器来引导它。但是,当你拥有相互冲突或正交的目标时会发生什么呢?
考虑“正式 + 消极”的组合。这两种风格通常会将文本拉向不同的方向。“消极”信号可能会鼓励使用“terrible” (糟糕) 或“sucks” (烂透了) 等词汇,而“正式”信号则会将词汇拉向“unsatisfactory” (不令人满意) 或“suboptimal” (次优) 。
当工程师尝试使用强化学习训练模型以同时满足两者时,他们通常使用多目标奖励函数 (Multi-Objective Reward Function) 。 模型生成文本,几个“判别器” (训练用于识别特定风格的分类器) 会对输出进行评判。
标准方法是简单地将这些分数相加。然而,这导致了一场“拉锯战”,较容易实现的目标往往会占据主导地位。如果让模型变得“正式”比变得“消极”更容易,模型可能会学会最大化“正式”分数而忽略“消极”分数,因为那是获得更高总奖励的阻力最小的路径。
背景: RL 微调流程
为了理解解决方案,我们需要先可视化训练流程。作者使用了近端策略优化 (PPO) , 这是一种流行的 RL 算法,也用于训练 ChatGPT 等模型 (通过 RLHF) 。
设置如下:
- 策略 (LLM) : 这是一个 Llama-2 7B 模型。它接收提示并生成回复。
- 判别器: 这些是独立的、较小的模型,经过训练可检测特定风格 (例如,情感、正式度、讽刺) 。
- 奖励函数: 这是关键组件。它接收来自判别器的输出,并将它们组合成一个标量数值,告诉 LLM “做得好”或“再试一次”。

本研究中使用的判别器是在标准数据集上训练的,用于检测各种属性:

核心的研究问题是: 我们如何在数学上组合判别器 A 和判别器 B 的输出,以确保 LLM 同样好地学习两者?
核心方法: 重塑奖励
在得出新颖的贡献之前,研究人员尝试了几种奖励函数的“形状”。让我们看看这些想法的演变。
1. 朴素方法 (Logits 和 Softmax)
组合奖励最明显的方法是获取判别器的原始输出 (logits) 或概率 (softmax) 并将其求和。
- Softmax: 对概率 (0 到 1) 求和。问题在于?模型往往“过度自信”。即使文本只是模糊匹配,分类器也可能输出 0.99 的置信度,给 RL 智能体一个混乱的信号。
- Logits: 在概率转换之前对原始分数求和。这提供了更强的信号,但可能过于激进,导致模型为了操纵奖励函数而输出乱码 (导致高困惑度/低流畅度) 。
2. 二值化方法 (Binarized)
为了减少噪声,可以简化信号: 通过或失败。如果判别器有超过 50% 的把握认为文本是“正式的”,模型得到 +1。否则,得到 -1。

如上式所示,这种方法消除了模型置信度带来的噪声。它告诉 LLM,“只要过线就行”。虽然有效,但它缺乏细微差别——一个勉强正式的生成结果与一个极其正式的生成结果获得相同的奖励。
3. 解决方案: 动态加权 (Dynamic Weighting)
作者提出了一种称为动态加权的方法。其直觉简单但强大: 不要只看分数;要看模型正在学到多少东西。
如果模型难以学会“消极性”但发现“正式度”很容易,奖励函数应该优先考虑消极性以平衡天平。为了衡量这一点,作者观察了梯度范数 (Gradient Norm) 。
在深度学习中,梯度表示减少误差所需的变化方向和幅度。大梯度意味着模型有很长的路要走,或者正在积极改变其对该特征的理解。
这是动态加权公式:

以下是权重 (\(grad\_norm\)) 的计算方式:

通俗来说这意味着: 特定风格的权重 \(w\) 不是固定的。它是通过查看该风格的交叉熵损失 (\(\mathcal{L}_{CE}\)) 的梯度来计算的。
- 我们测量所有目标风格梯度的“陡峭度” (幅度) 。
- 我们将它们归一化,使它们之和为 1。
- 如果一种风格具有高梯度范数 (意味着它目前是模型损失的重要来源) ,它在奖励函数中会获得更高的权重。
这充当了一种自动平衡机制。如果模型开始忽略某种风格,该风格的损失就会增加,梯度幅度变大,奖励函数在下一步中会自动赋予该风格更多价值。
最终奖励是这些动态缩放信号的线性组合:

方法比较
为了直观地展示这些方法之间的差异,作者提供了奖励重塑技术的总结:

动态加权方法 (底行) 之所以独特,是因为它适应训练过程,根据模型当前的性能状态选择哪个属性贡献最大。
实验与结果
研究人员使用 Llama-2 7B 测试了这些方法。他们旨在同时控制两种风格 (例如,消极 + 非正式) ,并根据两个标准评估结果:
- 风格准确性: 文本是否真的匹配目标风格?
- 生成质量: 文本是否为流畅的英语 (通过困惑度/Perplexity 衡量) 且不重复 (通过二元组重复/Bigram Duplicates 衡量) ?
双风格控制的表现
“消极 + 非正式”组合的结果突显了动态加权的优越性。

数据中的关键要点:
- Softmax (标准方法) : 严重失败。它仅在 38.5% 的时间里实现了目标组合。
- Logits: 准确率高 (52.65%),但请看困惑度 (PPL)。98.86 的 PPL 表明模型为了满足判别器正在生成垃圾内容或接近乱码。
- 二值化 (Binarized): 一个强有力的竞争者,准确率为 56.8%,流畅度良好 (低 PPL) 。
- 动态加权 (我们的) : 明显的赢家。它实现了 60.25% 的准确率 , 同时具有最低的困惑度 (31.46) 和极低的重复率。
这证明动态调整权重可以防止模型“利用系统漏洞”,并鼓励它找到流畅满足两个约束的解决方案。
扩展到三种风格
作者并没有止步于两种风格。他们推动模型控制三个同时存在的属性,例如“积极 + 正式 + 讽刺”。

结果表明,模型成功学会了整合第三个维度。例如,在第一行中,模型在讽刺方面达到了 66.55% 的准确率,同时在情感和正式度上保持了高分。
在雷达图上将其可视化,可以看到模型能力的“形状”:

注意那条绿线 (积极+正式+讽刺) 。它在讽刺、积极和正式轴上都延伸得很远,显示出与基线或双风格模型相比,对这三者都有明显的控制力。
与 PPLM (即插即用语言模型) 的比较
研究人员还将他们的微调方法与 PPLM 进行了比较,PPLM 是一种流行的在不更新模型权重的情况下引导生成的方法 (推理时控制) 。

如图 4 所示,动态加权 RL 方法 (绿色条) 大幅优于 PPLM (红色条) 和基础模型 (蓝色条) 。对于“积极 + 正式”,动态加权方法的成功率几乎是基础模型的两倍。
“对齐税”与局限性
虽然结果令人印象深刻,但论文坦诚地讨论了这种激进微调的权衡,通常称为“对齐税”。
当你强迫模型严格遵守某种特定风格 (如“消极且非正式”) 时,可能会无意中降低其事实准确性。研究人员发现,在基于维基百科的提示下,微调后的模型有时会为了适应风格而产生事实幻觉。

在上表中,请看关于“Dwight”的条目。原始 Llama 2 正确地将其识别为伊利诺伊州的一个城市。“消极 + 正式”模型为了适应特定基调,产生了幻觉,称其为密歇根州的一个城市,由 Alvin Lasher 建立。这表明,虽然我们可以控制模型怎么说,但必须小心这种控制不要破坏它知道什么。
结论
论文 《Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation》 在使 LLM 更加通用方面迈出了重要一步。通过摒弃静态奖励求和,采用动态的、感知梯度的加权方案,我们可以教导模型在不牺牲流畅度的情况下平衡相互冲突的风格目标。
关键要点:
- 多风格生成是一种平衡的艺术: 静态奖励会导致一种风格压倒其他风格。
- 梯度说明了一切: 使用梯度幅度可以让奖励函数“知道”模型正在哪种风格上挣扎,并实时调整优先级。
- RL 优于引导: 对于复杂的多风格需求,使用动态 RL 进行微调优于像 PPLM 这样的推理时技术。
随着我们迈向更加个性化的 AI 助手,能够调出特定的、多面的人格 (例如,“专业但富有同理心”或“机智且简练”) 将至关重要。动态多奖励加权为实现这种平衡提供了数学蓝图。
](https://deep-paper.org/en/paper/2402.14146/images/cover.png)