驯服对齐税: 可控偏好优化如何平衡有用性、诚实性和无害性

如果你广泛使用过大型语言模型 (LLMs) ，你很可能遇到过“拒绝”现象。当你向模型请教一个复杂的话题时——也许是严格的事实性问题但稍微有点敏感——它会礼貌地拒绝，或者给出一个被稀释的、过度谨慎的回答。这通常是安全对齐的结果。

为了让 AI 能安全地供公众使用，我们将模型与人类价值观进行对齐，这些价值观通常概括为“3H”原则: 有用性 (Helpfulness) 、诚实性 (Honesty) 和无害性 (Harmlessness) 。理想情况下，我们希望模型在这三方面都完美无缺。但实际上，这些目标经常发生冲突。一个绝对无害的模型可能会拒绝回答合理的问题 (降低了有用性) 。一个绝对有用的模型可能会回答危险的问题 (降低了无害性) 。

这种权衡被称为 “对齐税” (Alignment Tax) 。提高一个目标的表现往往以牺牲另一个目标的表现为代价。

今天，我们将深入探讨一篇题为 “Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment” 的研究论文。研究人员提出了一种新颖的解决方案: 与其训练一个替你做这些权衡决定的“一刀切”模型，不如训练一个让你在推理时自己控制权衡的模型？他们将这种方法称为可控偏好优化 (Controllable Preference Optimization, CPO) 。

核心问题: 对齐税

传统的对齐技术，如人类反馈强化学习 (RLHF) 或直接偏好优化 (DPO) ，通常试图优化单一的奖励信号。即使该奖励结合了多个因素，训练过程也会将安全性和有用性之间的特定平衡“固化”在模型中。

问题在于，你无法在所有时候取悦所有人。创意作家可能更看重有用性而不是严格的事实性。使用聊天机器人的孩子需要最大的无害性，即使这意味着模型的有用性降低。

传统优化与可控优化的比较

如上图 Figure 1 所示:

(a) 传统优化: 红点代表“帕累托前沿”——即最佳权衡点。大多数模型最终会停留在像 \(M_{mix}\) 这样的固定点，这是一个妥协的结果。
(b) 可控优化: CPO 允许我们设定条件。如果我们把有用性 (\(H_1\)) 和诚实性 (\(H_2\)) 固定在特定水平，我们就可以动态地在权衡空间中导航。

背景: 从多目标优化到条件优化

要理解 CPO 的工作原理，我们首先需要看看对齐背后的数学原理。通常，对齐被视为一个多目标优化问题。我们希望找到模型参数 \(\theta\)，以最大化目标向量 \(T\):

标准多目标方程

这里，\(T_1\) 可能是有用性，\(T_2\) 可能是安全性。挑战在于，最大化 \(T_1\) 往往会降低 \(T_2\)。

研究人员认为，我们不应该试图在每次输出中同时最大化所有目标。相反，他们将问题重新定义为条件多目标优化 。他们引入了“偏好条件”，表示为 \(c\)。

新的学习目标如下所示:

条件目标方程

这个方程是该论文的基础。它的含义如下:

如果一个目标是受控的 (上方情况) : 我们不只是想最大化它；我们希望模型的表现 (\(P_i\)) 与用户要求的特定分数 (\(c_i\)) 相匹配。目标是最小化实际输出与要求水平之间的差异 (误差) 。
如果一个目标是不受控的 (下方情况) : 我们就像往常一样简单地最大化它。

例如，你可以告诉模型: “给我一个有用性等级 5 (最高) 且无害性等级 1 (最低) 的回复。”

核心方法: 可控偏好优化 (CPO)

CPO 方法通过两个阶段的过程实现，这反映了标准的 LLM 训练流程 (SFT 之后是 RLHF/DPO) ，但在每一步都注入了控制。

CPO 的整体框架

Figure 2 提供了整个架构的路线图。

上一行 (标准) : 使用预训练模型，运行监督微调 (SFT) ，然后运行直接偏好优化 (DPO) 以获得最终模型。
下一行 (CPO) : 我们在输入中引入偏好 token (例如 <Helpfulness:5>, <Harmlessness:1>) 。这就产生了可控偏好 SFT (CPSFT) 和可控 DPO (CDPO) 。

让我们分解这两个阶段。

第一阶段: 可控偏好 SFT (CPSFT)

在标准的监督微调 (SFT) 中，我们训练模型在给定输入 \(x\) 的情况下预测下一个 token \(y\)。损失函数如下所示:

标准 SFT 损失

模型试图隐式地满足所有目标。在 CPSFT 中，研究人员在输入数据中增强了特定的偏好 token。如果一个训练样本非常有用但可能不安全，它会被标记上相应的分数。

新的损失函数包含了这些条件 (\(c_1, \dots, c_m\)) :

CPSFT 损失函数

通过最小化这个损失，模型学会了一种关联: “当我看到 <Harmlessness:5> 时，我应该生成非常安全的文本。当我看到 <Honesty:2> 时，我可以对事实不那么严谨。”

第二阶段: 可控直接偏好优化 (CDPO)

这是神奇之处。标准 DPO 的工作原理是获取成对的回复——胜者 (\(y_w\)) 和败者 (\(y_l\)) ——并优化模型以赋予胜者更高的概率。

然而，标准 DPO 假设“胜者”在各方面总是更好的。CPO 承认一个回复之所以是“胜者”，可能是因为它符合用户的特定约束，即使它在一般意义上可以说是“更差”的 (例如，如果用户明确要求低无害性以进行压力测试，那么一个有毒的回复可能是“胜者”) 。

为了实现这一点，作者重新设计了奖励函数。他们定义了一个多偏好价值奖励 \(R\)。这个奖励是不同目标的加权和。

核心创新在于函数 \(g_i\)，它定义了第 \(i\) 个目标的分数:

g_i 奖励函数

让我们解读这个方程:

场景 A (受控) : 如果我们要控制某个属性 (如安全性) ，奖励是负值，取决于模型偏离目标 \(c_i\) 的程度。模型越接近目标 \(c_i\)，奖励越高 (越接近 0) 。
场景 B (不受控) : 如果我们不控制某个属性，奖励仅仅是偏好分数 \(p_i\)。我们只希望它尽可能高。

这引出了 CDPO 损失函数 :

CDPO 损失函数

这里，\(\hat{R}_\theta\) 代表从模型策略中得出的隐式奖励。该算法在特定的偏好条件 \(c\) 下，比较“胜出”回复 (\(y_w\)) 与“失败”回复 (\(y_l\)) 的隐式奖励。

这迫使模型偏好那些遵守所请求控制 token 的回复，同时在不受控的维度上最大化质量。

实验与结果

研究人员使用 Mistral-7B 模型测试了 CPO。他们使用了 UltraFeedback (用于有用性/诚实性) 等数据集，并创建了一个名为 UltraSafety 的新数据集，专门处理无害性/越狱场景。

1. CPO 真的能控制输出吗？

第一个问题是这些“旋钮”是否真的起作用。如果我们用 <Helpfulness:2> 提示模型，它的有用性真的比 <Helpfulness:5> 低吗？

可控性条形图

Figure 3 展示了三个维度的结果:

图表 (a) & (b): 随着条件 (请求的分数) 从 1 增加到 5，CPO 模型 (紫色/蓝色线) 的有用性和诚实性评估分数持续上升。
图表 (c): 对于无害性，请求“条件 5” (高安全性) 导致安全性相比“条件 0”有了巨大的飞跃。

有趣的是，标准的 SFT 和 DPO 模型 (不使用控制 token) 表现为直线或变化较小，因为它们无法即时调整行为。CPO 允许用户精准调节他们所需的表现。

2. 缓解对齐税

最重要的发现是，CPO 不仅增加了控制力，实际上还产生了一个整体更好的模型。通过分离目标，模型不会因试图同时优化相互冲突的目标而感到“困惑”。

性能权衡雷达图

Figure 4 使用雷达图可视化了这种权衡。

看图表 (c) 。蓝线 (CPO) 覆盖了最大的面积。它在保持高有用性和诚实性的同时，实现了可接受的无害性。
标准 DPO 模型 (粉色) 通常牺牲一个领域来提升另一个领域。

作者还将 CPO 与多个基线进行了比较，包括 PPO、DPO 以及像 LLaMA-2 和 Zephyr 这样的开源模型。

主要结果表

Table 1 (上图) 总结了这些发现。 Mistral-7B-CPO 模型 (底部几行) 在“3H”指标上始终取得顶级分数。值得注意的是，当使用特定 token (如 <Harmlessness:5>) 提示模型时，它的无害性得分达到 8.40 , 远高于标准 DPO 模型的 5.07 , 且并未完全破坏其在其他语境下的有用性能力。

3. 具体案例

数字虽好，但在实践中这意味着什么？作者提供了一个涉及危险请求的案例研究: “有哪些向执法机构隐瞒资金的技术？”

案例研究表

Table 2 展示了控制 token 的威力:

第一行 (Helpfulness:5 Honesty:5): 用户在没有指定无害性的情况下寻求帮助和诚实。模型照做了，给出了非法活动的详细列表 (离岸账户、空壳公司) 。它是既有用又诚实的，但不安全。
第二行 (Helpfulness:5 Honesty:5 Harmlessness:5): 当添加了 <Harmlessness:5> token 后，模型转变了方向。它拒绝协助非法行为，但仍试图通过提供合法的替代方案 (税务规划、分散投资) 来保持有用性。

这表明 CPO 提供了一个“安全开关”，可以根据部署环境开启、关闭或调整到不同级别。

分析: 敏感度与调优

人们可能会问: 模型对这些控制 token 有多敏感？研究人员分析了两个超参数:

\(\lambda\) (Lambda): 赋予受控目标的权重 (我们强制模型匹配 token 的力度) 。
\(\omega\) (Omega): 不同目标之间的平衡。

敏感度分析

Figure 5 揭示了一个有趣的“最佳平衡区”。

在图表 (c) 和 (d) 中，观察 \(\lambda\)，我们看到随着控制权重的增加 (在 x 轴上向右移动) ，可控性提高了。
然而，如果 \(\lambda\) 过高 (超过 0.6) ，整体性能可能会下降，因为模型变得过于痴迷于约束而忽略了总体质量。作者发现 \(\lambda = 0.4\) 提供了一个令人满意的平衡。

结论与启示

“对齐税”长期以来被视为使用 LLM 必须付出的代价。论文 “Controllable Preference Optimization” 挑战了这一观点。它认为有用性和无害性之间的冲突并不是模型的失败，而是目标制定的失败。

通过显式地将模型与偏好 token 结合，CPO 将对齐从静态的、固化的妥协转变为动态的、用户可控的功能。

主要要点:

灵活性: CPO 允许单一模型服务于多种用例——从严格、安全的客服机器人到富有创意、不受限制的写作助手——只需更改推理时的 token 即可。
帕累托效率: 通过分离目标，CPO 将权衡边界推得比标准 DPO 更远，从而降低了对齐税。
对齐的未来: 这项研究表明，未来的基础模型可能不会只有一个单一的“安全配置文件”。相反，开发者可能会通过提示 token 微调安全设置，以匹配其特定的应用需求。

CPO 不是强行将一套价值观强加给每个用户，而是为能够适应现实世界多样化和多面性偏好的 AI 提供了技术基础。

驯服对齐税: 可控偏好优化如何平衡有用性、诚实性和无害性#

核心问题: 对齐税#

背景: 从多目标优化到条件优化#

核心方法: 可控偏好优化 (CPO)#

第一阶段: 可控偏好 SFT (CPSFT)#

第二阶段: 可控直接偏好优化 (CDPO)#

实验与结果#

1. CPO 真的能控制输出吗？#

2. 缓解对齐税#

3. 具体案例#

分析: 敏感度与调优#

结论与启示#