礼貌的代价：如何在不让 LLM 遗忘的情况下进行对齐

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 之所以引人注目，不仅因为它们能够生成文本，更因为它们能够遵循指令并遵守人类价值观——这一过程被称为“对齐” (Alignment) 。然而，这种对齐是有隐性成本的。当我们使用基于人类反馈的强化学习 (RLHF) 来教导模型变得“有用、诚实且无害”时，往往会导致灾难性遗忘 (catastrophic forgetting) 。模型可能变得彬彬有礼，但它在翻译、阅读理解或常识推理方面的表现却突然下降了。

这种现象被称为对齐税 (Alignment Tax) 。

在这篇文章中，我们将深入探讨一篇题为 *“Mitigating the Alignment Tax of RLHF” (缓解 RLHF 的对齐税) * 的精彩论文。我们将剖析为什么会存在这种税，为什么传统方法无法修复它，以及一种令人惊讶的简单技术——模型平均 (Model Averaging) , 配合一种名为异构模型平均 (Heterogeneous Model Averaging, HMA) 的新颖方法，是如何提供最先进的解决方案的。

问题所在: 对齐 vs. 能力

要理解对齐税，我们首先需要了解现代 LLM 的标准训练流程。它通常包含三个阶段:

预训练 (Pre-training) : 模型通过消耗大量数据来学习通用的语言能力 (\(\theta_{pre}\)) 。
指令微调 (SFT) : 模型在指令-响应对上进行微调，学习如何遵循命令 (\(\theta_0\)) 。
RLHF: 利用人类偏好进一步微调模型以最大化奖励函数，确保安全性与有用性 (\(\theta\)) 。

冲突发生在第 3 阶段。随着模型针对人类偏好奖励 (变得友善和安全) 进行优化，其权重会偏离那些使其擅长特定 NLP 任务 (变得聪明) 的配置。

RLHF 流程示意图。图表显示了从预训练模型到指令微调，最后到 RLHF 的过程。下方红圈标出了“遗忘 (对齐税) ”，显示有用性提升了 56%，但代价是常识下降 5%，翻译下降 45%，理解能力下降 15%。

如图 1 所示，这种权衡是严峻的。“有用性”提高 56% 可能要付出翻译能力下降 45% 的惊人代价。这就是对齐-遗忘权衡 (Alignment-Forgetting Trade-off) 。

缓解策略的现状

研究人员尝试了多种方法来减少这种“税”。大多数技术属于正则化或“保持接近原始模型”的策略。其目标是最大化奖励 \(r^*(x, a)\)，同时保持新模型 \(\theta\) 与原始模型 \(\theta_0\) 接近。

常见的方法包括:

早停 (Early Stopping) : 在模型改变过多之前简单地停止 RLHF 过程。
权重正则化 (L1/L2) : 基于新旧权重的距离，在损失函数中添加惩罚项。
知识蒸馏 (Knowledge Distillation) : 强制新模型的输出分布与旧模型的分布相匹配。
LoRA (低秩自适应) : 冻结主模型，仅训练小的适配器层。

然而，正如研究人员发现的那样，这些方法往往导致严格的妥协。要么你保留了模型的智力但未能正确对齐；要么你对齐得很好，但模型变“笨”了。

对比正则化-L1/L2、LoRA 和早停等各种方法的图表。X 轴代表对齐奖励，Y 轴分别代表阅读理解、常识问答和翻译性能。大多数方法显示随着奖励增加，任务性能下降。

图 3 展示了这种挫折感。大多数方法 (彩色线条) 都呈下降趋势: 随着奖励 (X 轴) 上升，任务性能 (Y 轴) 下降。然而，请注意标记为 MA (RSF) 的橙色线。它始终位于其他线条之上，提供了更好的帕累托前沿。这就是模型平均 (Model Averaging) , 也是这篇论文贡献的基础。

模型平均的惊人威力

模型平均 (MA) 在概念上非常简单。你取 RLHF 之前的模型权重 (\(\theta_0\)) 和 RLHF 之后的模型权重 (\(\theta\)) ，并使用比率 \(\alpha \in [0, 1]\) 对它们进行线性插值。

\[ \theta_{avg} = \alpha \theta + (1 - \alpha) \theta_0 \]

如果 \(\alpha=1\)，你得到的是完全对齐 (但健忘) 的模型。如果 \(\alpha=0\)，你得到的是聪明 (但未对齐) 的模型。令人惊讶的是，混合模型 (例如 \(\alpha=0.5\)) 在保留高对齐奖励的同时，恢复了很大一部分失去的能力。

为什么模型平均有效？

作者利用分布外 (OOD) 泛化理论提供了一个理论框架来解释这一点。核心洞察围绕着特征多样性 (Feature Diversity) 展开。

当神经网络学习两个不同的任务 (例如，任务 A 是翻译，任务 B 是对齐) 时，它会为每个任务学习特定的特征。

重叠特征 (Overlapped Features) : 某些特征对两个任务都有用 (例如，基本语法、词义) 。
任务特定特征 (Task-Specific Features) : 某些特征仅对其中一个任务有用。

理论分析表明，模型平均有效地增加了任务共享重叠特征空间的层中的“特征多样性”。通过平均，我们实际上是在集成 RLHF 前和 RLHF 后模型的特征检测器。

至关重要的是，平均的有效性取决于任务的相似性 。

高相似性: 如果任务 A 和任务 B 相似，它们的特征空间重叠显著。平均可以通过使特征表示更鲁棒来提升性能。
低相似性: 如果任务是不相交的，平均可能会稀释两者的专用特征，对谁都没好处。

这一理论引出了一个关键假设: Transformer 的不同层处理不同层级的抽象。

低层 (输入层) 倾向于处理语法和基本语义——这是几乎所有语言任务共享的特征。
高层 (输出层) 倾向于更具任务特异性 (例如，安全拒绝的具体格式 vs. 翻译句子) 。

实证验证: 逐层分析

为了验证这一点，研究人员将 Transformer 分为三个部分: 输入 (Input) 、中间 (Middle) 和输出 (Output) 。他们尝试仅平均其中一部分，同时保持其他部分完全对齐。

左图: 显示模型分为输入、中间和输出部分的示意图。右图: 显示阅读理解与 RLHF 奖励关系的图表。绿线 (输入部分 MA) 显示出与输出部分 MA 截然不同的曲线。

图 4 的结果证实了这一理论。平均输入部分 (绿线) 的表现与平均输出部分 (紫线) 截然不同。具体来说，平均低层 (输入) 比高层更好地保留了能力 (在奖励和任务上都有“神奇”的提升) ，这可能是因为低层包含了那些对对齐和推理都有益的共享基础语言特征。

解决方案: 异构模型平均 (HMA)

上述观察结果——即不同层对对齐-遗忘权衡的贡献不同——意味着对整个模型使用单一的混合比率 \(\alpha\) 是次优的。

作者提出了异构模型平均 (Heterogeneous Model Averaging, HMA) 。 HMA 不是使用单一标量 \(\alpha\)，而是为模型的每个块 \(k\) 分配唯一的混合比率 \(\alpha_k\)。

异构模型平均的示意图。它显示模型分为三个块: 输入、中间和输出。每个块都有独特的混合方程，例如输入块为 0.7<em>theta_0 + 0.3</em>theta，后续块则使用不同的比率。

如图 2 所示，输入部分可能使用 0.3 的比率混合，而输出部分使用 0.7。这允许模型在低层 (重叠度高的地方) 保留强大的预训练特征，同时允许高层更积极地适应对齐任务。

形式上，对于 \(K\) 个部分，合并模型的第 \(k\) 部分定义为:

定义第 k 部分合并参数 theta(K) 的方程，它是对齐模型 theta 和初始模型 theta_0 使用比率 alpha_k 的加权和。

优化比率

我们如何找到完美的比率集合 \((\alpha_1, ..., \alpha_K)\)？我们不可能对每种可能的组合都运行 RLHF 训练——这在计算上是不可能的。

相反，作者使用了一种巧妙的代理蒸馏 (proxy distillation) 方法。

取完全对齐的模型 \(\theta\)。
使用该模型生成响应数据集 \(\mathcal{D}_\theta\)。由于 \(\theta\) 是已对齐的，这些响应具有高奖励。
优化混合比率 \((\alpha_1, ..., \alpha_K)\)，以最大化生成这些高奖励响应的可能性。

优化目标变为:

最大化目标函数。它在比率集合 Omega 上，最大化给定异构合并模型 theta(K) 时数据 D_theta 的对数概率之和。

这实际上将混合比率视为可训练参数，优化它们以捕捉对齐行为，同时约束 (通过平均结构保持接近基础模型) 减轻了遗忘。

实验与关键结果

研究人员在两个主要模型系列 (OpenLLaMA-3B 和 Mistral-7B) 以及三种不同的 RLHF 算法上验证了 HMA:

RSF (拒绝采样微调)
PPO (近端策略优化)
DPO (直接偏好优化)

HMA vs. 普通模型平均

成功的主要衡量标准是帕累托前沿 (Pareto Frontier) 。我们希望曲线尽可能位于右上方 (高奖励 + 高任务性能) 。

HMA 与 MA 的对比图。上图: RSF 算法结果显示 HMA (红线) 始终优于 MA (橙线) 。下图: DPO 算法结果显示类似趋势，在相同的奖励水平下，HMA 保持了更高的阅读理解分数。

图 5 展示了 HMA 的优越性。

上图 (RSF): 红线 (HMA) 始终位于橙线 (标准 MA) 之上。在相同的对齐奖励水平下，HMA 保留了显著更高的阅读理解分数。
下图 (DPO): 即使对于直接偏好优化，这一趋势也成立。HMA 推动了可能的边界，使得在能力损失方面实现“更廉价”的对齐成为可能。

泛化到更大的模型 (Mistral-7B)

为了确保这不仅仅是较小模型的特例，他们将 HMA 应用于 Zephyr-7B-beta 模型 (Mistral 的 DPO 对齐版本) 。他们使用 GPT-4 作为评判 (AlpacaEval 2.0 胜率) 和标准 NLP 基准进行了评估。

表格比较了 Zephyr-7B-beta 和 Zephyr-7B-Gemma 与 HMA 版本。HMA 版本在胜率、阅读理解分数、常识准确率和翻译 BLEU 分数上均全面提升。

表 1 特别能说明问题。增强了 HMA 的 Zephyr 模型实现了 9.32% 的胜率 (原版为 8.10%) ，同时同步提高了阅读理解、常识和翻译分数。这与通常的权衡定律相悖: HMA 同时提升了对齐 (胜率) 和能力。

结论与启示

长期以来，“对齐税”一直被视为使用 LLM 不可避免的经营成本。如果你想要一个安全的模型，你就必须接受一个稍微笨一点的模型。

这项研究挑战了这一假设。它揭示了:

灾难性遗忘不是均匀的: Transformer 的不同层以不同的方式遗忘，并对对齐有不同的贡献。
模型平均很强大: 简单的插值胜过复杂的正则化技术。
异构性是关键: 通过 HMA 区别对待不同层，我们可以主动管理这种权衡。

对于学生和从业者来说，这提供了一个实用的、计算效率高的工具。HMA 不需要从头开始重新训练模型；它在训练之后对权重进行操作，找到最佳组合以恢复丢失的知识。随着模型变得越来越大，对齐变得越来越重要，像 HMA 这样的技术对于确保我们的 AI 助手不仅礼貌，而且聪明，将是至关重要的。

问题所在: 对齐 vs. 能力#

缓解策略的现状#

模型平均的惊人威力#

为什么模型平均有效？#

实证验证: 逐层分析#

解决方案: 异构模型平均 (HMA)#

优化比率#

实验与关键结果#

HMA vs. 普通模型平均#

泛化到更大的模型 (Mistral-7B)#

结论与启示#