DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能

在大语言模型 (LLM) 飞速发展的世界中，我们见证了诸如 GPT-4 和 Gemini 这样的巨头展现出惊人的能力，从创作诗歌到解决复杂的编程问题，无所不能。但仅有原始的智能是不够的；这些模型需要与人类的意图对齐 (aligned) 。我们希望它们不仅有用，而且无害、诚实。

实现这一目标的标准方法是通过人类反馈强化学习 (RLHF) 。这一过程的核心组件是奖励模型 (Reward Model, RM) ——一个为 AI 回复打分的数字法官。

但这里存在一个瓶颈。训练一个优秀的奖励模型需要大量的“偏好数据” (即让人类查看两个答案并选出更好的一个) 。如果你正在构建一个通用的聊天机器人，这还在可控范围内。但如果你想要一个精通高等微积分或 C++ 编程的奖励模型呢？你需要领域专家来标注这些数据，这不仅极其昂贵，而且速度缓慢。

DogeRM (Domain knowledge merged Reward Model，领域知识融合奖励模型) 应运而生。

在国立台湾大学最近发表的一篇论文中，研究人员提出了一种巧妙的“技巧”，以绕过对昂贵的特定领域偏好数据的需求。他们的方法是什么？将一个通用的奖励模型与一个特定领域的专家模型进行合并。

在这篇文章中，我们将拆解 DogeRM 论文。我们将探讨它是如何工作的，合并背后的数学原理，以及为什么这可能代表了专业化 AI 对齐的未来。

背景: RLHF 的瓶颈

要理解为什么需要 DogeRM，我们首先需要看看奖励模型是如何构建的。

在标准的 RLHF 流程中，我们训练一个模型来充当法官。我们要给它一个用户指令 (\(x\)) 和两个可能的回复: 一个“被选中”的回复 (\(y_c\)) 和一个“被拒绝”的回复 (\(y_r\)) 。模型需要为这些回复分配一个标量分数，使得被选中的回复得分高于被拒绝的回复。

用于训练该模型的损失函数如下所示:

奖励模型损失函数方程。

在这里，\(r(x, y)\) 是奖励分数。目标是最大化好答案与坏答案之间分数的差异。

问题所在: “专家”缺口

收集通用数据 (例如，“写一个蛋糕食谱”) 很容易。众包工作者可以告诉你哪个食谱看起来更好。

然而，收集特定领域的数据很难。

数学: 谁来决定哪个复杂的证明更优雅？数学家。
代码: 谁来决定哪个 Python 函数更高效且无 Bug？高级开发人员。

专家的时间是昂贵的。结果就是，大多数开源奖励模型都是“通才”。它们擅长判断语气和安全性，但往往无法捕捉代码中的细微 Bug 或逻辑错误。

DogeRM 假设

研究人员问了一个简单的问题: 既然我们已经拥有了精通数学和代码的开源模型 (监督微调模型，即 SFT 模型) ，我们能不能直接把它们的“大脑”注入到一个通用的奖励模型中?

DogeRM 不再使用昂贵的数据从头开始训练新的 RM，而是合并了通用奖励模型与特定领域 SFT 模型的权重。

方法论: 合并大脑

DogeRM 论文的核心是模型合并 (Model Merging) 。这是一种技术，通过数学方法结合两个不同神经网络的权重 (参数) ，创建一个 (希望能) 保留两者技能的单一模型。

架构

该框架出奇地直观。想象两个“Llama”模型 (参考论文中使用的 LLaMA 架构) :

法官 (通用 RM) : 知道人类通常喜欢什么 (礼貌、结构) 。
专家 (领域 SFT) : 知道如何解方程或写循环。

DogeRM 将它们混合在一起，创造了一个领域 RM 。

图 1: DogeRM 的框架，展示了将通用 RM 与特定领域 LM 合并以创建特定领域 RM 的过程。本图中使用的所有图标均来自 https://www.flaticon.com/。

如上图 1 所示，该过程获取“通用 RM”和“领域 SFT”并合并它们的参数。结果是一个不仅能根据语气，还能根据正确性来评判数学问题的模型。

逐步数学合并

让我们分解合并的实现过程。我们从两个基于相同基座 (例如 LLaMA-2-7B) 初始化的模型开始。

1. 定义参数

首先，我们识别领域专家 (SFT) 模型的参数:

定义 SFT 模型参数的方程。

这个集合包括嵌入层 (\(\theta_{emb}\)) 、Transformer 层 (\(\theta_{trans}\)) 和解码头 (\(\theta_{dec}\)) 。

接下来，我们看看通用奖励模型 (RM) :

定义 RM 参数的方程。

注意这里的一个关键区别: RM 有一个回归头 (regression head) (\(\theta_{reg}\)) 而不是解码头。这个头部负责输出数值评分。

2. 合并嵌入

第一步是合并词汇表嵌入。由于两个模型在各自微调过程中可能见过略有不同的数据，它们对特定 Token 的理解可能不同。

对于两个模型中都存在的 Token (\(t_i\)) ，DogeRM 使用由超参数 \(\lambda\) (lambda) 控制的加权平均:

合并共享 Token 嵌入的方程。

在这里，\(\lambda\) 代表我们对领域专家 (SFT) 的信任程度。

如果 \(\lambda = 1\)，我们就变成了 SFT 模型。
如果 \(\lambda = 0\)，我们保持为通用 RM。

对于某个模型独有的 Token (也许数学模型学到了一个新符号) ，该方法简单地保留原样:

处理唯一 Token 嵌入的方程。

3. 合并 Transformer 层

模型的“大脑”在于 Transformer 层。这是推理发生的地方。DogeRM 对这些层应用相同的线性插值 (加权平均) :

合并 Transformer 层的方程。

这是最关键的一步。通过平均权重，研究人员实际上是在将数学专家的“神经通路”覆盖到法官之上。

4. 组装最终的 DogeRM

最后，我们组装合并后的模型。我们取合并后的嵌入、合并后的 Transformer 层，以及——至关重要的是——我们保留原始奖励模型的回归头。

最终合并模型组装的方程。

我们必须使用 RM 的回归头，因为 SFT 模型没有这个头部 (它被训练来生成文本，而不是分数) 。这个回归头充当接口，将合并模型的“想法”转化为奖励分数。

实验设置

为了证明这一点行之有效，作者进行了广泛的实验。

基础模型: 他们使用了 LLaMA-2-7B 和 Mistral-7B。
通用 RM: 在 UltraFeedback 数据集上训练。
领域专家:
*数学: * MetaMath-7B, MAmmoTH-7B。
*代码: * 一个自定义微调的 LLaMA 模型 (使用 OSS-Instruct 和 Magicoder) 。
评估: 他们在 RewardBench 和 Auto-J Eval 等基准上测试了模型。他们还在 GSM8K (数学) 和 MBPP (代码) 上进行了“Best-of-N”采样。

结果: 真的有效吗？

结果令人印象深刻。仅仅通过合并权重——不需要在偏好数据上进行任何额外训练——模型在评判特定领域任务时变得更加出色。

基准测试表现

让我们看看表 1。这对比了基础 LLaMA-2 奖励模型与合并了 MetaMath、MAmmoTH 和代码模型的 DogeRM 版本。

表 1: 各基准测试的性能比较。

数据中的关键结论:

推理能力提升: 查看 RewardBench 下的“Reasoning” (推理) 列。基础模型 (行 a) 得分为 78.9 。合并后的模型 (行 d, e, f) 跃升至 85.7、84.1 和 84.3 。这是一个巨大的提升。
领域专精: 与数学模型 (MetaMath) 合并在数学任务中提升最大。与代码模型合并在代码任务中效果最好。这证实了领域知识被成功转移的假设。
无灾难性遗忘: 重要的是，“Chat” (通用对话) 的表现保持在很高水平 (大约 95-96%) 。模型并没有因为它学会了数学就在通用对话方面变“笨”。

Best-of-N 采样

基准测试固然好，但奖励模型真的能帮助 AI 生成更好的答案吗？为了测试这一点，研究人员使用了 Best-of-N 采样 。

工作原理: AI 对一个问题生成 \(N\) 个不同的答案。奖励模型对所有答案进行打分并选出获胜者。如果奖励模型足够聪明，它就会选出正确的答案，从而有效提高 AI 的成功率。

图 2: Best-of-N 结果显示准确率提升。

在 图 2 (a) (左图) 中，红色和橙色线代表 DogeRM。随着我们生成更多回复 (在 x 轴上向右移动) ，GSM8K 数学数据集上的准确率显著攀升，远高于基线 (绿线) 。

这意味着当 DogeRM 看到正确的数学答案时，它能更好地识别出来。

“最佳平衡点” (\(\lambda\))

你可能会想: “混合比例多少最合适？”研究人员分析了 \(\lambda\) (给予领域专家的权重) 的影响。

图 3: 不同 lambda 值对 RewardBench 的影响。

观察上面的图表:

峰值: 当 \(\lambda\) 在 0.2 到 0.5 之间时，准确率通常达到峰值。
下降: 如果 \(\lambda\) 太高 (接近 1.0) ，性能会崩溃。这是合理的——如果 \(\lambda=1\)，模型就完全变成了 SFT 专家。SFT 专家不知道如何做奖励模型 (它不知道如何使用回归头) ，所以它会输出垃圾分数。

你需要足够的领域专家权重来获取知识，但也需要足够的通用 RM 权重来保持“评判”能力。

泛化到其他架构

团队不仅在 LLaMA-2 上进行了测试。他们还在 Mistral 模型上测试了该方法。

图 11: Mistral RM + MAmmoTH2-Plus 在 Reward Bench 上的完整结果。

如 图 11 所示，基于 Mistral 的 DogeRM (与 MAmmoTH2-Plus 合并) 显示了类似的改进，特别是在数学领域 (中间图表) ，证明了该技术与架构无关。

为什么这很重要

DogeRM 论文为 AI 对齐的未来描绘了一个令人信服的蓝图。

成本效益: 我们可以利用 HuggingFace 上成千上万的开源微调模型来构建更好的奖励模型，而无需在新的数据标注上花一分钱。
模块化: 需要医疗建议的奖励模型？只需将你的通用 RM 与医疗 LLM 合并。需要法律方面的？与法律 LLM 合并。
简单性: 该方法不需要复杂的训练流程——只需对模型权重进行简单的算术运算。

结论

DogeRM 证明了我们并不总是需要从头开始。通过策略性地将特定领域模型的“推理”能力与奖励模型的“评判”结构相结合，我们可以创建既对齐又博学的 AI 系统。

随着我们迈向更专业的 AI 智能体，像 DogeRM 这样的技术很可能会成为为通才模型装备专家眼光的标准做法。

欲了解更多详情，请查阅完整论文: “DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging”。

DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能#

背景: RLHF 的瓶颈#

问题所在: “专家”缺口#

DogeRM 假设#

方法论: 合并大脑#

架构#

逐步数学合并#

实验设置#

结果: 真的有效吗？#

基准测试表现#

Best-of-N 采样#

“最佳平衡点” (\(\lambda\))#

泛化到其他架构#

为什么这很重要#

结论#