DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能
在大语言模型 (LLM) 飞速发展的世界中,我们见证了诸如 GPT-4 和 Gemini 这样的巨头展现出惊人的能力,从创作诗歌到解决复杂的编程问题,无所不能。但仅有原始的智能是不够的;这些模型需要与人类的意图对齐 (aligned) 。 我们希望它们不仅有用,而且无害、诚实。
实现这一目标的标准方法是通过人类反馈强化学习 (RLHF) 。 这一过程的核心组件是奖励模型 (Reward Model, RM) ——一个为 AI 回复打分的数字法官。
但这里存在一个瓶颈。训练一个优秀的奖励模型需要大量的“偏好数据” (即让人类查看两个答案并选出更好的一个) 。如果你正在构建一个通用的聊天机器人,这还在可控范围内。但如果你想要一个精通高等微积分或 C++ 编程的奖励模型呢?你需要领域专家来标注这些数据,这不仅极其昂贵,而且速度缓慢。
DogeRM (Domain knowledge merged Reward Model,领域知识融合奖励模型) 应运而生。
在国立台湾大学最近发表的一篇论文中,研究人员提出了一种巧妙的“技巧”,以绕过对昂贵的特定领域偏好数据的需求。他们的方法是什么?将一个通用的奖励模型与一个特定领域的专家模型进行合并。
在这篇文章中,我们将拆解 DogeRM 论文。我们将探讨它是如何工作的,合并背后的数学原理,以及为什么这可能代表了专业化 AI 对齐的未来。
背景: RLHF 的瓶颈
要理解为什么需要 DogeRM,我们首先需要看看奖励模型是如何构建的。
在标准的 RLHF 流程中,我们训练一个模型来充当法官。我们要给它一个用户指令 (\(x\)) 和两个可能的回复: 一个“被选中”的回复 (\(y_c\)) 和一个“被拒绝”的回复 (\(y_r\)) 。模型需要为这些回复分配一个标量分数,使得被选中的回复得分高于被拒绝的回复。
用于训练该模型的损失函数如下所示:

在这里,\(r(x, y)\) 是奖励分数。目标是最大化好答案与坏答案之间分数的差异。
问题所在: “专家”缺口
收集通用数据 (例如,“写一个蛋糕食谱”) 很容易。众包工作者可以告诉你哪个食谱看起来更好。
然而,收集特定领域的数据很难。
- 数学: 谁来决定哪个复杂的证明更优雅?数学家。
- 代码: 谁来决定哪个 Python 函数更高效且无 Bug?高级开发人员。
专家的时间是昂贵的。结果就是,大多数开源奖励模型都是“通才”。它们擅长判断语气和安全性,但往往无法捕捉代码中的细微 Bug 或逻辑错误。
DogeRM 假设
研究人员问了一个简单的问题: 既然我们已经拥有了精通数学和代码的开源模型 (监督微调模型,即 SFT 模型) ,我们能不能直接把它们的“大脑”注入到一个通用的奖励模型中?
DogeRM 不再使用昂贵的数据从头开始训练新的 RM,而是合并了通用奖励模型与特定领域 SFT 模型的权重。
方法论: 合并大脑
DogeRM 论文的核心是模型合并 (Model Merging) 。 这是一种技术,通过数学方法结合两个不同神经网络的权重 (参数) ,创建一个 (希望能) 保留两者技能的单一模型。
架构
该框架出奇地直观。想象两个“Llama”模型 (参考论文中使用的 LLaMA 架构) :
- 法官 (通用 RM) : 知道人类通常喜欢什么 (礼貌、结构) 。
- 专家 (领域 SFT) : 知道如何解方程或写循环。
DogeRM 将它们混合在一起,创造了一个领域 RM 。

如上图 1 所示,该过程获取“通用 RM”和“领域 SFT”并合并它们的参数。结果是一个不仅能根据语气,还能根据正确性来评判数学问题的模型。
逐步数学合并
让我们分解合并的实现过程。我们从两个基于相同基座 (例如 LLaMA-2-7B) 初始化的模型开始。
1. 定义参数
首先,我们识别领域专家 (SFT) 模型的参数:

这个集合包括嵌入层 (\(\theta_{emb}\)) 、Transformer 层 (\(\theta_{trans}\)) 和解码头 (\(\theta_{dec}\)) 。
接下来,我们看看通用奖励模型 (RM) :

注意这里的一个关键区别: RM 有一个回归头 (regression head) (\(\theta_{reg}\)) 而不是解码头。这个头部负责输出数值评分。
2. 合并嵌入
第一步是合并词汇表嵌入。由于两个模型在各自微调过程中可能见过略有不同的数据,它们对特定 Token 的理解可能不同。
对于两个模型中都存在的 Token (\(t_i\)) ,DogeRM 使用由超参数 \(\lambda\) (lambda) 控制的加权平均:

在这里,\(\lambda\) 代表我们对领域专家 (SFT) 的信任程度。
- 如果 \(\lambda = 1\),我们就变成了 SFT 模型。
- 如果 \(\lambda = 0\),我们保持为通用 RM。
对于某个模型独有的 Token (也许数学模型学到了一个新符号) ,该方法简单地保留原样:

3. 合并 Transformer 层
模型的“大脑”在于 Transformer 层。这是推理发生的地方。DogeRM 对这些层应用相同的线性插值 (加权平均) :

这是最关键的一步。通过平均权重,研究人员实际上是在将数学专家的“神经通路”覆盖到法官之上。
4. 组装最终的 DogeRM
最后,我们组装合并后的模型。我们取合并后的嵌入、合并后的 Transformer 层,以及——至关重要的是——我们保留原始奖励模型的回归头。

我们必须使用 RM 的回归头,因为 SFT 模型没有这个头部 (它被训练来生成文本,而不是分数) 。这个回归头充当接口,将合并模型的“想法”转化为奖励分数。
实验设置
为了证明这一点行之有效,作者进行了广泛的实验。
- 基础模型: 他们使用了 LLaMA-2-7B 和 Mistral-7B。
- 通用 RM: 在 UltraFeedback 数据集上训练。
- 领域专家:
- *数学: * MetaMath-7B, MAmmoTH-7B。
- *代码: * 一个自定义微调的 LLaMA 模型 (使用 OSS-Instruct 和 Magicoder) 。
- 评估: 他们在 RewardBench 和 Auto-J Eval 等基准上测试了模型。他们还在 GSM8K (数学) 和 MBPP (代码) 上进行了“Best-of-N”采样。
结果: 真的有效吗?
结果令人印象深刻。仅仅通过合并权重——不需要在偏好数据上进行任何额外训练——模型在评判特定领域任务时变得更加出色。
基准测试表现
让我们看看表 1。这对比了基础 LLaMA-2 奖励模型与合并了 MetaMath、MAmmoTH 和代码模型的 DogeRM 版本。

数据中的关键结论:
- 推理能力提升: 查看 RewardBench 下的“Reasoning” (推理) 列。基础模型 (行 a) 得分为 78.9 。 合并后的模型 (行 d, e, f) 跃升至 85.7、84.1 和 84.3 。 这是一个巨大的提升。
- 领域专精: 与数学模型 (MetaMath) 合并在数学任务中提升最大。与代码模型合并在代码任务中效果最好。这证实了领域知识被成功转移的假设。
- 无灾难性遗忘: 重要的是,“Chat” (通用对话) 的表现保持在很高水平 (大约 95-96%) 。模型并没有因为它学会了数学就在通用对话方面变“笨”。
Best-of-N 采样
基准测试固然好,但奖励模型真的能帮助 AI 生成更好的答案吗?为了测试这一点,研究人员使用了 Best-of-N 采样 。
- 工作原理: AI 对一个问题生成 \(N\) 个不同的答案。奖励模型对所有答案进行打分并选出获胜者。如果奖励模型足够聪明,它就会选出正确的答案,从而有效提高 AI 的成功率。

在 图 2 (a) (左图) 中,红色和橙色线代表 DogeRM。随着我们生成更多回复 (在 x 轴上向右移动) ,GSM8K 数学数据集上的准确率显著攀升,远高于基线 (绿线) 。
这意味着当 DogeRM 看到正确的数学答案时,它能更好地识别出来。
“最佳平衡点” (\(\lambda\))
你可能会想: “混合比例多少最合适?”研究人员分析了 \(\lambda\) (给予领域专家的权重) 的影响。

观察上面的图表:
- 峰值: 当 \(\lambda\) 在 0.2 到 0.5 之间时,准确率通常达到峰值。
- 下降: 如果 \(\lambda\) 太高 (接近 1.0) ,性能会崩溃。这是合理的——如果 \(\lambda=1\),模型就完全变成了 SFT 专家。SFT 专家不知道如何做奖励模型 (它不知道如何使用回归头) ,所以它会输出垃圾分数。
你需要足够的领域专家权重来获取知识,但也需要足够的通用 RM 权重来保持“评判”能力。
泛化到其他架构
团队不仅在 LLaMA-2 上进行了测试。他们还在 Mistral 模型上测试了该方法。

如 图 11 所示,基于 Mistral 的 DogeRM (与 MAmmoTH2-Plus 合并) 显示了类似的改进,特别是在数学领域 (中间图表) ,证明了该技术与架构无关。
为什么这很重要
DogeRM 论文为 AI 对齐的未来描绘了一个令人信服的蓝图。
- 成本效益: 我们可以利用 HuggingFace 上成千上万的开源微调模型来构建更好的奖励模型,而无需在新的数据标注上花一分钱。
- 模块化: 需要医疗建议的奖励模型?只需将你的通用 RM 与医疗 LLM 合并。需要法律方面的?与法律 LLM 合并。
- 简单性: 该方法不需要复杂的训练流程——只需对模型权重进行简单的算术运算。
结论
DogeRM 证明了我们并不总是需要从头开始。通过策略性地将特定领域模型的“推理”能力与奖励模型的“评判”结构相结合,我们可以创建既对齐又博学的 AI 系统。
随着我们迈向更专业的 AI 智能体,像 DogeRM 这样的技术很可能会成为为通才模型装备专家眼光的标准做法。
欲了解更多详情,请查阅完整论文: “DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging”。
](https://deep-paper.org/en/paper/2407.01470/images/cover.png)