引言

在当前的人工智能领域，大语言模型 (LLMs) 已经取得了明星般的地位。像 GPT-4、Claude 和 Gemini 这样的模型可以写诗、用 Python 编程，甚至总结复杂的法律文件。然而，这种光辉背后有一个隐藏的代价: 对齐 (Alignment) 。

预训练模型在默认情况下是难以驾驭的文本补全工具。为了让它们成为遵循指令并避免输出有害内容的有用助手，它们必须经历一个称为对齐的过程，通常涉及基于人类反馈的强化学习 (RLHF) 。这一过程需要海量的数据集，其中人类会对模型的输出进行评分 (例如，“回答 A 比回答 B 好”) 。

问题就出在这里: 语言鸿沟。

收集高质量的人类偏好数据既昂贵又耗时。因此，绝大多数此类数据都是英语的。如果你想构建一个安全的、经过对齐的越南语、土耳其语或斯瓦希里语聊天机器人，你通常会面临“冷启动”问题——你根本没有标记数据来训练对齐 AI 所需的奖励模型。

但是，如果你不需要这些数据呢？

在一篇题为 “Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment” (复用你的奖励: 用于零样本跨语言对齐的奖励模型迁移) 的精彩论文中，来自麻省理工学院 (MIT) 和 Google DeepMind 的研究人员提出了一个反直觉的解决方案。他们问道: 我们能否使用一个基于英语偏好训练的奖励模型，来对齐一个生成西班牙语、德语或俄语文本的模型？

答案是肯定的。在这篇文章中，我们将剖析这项研究，了解我们如何通过“复用奖励”来实现跨语言的安全 AI 普及。

背景: 对齐流程

要理解为什么这种跨语言迁移如此令人印象深刻，我们首先需要了解对齐 LLM 的标准配方。这通常分三个阶段进行:

有监督微调 (SFT) : 我们采用原始的、预训练的基础模型 (它只会预测下一个单词) ，并使用“指令 \(\rightarrow\) 回答”对的数据集对其进行训练。这教会了模型有用助手的格式。我们将此模型表示为 \(\pi_{\text{SFT}}\)。
奖励建模 (RM) : 这是评论家。我们训练一个单独的模型 \(r(x, y)\)，它观察输入提示 \(x\) 和回答 \(y\)，并输出一个标量分数，表示回答的“好坏”程度。这个模型是基于人类偏好数据 (人类在两个选项中选出胜者) 训练的。
奖励优化: 我们使用奖励模型来更新 SFT 模型。我们鼓励模型生成能从 RM 获得高分的回答。这通常通过强化学习 (特别是 PPO) 或一种称为“Best-of-N” (N 选一) 的重排序方法来完成。

数学评论家

奖励模型是多语言 AI 的瓶颈。它需要人类的判断。如果我们有逐点判断 (好 vs 坏) 的数据集，我们训练 RM 来最小化以下损失:

Equation for pointwise feedback training.

简单来说，这个方程训练模型给“好”的回答分配高概率 (\(z=1\)) ，给“坏”的回答分配低概率 (\(z=0\)) 。

更常见的是，我们使用成对反馈，即人类选择一个胜者 (\(y_w\)) 和一个败者 (\(y_l\)) 。RM 被训练来最大化胜者和败者分数之间的差距:

Equation for pairwise feedback training (Bradley-Terry model).

一旦我们有了这个 RM，我们就可以运行强化学习。RL 的目标函数旨在最大化奖励，同时确保模型不会偏离原始 SFT 模型太远 (通过 KL 散度衡量) :

Equation for Reward Optimization via Reinforcement Learning.

关键问题: 在标准设置中，如果你想要一个对齐的西班牙语模型，你需要一个西班牙语 SFT 模型和一个基于西班牙语人类偏好训练的西班牙语奖励模型。研究人员提出，我们可以跳过后者。

核心方法: 跨语言奖励迁移

研究人员提出了一种新颖的设置: 奖励模型 (RM) 迁移 。

直觉相对简单。“质量”的概念——比如有用性、安全性和连贯性——很可能是普遍的。无论摘要是用英语还是德语写的，好的摘要就是好的摘要。此外，现代基础模型 (如 PaLM 或 mT5) 是多语言的。它们将不同的语言映射到一个共享的语义空间中。

因此，一个基于英语数据训练的奖励模型本质上应该学习到一个存在于这个共享空间中的“质量函数”。如果我们给它一个西班牙语的回答，理论上它应该能够对其进行评判，即使它从未显式地在西班牙语偏好数据上进行过训练。

架构

让我们直观地看看这与传统方法有何不同。

Diagram illustrating the standard monolingual alignment versus the proposed cross-lingual reward model transfer.

如 Figure 1 所示:

单语言路径 (标准) : 你从基础 LLM 开始，执行西班牙语 SFT，训练西班牙语 RM，并输出西班牙语对齐模型。
跨语言路径 (提议) : 你执行西班牙语 SFT (使用可用数据) ，但你使用英语 RM (或其他源语言) 来指导优化。

这是一种“零样本”方法，因为奖励模型在目标语言中看到了零偏好数据。

实验与结果

研究人员在两个不同的任务上验证了这一假设:

摘要生成: 使用 Seahorse 数据集 (6 种语言: 德语、英语、西班牙语、俄语、土耳其语、越南语) 。
开放式对话: 使用 OpenAssistant 数据集 (英语、西班牙语、俄语) 。

他们使用三种裁判评估了结果:

目标语言 RMs: (理想情况下，这是该语言的“基本真理”) 。
LLM 裁判: GPT-4 和 PaLM-2-L (使用大模型作为公正的人类代理) 。
人类: 母语人士对输出进行评分。

这真的有效吗？

结果非常积极。当使用完全不同语言的奖励模型进行对齐时，生成的模型始终优于未对齐的 SFT 基线。

看看 Figure 4 中的胜率，由 PaLM-2-L 评判。

Bar charts showing win rates of aligned models against SFT models across various language pairs.

在这个图表中，“de \(\rightarrow\) en” 意味着使用德语 RM 来对齐英语模型。50% 处的虚线表示与未对齐模型打成平手。

一致性: 几乎每个条形都在 50% 以上。无论你是用越南语来对齐英语，还是用英语来对齐俄语，模型都有所改进。
幅度: 在许多情况下，跨语言模型 (深蓝色) 的表现与单语言模型 (浅灰色) 相当。

这证实了什么是一个好回答的“信号”在奖励模型中跨越了语言障碍被保留了下来。

人类的裁决

你可能会对使用 AI 给 AI 打分持怀疑态度。然而，研究人员通过人类标注员验证了这些发现。

Comparison of win rates against SFT models as judged by humans.

Figure 2 显示，人类在高达 70% 的情况下更喜欢跨语言对齐的模型，而不是基线 SFT 模型。这是强有力的证据，证明该方法不仅仅是在玩弄自动化指标的游戏——它实际上为母语人士生成了更好的文本。

惊喜: 当外国裁判表现更好时

这是论文中最惊人的发现。请仔细观察 Figure 3 。这个散点图比较了奖励模型提供的分数增长。

Scatterplots and line charts comparing same-language vs different-language reward model effectiveness.

具体来说，看看 摘要 (a) 图表。在几个实例中, 不同语言 RM (深蓝色点) 的结果比同语言 RM (浅灰色点) 更好。

为什么英语裁判在给西班牙语打分时会比西班牙语裁判更好?

研究人员假设这是由于虚假特征的正则化 (Regularization of Spurious Artifacts) 。

当你针对特定语言训练奖励模型时，它可能会过拟合该语言的表面特征 (虚假特征) 。例如，它可能学到“更长的句子”或“特定的西班牙语连接词”与更高的奖励相关联，而不管实际内容的质量如何。

如果你随后使用这个 RM 来对齐西班牙语模型，该模型本质上会“利用”这些特定的西班牙语虚假特征。

然而，一个英语 RM 并不知道西班牙语语法的表面怪癖或词汇习惯。它只能基于底层的语义含义 (“质量”嵌入) 来评判回答。它迫使模型改进回答的实质内容，而不是风格。

为了证明这一点，作者测试了 RM 的“词袋” (BoW) 属性。他们发现单语言 RM 的行为更像简单的 BoW 模型 (依赖关键字匹配) ，而跨语言 RM 则不然。跨语言迁移迫使模型变得更“深层”。

如果我们完全没有数据怎么办？ (零样本 SFT)

到目前为止，我们假设虽然我们没有偏好数据 (用于 RM) ，但我们确实有指令数据 (用于 SFT) 。但对于许多低资源语言，我们甚至可能连这个都没有。

我们可以完全依赖翻译吗？

研究人员通过使用 Google 翻译将英语 SFT 数据翻译成目标语言，然后应用跨语言 RM 迁移来测试这一点。

Bar charts comparing alignment results with and without native SFT data.

Figure 5 分解了这一点:

(a) SFT 质量: 在翻译数据上训练的未对齐 SFT 模型 (浅橙色) 通常比在原生数据上训练的模型 (深青色) 差。这是意料之中的——翻译并不完美。
(b) Best-of-N: 当使用“Best-of-N” (简单地挑选最佳样本) 时，如果 SFT 数据是翻译的，性能会显著下降。
(d) RL (PPO): 然而，当使用强化学习 (PPO) 时，差距缩小了。RL 过程允许模型在英语 RM 的强信号指导下，“修复”翻译 SFT 数据引入的一些问题。

这表明，虽然原生数据总是最好的，但你可以使用翻译的指令和英语奖励模型为一种新语言引导构建 (bootstrap) 一个不错的模型。

实践建议

如果你是一名从业者，试图为一种新语言 (比如印尼语) 对齐模型，你应该使用哪种语言作为你的奖励模型？

研究人员分析了各种语言的“可迁移性”。

Heatmaps showing the effectiveness of different source languages.

Figure 6 就像一张作弊表。列代表目标语言，行代表源 (RM) 语言。

英语 (en) 始终是顶级的贡献者。它几乎可以很好地迁移到任何语言。
高资源与成功相关: 通常，拥有更高质量数据集的语言 (如英语) 能成为更好的裁判。

结论是什么？如果你缺乏资源, 直接使用英语 RM。 它是对齐任务中稳健的“万能供体”。

分析: 为什么会这样？

研究人员进行了更深入的挖掘，以确保 RM 不仅仅是在测量一些微不足道的东西，比如长度 (即“越长越好”) 。

他们评估了 RM 的泛化能力 。他们采用源语言 RM，并让它们对目标语言的验证集进行评分。

Charts showing RM accuracy on cross-lingual validation data compared to baselines.

Figure 7 显示了这些 RM 的准确性。

跨语言 RMs (深青色) 的表现始终优于随机猜测，并且通常击败多数类基线 (虚线) 。
至关重要的是，它们的表现通常与长度基线 (点线) 相当，但对齐结果表明它们不仅仅是在学习长度。

此外，他们检查了成功是否仅仅是因为语言相似性 (例如，德语迁移到英语很好，因为它们都是日耳曼语族) 。令人惊讶的是, 语言类型学并不重要。 越南语 (一种南亚语系语言) 对英语摘要的帮助甚至超过了一些欧洲语言。

这表明基础模型的质量 (它如何在内部映射概念) 比源语言和目标语言之间的特定语言距离更重要。

结论

论文 “Reuse Your Rewards” 为多语言 AI 提供了一条充满希望的前进道路。它消除了为低资源语言创建安全、对齐模型的准入门槛。

主要收获:

你不需要目标语言的偏好数据。 一个英语奖励模型可以有效地对齐西班牙语、土耳其语或俄语模型。
跨语言对齐起到了正则化的作用。 它可以防止模型过拟合于特定语言的怪癖，有时会比原生对齐产生更好的结果。
英语是一个安全的选择。 当有疑问时，英语 RM 可以作为一个优秀的通用质量代理。

通过利用预训练模型的多语言能力，我们可以“回收利用”在英语对齐上投入的巨大努力，以服务于世界其他地区。这使我们离构建一个不仅智能，而且对每个人都同样安全和有用的 AI 生态系统更近了一步。

引言#

背景: 对齐流程#

数学评论家#

核心方法: 跨语言奖励迁移#

架构#

实验与结果#

这真的有效吗？#

人类的裁决#

惊喜: 当外国裁判表现更好时#

如果我们完全没有数据怎么办？ (零样本 SFT)#

实践建议#

分析: 为什么会这样？#

结论#

引言