如果你关注大语言模型 (LLM) 的快速演进,你可能对“对齐 (alignment) ”阶段并不陌生。在模型通过海量文本学习如何预测下一个 token (预训练) ,并学会遵循指令 (监督微调或 SFT) 之后,它还需要经历最后的打磨: 偏好优化。这是 ChatGPT 或 Claude 等模型学会变得乐于助人、无害且善于对话的阶段,通常通过基于人类反馈的强化学习 (RLHF) 或直接偏好优化 (DPO) 等技术实现。

然而,在这个过程中存在着显著的差异。大多数偏好优化研究主要集中在英语上。虽然我们拥有出色的英语“对齐”模型,但当我们切换到越南语、土耳其语或印地语时,性能会大幅下降。这造成了“对齐差距”,导致非英语用户获得的是质量较低,且可能安全性较差的模型交互体验。

在最近一篇题为 “RLHF Can Speak Many Languages” 的论文中,来自 Cohere For AI 的研究人员直面了这个问题。他们对如何跨 23 种语言对齐模型进行了详尽的研究。他们的发现令人惊讶: 多语言偏好优化不仅有效,而且在多语言设置中,“在线”强化学习方法 (特别是 RLOO) 显著优于目前流行的离线 DPO 方法。

如下图所示,他们得到的模型——Aya 23 8B 的优化版本——在这些语言上超越了像 Llama-3-8B-Instruct 和 Mistral-7B-Instruct-v0.3 这样的行业重量级模型。

我们的偏好训练模型与其他最先进的开放权重模型的胜率对比: 在 23 种语言的平均表现上,我们基于 Aya-23-8B 的偏好训练模型显著优于原始的 Base Aya-23-8B、Gemma-1.1-7B-it、Meta-Llama3-8B-Instruct 和 Mistral-7B-Instruct-v0.3。

让我们深入了解他们是如何做到这一点的,以及这对多语言 AI 的未来意味着什么。

多语言数据难题

在我们优化偏好之前,我们需要数据。在英语中,我们拥有海量的提示词数据集,其中人类标注者对两个模型的回答进行了排名 (回答 A 优于回答 B) 。而在其他语言中,这种数据几乎不存在。

以往研究中的标准“速成法”仅仅是翻译英语数据集。如果你有一个英语提示词和两个英语回答,你通过谷歌翻译运行它们,瞧——你就有了一个“德语”数据集。

作者认为这种方法是有缺陷的。它引入了翻译伪影 (translation artifacts) ——通常被称为“翻译腔 (translationese) ”的微妙怪癖和不自然的措辞。如果你用这些数据训练模型,它学会的是像翻译机一样说话,而不是像母语者。此外,反复翻译相同的配对也限制了数据的多样性。

一种新颖的数据策略

为了解决这个问题,研究人员创建了一个新的流程来生成高质量的合成偏好数据,而不完全依赖翻译:

  1. 提示词 (Prompts) : 他们从 ShareGPT 中提取了 50,000 个英语提示词,并使用 NLLB-3.3B (一个高质量翻译模型) 将其翻译成 23 种语言。
  2. 回答 (聪明之处) : 他们不仅仅翻译英语的答案,而是利用两个能力不同的模型生成的答案:
  • 模型 A (Command): 一个主要精通英语的模型。它的答案是用英语生成的,然后被翻译。
  • 模型 B (Command R+): 一个专门为多语言性能训练的模型。它直接用目标语言生成答案。

这建立了一个自然的层级结构。来自多语言模型的“直接”生成通常比“翻译”生成更优越、更自然。这使得研究人员能够构建偏好配对 (更好 vs. 更差) ,让模型学会偏好自然的、母语般的文本,而不是“翻译腔”。

核心方法: 离线与在线对齐

数据准备就绪后,研究人员面临一个方法论问题: 应该使用哪种算法来对齐模型?

在当前的开源领域, 直接偏好优化 (DPO) 是默认选择。这是一种“离线”方法,意味着它观察静态的偏好数据集并优化模型,而不需要在训练期间生成新的文本。它计算效率高且稳定。

然而,传统的对齐方式是强化学习 (RL) , 特别是像 PPO 或本文中使用的留一法 REINFORCE (RLOO) 这样的“在线”方法。在在线方法中,模型在训练期间生成的响应,由奖励模型打分,并更新其参数。

作者假设,在像多语言这样复杂、异构的设置中,“在线”生成环节可能至关重要。

对齐的数学原理

为了理解其中的区别,让我们看看目标函数。

1. 标准 RLHF 目标 在线方法训练策略 \(\pi_{\theta}\) (即 LLM) 以最大化奖励 \(r_{\phi}\),同时保持接近原始参考模型 \(\pi_{\text{ref}}\) (以防止它为了博取奖励而输出乱码) 。

显示最大化策略 pi_theta 的奖励期望减去 beta 倍 KL 散度的公式。

项 \(p_{KL}\) (KL 散度) 确保模型不会偏离其原始训练太远:

定义 p_KL 为当前策略与参考策略之间的 Kullback-Leibler 散度的公式。

2. 直接偏好优化 (DPO) DPO 重新推导了这个目标,完全移除了奖励模型。它将问题视为一个分类任务,我们在其中增加“获胜”响应 (\(y_+\)) 的概率,并降低“失败”响应 (\(y_-\)) 的概率。

显示 DPO 损失函数的公式: beta 倍对数概率比的负对数 sigmoid。

3. RLOO (在线方法) 作者选择了 RLOO 作为他们的在线竞争者。RLOO 是 REINFORCE 算法的一个变体。它在训练期间针对单个提示词生成 \(k\) 个样本。为了计算某个特定样本的“优势”,它将该样本的奖励与其他样本的平均奖励进行比较 (即“留一法”) 。

显示带有留一基线的 RLOO 梯度估计器的公式。

这种方法提供了在线探索的好处 (模型可以看到自己的错误和成功) ,却没有 PPO 那样巨大的内存开销。

实验与结果

研究人员使用了 Aya 23 8B (一个最先进的多语言基础模型) ,并在不同的数据混合上分别使用 DPO 和 RLOO 对其进行了训练:

  • 仅英语 (English-Only) : 测试英语数据是否有助于其他语言。
  • 多语言-5 (Multilingual-5) : 英语 + 其他 4 种语言 (测试对未见语言的迁移) 。
  • 多语言-23 (Multilingual-23) : 所有支持的语言。

以下是他们的发现。

1. 在线 RLOO 击败离线 DPO

这对更广泛的 ML 社区来说可能是最重要的发现。总的来说,在线 RLOO 方法优于 DPO。

在下表中,你可以看到相对于基础模型的胜率。虽然 DPO 提升了模型 (47.0% 的胜率意味着考虑到平局情况,与基础模型持平或略有提升,随着数据增加提升至 50.2%) ,但 RLOO 在标准混合数据上实现了 54.0% 的胜率

表 3: 针对原始 Aya 23 8B,DPO/RLOO 偏好优化的 Aya 模型在英语 (左) 和 23 种语言平均值 (右) 上的开放式生成 (Dolly) 胜率。

作者将此归因于在线方法允许模型探索并接收对其自身生成的反馈,这在同时处理 23 种不同语言的复杂语法和细微差别时至关重要。

2. 跨语言迁移是真实存在的

多语言 AI 中的一个主要问题是: 学会用英语提供帮助是否会让模型在阿拉伯语中也变得乐于助人?

答案是肯定的,但有一个前提。

  • 仅英语训练 (图 2c,左侧柱状图) 确实略微提高了未见语言的性能。
  • 多语言训练 (图 2c,中间柱状图) 极大地增强了这种迁移。当模型仅在 5 种语言上训练时,它在其他 18 种未见语言上的性能显著跃升,尤其是使用 RLOO 时。

图 2: 随着训练数据中语言数量的增加,DPO 和 RLOO 的胜率变化。

请看上图中的图表 (c)。“ML-5” (在 5 种语言上训练) 的蓝色柱状图 (RLOO) 显示,与仅用英语训练相比, 未见语言的胜率大幅提升。这表明,只要在训练期间看到足够的语言多样性,模型就能学到一个超越特定语言的通用“对齐概念”。

3. 扩展语言数量可提高性能

增加更多语言会有所帮助似乎是直观的,但在机器学习中,“负迁移” (即学习任务 A 损害任务 B) 是一个普遍的担忧。

研究证实,增加更多语言通常会提高性能。从仅英语变为所有 23 种语言导致了最高的平均胜率。重要的是,这并没有以牺牲英语性能为代价。如下面关于摘要任务的表格所示,在 23 种语言 (ML-23) 上训练的 RLOO 模型相对于基础模型实现了惊人的 70.7% 的胜率

表 6: DPO/RLOO 偏好优化的 Aya 23 8B 在多种训练数据混合下的 15 种语言 XLSum 胜率结果。

4. 没有对智力的“对齐税”

RLHF 的一个常见担忧是“对齐税 (alignment tax) ”——即让模型更友好会使其在数学或推理等困难任务上变笨。

作者在 mMMLU (知识) 、MGSM (数学) 和 XCOPA (推理) 等基准上测试了模型。如下表所示,经过偏好优化的模型保持了基础模型的推理能力。对齐过程在不降低模型核心智力的情况下,提高了其遵循指令的能力。

表 7: 判别性未见 (保留) 任务评估的结果。结果报告为 XCOPA、XStoryCloze 和 XWinoGrad 所有语言的平均零样本性能。

结论与启示

“RLHF Can Speak Many Languages” 这篇论文标志着多语言开放权重模型的一个转折点。通过摆脱以英语为中心的数据,并证明在线 RLOO 训练的优越性,作者为缩小 AI 语言差距提供了配方。

给学生和从业者的关键要点:

  1. 不要仅仅依赖 DPO: 虽然 DPO 运行简单,但像 RLOO 这样的在线方法提供了更卓越的性能,这可能是因为它们迫使模型在训练期间修正自己的生成错误。
  2. 数据质量 > 数量: 生成新鲜、多样化的回答 (Command vs Command R+) 胜过简单地翻译现有的英语数据集。
  3. 语言协同效应: 在一组语言上进行训练有助于模型泛化到它在对齐阶段甚至未见过的语言。

通过遵循这些原则,研究团队制造出了一个不仅能说 23 种语言,而且在细微差别和帮助性方面可以与当今最好的英语优先模型相媲美的模型。随着该领域的发展,我们可以期待“多语言设计 (multilingual-by-design) ”成为偏好优化的新标准。