引言

想象一下向AI助手寻求建议。用英语,你可能会问关于税法或烘焙食谱的问题。但如果你用印地语询问一个文化敏感话题,或者用法语询问一个当地有争议的政治问题呢?

多年来,大语言模型 (LLM) 的“安全性”主要通过西方、英语中心的视角来审视。如果一个模型拒绝生成英语仇恨言论,我们称之为“已对齐”。但这造成了一个危险的盲点。随着AI系统在全球部署,它们往往无法识别特定于其他语言和文化的侮辱、威胁或有害刻板印象。更糟糕的是,针对英语数据训练的安全机制有时仅仅通过将有害提示翻译成低资源语言就能被完全绕过。

这把我们带到了AI研究中的一个关键问题: 与什么对齐? 以及也许更重要的, 与谁对齐?

在研究论文 The Multilingual Alignment Prism 中,来自 Cohere For AI 的研究人员解决了这个确切的问题。他们探索了如何在非同质化的语言集合中平衡双重目标: 最小化“全球”危害 (普遍公认的不良行为) 和“本地”危害 (特定文化的冒犯) 。

本文将详细拆解他们的新颖数据集、涉及监督微调 (SFT) 和直接偏好优化 (DPO) 的具体训练配方,以及关于一种语言的安全学习如何迁移到另一种语言的惊人发现。

背景: 多语言安全性的缺口

在深入解决方案之前,我们需要理解问题的细微之处。目前大多数LLM是在海量互联网抓取数据上训练的,其中英语占主导地位。因此,安全训练——教导模型该做什么的过程——通常依赖于英语数据集。

当开发者想让模型在其他语言中变得安全时,他们通常依赖翻译 。 他们获取英语安全数据,通过谷歌翻译运行,然后训练模型。虽然总比没有好,但这种方法未能捕捉到:

  1. 细微差别: 直接翻译通常听起来不自然 (“翻译腔”) ,并且丢失了原文的惯用语重心。
  2. 文化背景: 在美国被视为冒犯的内容,在日本或埃及可能会让人困惑或无关紧要,反之亦然。

定义危害

研究人员区分了两类至关重要的危害:

  • 全球危害 (Global Harm) : 在全球语境下被接受、理解并确认为有害的内容 (例如,关于如何制造生物武器或鼓励自杀的说明) 。
  • 本地危害 (Local Harm) : 需要深入了解特定文化、历史或方言才能领会的内容。这可能包括针对特定土著群体的诽谤或区域性的政治虚假信息。

Aya Red-teaming 数据集

要研究这一点,你不能只是从 HuggingFace 下载一个数据集;因为它并不存在。研究人员必须自己构建它。他们聘请了8种语言 (英语、印地语、法语、西班牙语、俄语、阿拉伯语、塞尔维亚语和菲律宾语) 的有偿母语使用者来创建 Aya Red-teaming 数据集。

“红队测试” (Red-teaming) 指的是像对手一样行动——故意试图破坏模型或让它说出糟糕的话。

表1: Aya Red-teaming 数据集统计。

如上表所示,他们收集了数千个示例,细致地将它们标记为“全球”或“本地”。这种区分正是我们理解模型行为的“棱镜”。

为了让你具体了解“本地危害”与“全球危害”相比是什么样子的,请看下面的例子。注意本地示例如何严重依赖特定的文化知识 (如菲律宾 Badjao 群体的状况或印地语中的特定术语) 。

表4: 来自 Aya Red-teaming 数据集的6种语言提示示例

核心方法: 对齐配方

拥有数据集只是第一步。这篇论文的核心是调查如何使用这些数据使模型更安全,而不让它们变“笨” (即失去其通用帮助性) 。

研究人员比较了不同的训练流程。为了理解它们,我们需要定义现代LLM训练中的两种主要技术:

  1. SFT (监督微调) : 你向模型展示一个提示和正确的答案。模型学习模仿那个答案。
  2. DPO (直接偏好优化) : 你向模型展示一个提示和两个答案 (一个胜者和一个败者) 。模型调整其内部概率权重,使胜出的答案更有可能出现,而失败的答案可能性降低。

合成数据管道

由于人工标注的数据稀缺 (收集起来既昂贵又缓慢) ,研究人员使用了一个巧妙的合成管道来扩充他们的训练集:

  1. 种子: 采用人工红队提示。
  2. 增强: 使用强大的多语言模型 (Command R+) 来改写并生成新的、类似的有害提示。
  3. 生成配对: 对于每个提示,使用不同模型生成两个回复。
  4. 评判: 使用 GPT-4 充当裁判。它查看这两个回复并决定哪个更安全。这就创建了 DPO 所需的“首选” (安全) 和“拒绝” (有害) 配对。

训练候选方案

论文测试了四种具体配置,看看哪种能产生最佳的安全与能力平衡:

  • Base Model (基础模型) : 原始的预训练 Aya 23 8B 模型 (无安全训练) 。
  • SFT-Random: 对随机补全进行微调 (作为基线以检查数据质量是否重要) 。
  • SFT-Preferred: 仅对 GPT-4 裁判选出的“安全”回复进行微调。
  • DPO(IFT): 直接在基础模型之上应用直接偏好优化。
  • DPO(SFT): “黄金标准”方法。首先,使用安全回复执行 SFT 以使模型进入良好状态。然后,应用 DPO 进一步精细化对齐。

DPO的数学原理

为什么要用 DPO?传统的人类反馈强化学习 (RLHF) 需要训练一个单独的“奖励模型”,这既复杂又不稳定。DPO 通过将语言模型本身视为奖励模型来简化这一点。

他们优化的目标函数是:

DPO 损失方程

简单来说,这个方程强制模型 (\(\pi_\theta\)) 相对于参考模型 (\(\pi_{ref}\)) ,增加首选回复 (\(y_+\)) 的可能性,并降低拒绝回复 (\(y_-\)) 的可能性。\(\beta\) 参数控制允许模型偏离参考模型的程度。

实验与结果

研究人员在两个维度上评估了模型:

  1. 安全性: 有多少百分比的生成内容是有害的? (通过 Aya Red-teaming 集测试) 。
  2. 通用性能: 模型还有用吗? (通过 Dolly-200 基准测试开放式生成,以及 FLORES-200 测试翻译) 。

1. 权衡的迷思

AI界普遍认为“安全会牺牲性能”——即让模型变安全会让它变得闪烁其词且帮助性降低。

这篇论文的结果挑战了这一观点。

图1: 通用性能与安全性能之间的权衡

看图1。理想情况下,我们希望处于右下角 : 高胜率 (非常有帮助) 和低有害生成 (非常安全) 。

  • 粉色区域代表基础模型: 高度有害。
  • SFT (绿色圆形) : 显著减少了危害,但仅适度提高了通用能力。
  • DPO(SFT) (红色星形) : 这是赢家。它实现了最低的危害率 (约10-15%) ,同时实现了最高的通用能力胜率 (>70%) 。

这证明了只要技术得当——特别是在 DPO 之前进行 SFT——我们可以同时提升安全性和通用能力。

2. DPO(SFT) vs. DPO(IFT): 初始化很关键

一个有趣的技术发现是 DPO(SFT)DPO(IFT) 之间的差异。

图3: 有害模型生成的百分比

在图3(b)中,比较蓝色圆形 (基于 SFT 的 DPO) 和橙色菱形 (直接基于基础模型的 DPO) 。橙色菱形始终更高 (更有害) 。

这表明 DPO 对初始化很敏感。如果你试图在一个原始的、未对齐的模型上优化偏好,它会很吃力。首先通过监督微调 (SFT) 给模型“热身”,能打下坚实的基础,让 DPO 能够更有效地进行细粒度的安全对齐工作。

3. 多语言的“水涨船高”

安全改进是适用于所有语言,还是仅适用于高资源语言?

图2: 有害生成的相对百分比变化

图2 (左) 显示了与基础模型相比,有害生成的相对下降幅度。每种语言都出现了下降 (这里负值条形图代表好的结果) 。

  • 阿拉伯语印地语的降幅巨大 (超过70-80%) 。
  • 法语较难对齐,显示出较小的增益。作者推测这可能是由于基础模型训练中法语数据的特定分布所致。

图2 (右) 将其细分为“全球”与“本地”危害。有趣的是, 全球危害 (蓝色条) 通常比本地危害 (橙色条) 更容易缓解。这很有道理: 全球性概念 (暴力、自残) 在庞大的预训练数据中可能比特定的文化侮辱更常见。

4. 跨语言迁移: 惊喜发现

这也许是论文中科学上最有趣的部分。研究人员进行了消融研究,他们在针对全球危害或针对本地危害的数据上训练模型,然后在所有内容上进行测试。

他们想回答: 学会不用印地语发表种族主义言论,能帮助模型拒绝用法语制造炸弹的请求吗?

图4: 全球与本地测试集上有害生成的相对百分比变化

答案是肯定的

看图4中的条形图。即使模型仅在“本地”危害上训练 (每组中间的绿色条) ,它在全球危害上也实现了大幅减少。事实上,对于 DPO(SFT) 模型 (下图) ,在本地危害上训练使全球危害减少了超过 70%!

这暗示了一种“通用安全”的潜在概念。当模型学会识别具体的、细微的文化危害时,它似乎将这种理解泛化到了更广泛、普遍的危害上。它学习的是安全概念,而不仅仅是一份违禁词列表。

结论与启示

The Multilingual Alignment Prism 证明了我们在全球化世界中不能依赖英语中心的方法,从而推动了AI安全领域的发展。

给学生的关键要点:

  1. 数据多样性为王: 没有本地数据就无法针对本地文化进行对齐。Aya Red-teaming 数据集证明,文化细微差别需要具体的、人工标注的示例。
  2. 配方很重要: 你不能直接把 DPO 扔给原始模型。 SFT \(\rightarrow\) DPO 的顺序提供了实现最先进结果所需的稳定性。
  3. 安全 \(\neq\) 愚蠢: 严格的安全训练,如果操作得当,不必降低模型的通用智能。
  4. 安全领域存在迁移学习: 训练模型具有文化敏感性 (本地危害) 有助于它理解普遍的安全边界 (全球危害) 。

当我们构建下一代AI时,这篇论文提供了一份蓝图。它提醒我们,“对齐”不是单一的目标,而是一个棱镜——在我们服务的每种语言和文化中折射出不同的光芒。为了构建真正安全的系统,我们必须透过整个棱镜观察,而不仅仅是英语这一束光。