引言

在大型语言模型 (LLM) 飞速发展的格局中,存在着一种明显的不平衡。虽然像 GPT-4 和 Llama 2 这样的模型以其能力令我们惊叹,但它们主要以“英语为中心”。它们在浩瀚的英语文本海洋中训练,而它们遵循其他语言指令的能力往往感觉像是事后的补充——是翻译的副作用,而非核心功能。

但世界不仅仅说英语。对于一个 AI 来说,要成为真正的全球助手,它必须是“多语言的 (Polyglot) ”——能够理解并生成多种语言流畅且具有文化细微差别的文本。

创建一个 AI 助手通常涉及两个巨大的步骤: 预训练 (Pre-training) , 即模型通过阅读数太字节的文本来学习预测下一个单词;以及指令微调 (Instruction-Tuning) , 即对模型进行微调,使其真正遵循用户的命令 (如“写一封电子邮件”或“解这个方程”) 。

来自 Lamarr Institute、Fraunhofer IAIS、德累斯顿工业大学 (TU Dresden) 和于利希研究中心 (FZ Jülich) 的一组研究人员最近解决了一个在 NLP 社区中一直存在的关键问题: 如果我们有一个通晓多种语言的预训练模型,我们应该如何对其进行微调? 我们是需要在每种语言中都给予它指令,还是仅仅用英语教导它并寄希望于技能能够迁移?

在他们的论文《Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand Multilingual Instructions?》中,作者们进行了首次广泛的研究,探讨指令微调过程中不同的语言组合如何影响模型的性能。他们的发现挑战了关于 AI 如何学习的现有假设,并为构建更好的多语言助手提供了路线图。

背景: 对齐鸿沟

在深入实验之前,我们需要理解“对齐鸿沟 (Alignment Gap) ”。预训练模型就像一部博览群书的百科全书。它包含知识,但不一定知道如何提供帮助。如果你问它“怎么烤蛋糕?”,预训练模型可能会接着这句话续写“……是许多人会问的问题。”它只是在预测接下来的 token。

指令微调 弥合了这一鸿沟。它将模型庞大的知识与用户的意图对齐。

表面对齐假说

近年来一个流行的理论是表面对齐假说 (Superficial Alignment Hypothesis) 。 该假说由 LIMA 数据集的创建者提出,认为模型在预训练期间几乎学到了所有的知识和能力。因此,指令微调只是“表面的”——它仅仅教会模型助手的风格格式。根据这一理论,你只需要极少量的高质量示例 (例如 1,000 条指令) 就能对齐一个庞大的模型。

这项研究的研究人员想看看这一假说是否适用于多语言场景。一个讲德语的模型是否只需要 1,000 条德语指令就能释放其潜力?还是说多语言的复杂性需要更大力度的投入?

数据问题

多语言 AI 面临的最大障碍是数据匮乏。大多数开源指令数据集都是英语的。为了解决这个问题,研究人员创建了两个重要资源:

  1. Lima-X: 一个高质量、人工策划的平行语料库。他们采用了英语 LIMA 数据集,并将其翻译/策划为德语、法语、意大利语和西班牙语。
  2. MT-Bench-X: 一个评估基准,用于评估模型在这五种语言中遵循指令的程度。

核心方法: 设计多语言实验

为了严格测试语言组合如何影响学习,研究人员使用两种类型的基座模型设置了一系列实验:

  1. 24EU-7B: 一个中等规模的 70 亿参数模型,在 24 种欧洲语言的混合数据上进行了预训练。
  2. Mixtral-8x7B: 一个以强大性能著称的更大规模的“混合专家 (Mixture of Experts) ”模型。

目标是使用不同的指令数据“混合配方”对这些模型进行微调,看看哪种配方能产生最好的多语言助手。

数据集组合

他们利用了两个主要数据源: Bactrian-X (由 ChatGPT 生成的大规模合成数据集) 和新创建的 Lima-X (小规模、人工策划) 。

他们创建了特定的语言混合来测试他们的假设。他们使用的符号 (例如 ENDEFRITES) 代表了包含的语言: EN (英语) 、DE (德语) 、FR (法语) 、IT (意大利语) 和 ES (西班牙语) 。

  • 单语言 (Monolingual) : 仅在一种语言上训练 (例如 Bactrian-DE) 。
  • ENDEFRITES (平行) : 在所有五种语言中同时存在每条指令的数据集上进行训练。这显著增加了数据集的大小 (5倍) 。
  • DEFRITES: 排除英语的平行训练,以查看主导语言是否是必须的。
  • ENDEFRITES-sampled: 包含所有语言的混合,但进行了下采样,使示例总数等于单语言数据集。这是为了测试语言的多样性是否比示例的数量更重要。

评估基准: MT-Bench-X

评估聊天助手是很困难的。对于“写一首关于秋天的诗”并没有单一的“正确”答案。为了解决这个问题,研究人员采用了 LLM 作为裁判 (LLM-as-a-judge) 的方法。

他们聘请 GPT-4 担任裁判。他们将用户问题和模型的回答输入给 GPT-4,并要求 GPT-4 对回答进行 1-10 分的评分,或将其与另一个模型的回答进行比较。这是使用新创建的 MT-Bench-X 在所有目标语言中进行的。

图 4: GPT-4 作为裁判对 MT-Bench-X 上各语言混合数据集变体的单项评估平均分。

上方的图 4 提供了不同模型配置所获绝对分数的宏观视图。请注意,Mixtral-8x7B 模型 (底行) 通常获得比较小的 24EU-7B 模型 (顶行) 更高的分数 (绿色/黄色区域) ,这说明了基座模型规模的影响。

实验与结果

这项研究产生了一些引人入胜的见解,完善了我们对 AI 如何学习语言的理解。

1. 平行数据胜出 (跨语言提升)

最重要的发现是, 平行指令微调 (在翻译成多种语言的相同指令上进行训练) 优于单语言训练。

如果你希望一个模型擅长德语,你可能会想: “我应该只用德语指令来训练它。”令人惊讶的是,这项研究表明,同时用德语、英语、法语、意大利语和西班牙语训练它,会让它在德语方面表现得更好 , 胜过只看德语数据的情况。

图 1: 在平行混合语言指令微调数据集上微调的模型相对于单语言微调模型,在 MT-Bench-X 各语言第一轮对话的平均百分比提升。

如上方的 图 1 所示,在平行数据集 (如 ENDEFRITES) 上微调的模型始终优于单语言微调的模型。图表显示了多语言微调相对于单语言微调的百分比提升。

  • 对于 Mixtral-8x7B 模型 (图 1b) ,条形图几乎全是正值,显示出一致的收益。
  • 对于 24EU-7B 模型 (图 1a) ,Bactrian-X (BX) 数据集显示出巨大的提升 (紫色条形接近 10%) 。

这表明,学习遵循法语指令增强了遵循同样意大利语指令所需的神经通路。任务的概念跨越了语言的界限进行了迁移。

2. “表面对齐假说”是有条件的

该研究为著名的表面对齐假说提供了一个细微的补充。

  • 对于大模型 (Mixtral) : 该假说成立得很好。即使只有少量高质量数据 (Lima-X) ,模型表现也非常出色,这表明它已经“知道”如何使用多语言,只需要一点提示。
  • 对于中型模型 (24EU-7B) : 该假说失败了。模型在小规模、精心策划的 Lima-X 数据集上表现挣扎。而在大规模、合成的 Bactrian-X 数据集上,它的表现要好得多。

这表明较小或能力较弱的模型需要更多的重复 (更大的数据集) 来学习多语言指令遵循。它们不能仅仅依靠预训练来弥合鸿沟;它们需要更严格的微调阶段。

3. 详细能力分析

研究人员不仅关注总体得分;他们还按类别 (编码、推理、数学、角色扮演等) 细分了性能。

图 5: GPT-4 进行的深度 MT-Bench-X 质量评估。

图 5 利用雷达图来可视化这些能力。

  • 左 (a) 和 右 (b): 你可以看到不同微调策略在英语 (EN) 和德语 (DE) 基准上的比较。
  • 注意中心那个微小的黑色虚线圈了吗?那代表预训练基座模型 。 它在几乎所有项目上的得分都很低,证明仅靠预训练对于成为助手毫无用处。
  • 彩色线条代表微调后的模型。Bactrian-ENLima-EN 模型 (实线) 通常向外延伸得更远,表明性能更好。然而,在非英语图表 (如 DE) 上,多语言混合 (例如 Bactrian-DEFRITES) 往往比单语言混合覆盖更大的区域,这加强了混合语言训练的益处。

4. 绝对性能

虽然相对改进很明显,但值得关注绝对分数,以了解这些特定设置的当前技术水平。

图 7: 第一轮对话中所有五种语言的绝对跨语言 MT-Bench-X 分数。

图 7 突出了所使用的两个基座模型之间的鲜明对比。 Mixtral-8x7B (右侧) 获得了显著更高的绝对分数 (范围从 6 到 8) ,相比之下 24EU-7B 模型 (左侧,范围从 2 到 5) 则低得多。这证实了再巧妙的指令微调也无法完全弥补基座模型能力的不足。然而,在 24EU-7B 组群中,我们再次看到 ENDEFRITES (所有语言) 配置将分数推得比采样或部分混合更高。

人类评估 vs. GPT-4

这篇论文的一个关键部分是验证指标本身。我们真的能信任 GPT-4 来评判其他 AI 模型吗?为了找出答案,研究人员进行了一项人类研究,由专家评估模型的回答。

图 8: 人类评估的用户界面。

研究人员构建了一个自定义界面 (如 图 8 所示) ,向人类裁判展示一个用户问题和两个匿名的模型回答。他们必须选出获胜者、宣布平局,或宣布“都很差”。

排名中的分歧

结果显示人类裁判和机器裁判之间存在差异。

图 2: 人类和 GPT-4 对 Bactrian-DE 与 Bactrian-ENDEFRITES 的成对 MT-Bench-DE 质量评估,包含“都很差”的投票选项

图 2 揭示了一个有趣的背离:

  • GPT-4 (右图) : 它非常果断。在绝大多数情况下,它宣布 Bactrian-ENDEFRITES (绿色) 胜过单语言的 Bactrian-DE
  • 人类 (左图) : 人类更加挑剔。虽然他们仍然偏爱多语言模型 (绿色) ,但他们投出“平局 (Tie) ” (蓝色) 或“都很差 (Both Bad) ” (深灰色) 的频率比 GPT-4 高得多。

这表明,虽然 GPT-4 与人类偏好相关,但它可能过于乐观或宽容,未能捕捉到在人类母语者眼中使回答变得“糟糕”的细微差别。具体来说,当两个模型在复杂的推理或数学任务中都失败时,GPT-4 很难识别出来,往往会在本不该有赢家的情况下强行选出一个“赢家”。

位置偏差

研究人员还强调了 LLM 裁判的一个已知问题: 位置偏差 (Positional Bias) 。 LLM 倾向于偏爱它们读到的第一个答案。

表 1: 平均位置偏差 (PB) 百分比。

表 1 所示,这种偏差是显著的。在“STEM” (科学、技术、工程、数学) 等类别中,位置偏差达到了 30% 。 这意味着答案呈现的顺序影响了近三分之一的得分。研究人员不得不使用仔细的去偏技术 (交换位置并取平均值) 来获得可靠的结果。

结论与启示

论文《Investigating Multilingual Instruction-Tuning》为 AI 的民主化提供了一块关键拼图。它让我们摆脱了可以简单地构建英语模型然后“翻译”其余部分的观念。

主要收获:

  1. 多语言模型确实需要多语言指令。 你不能仅通过英语训练来最大化模型在德语或西班牙语中的性能。
  2. 平行即力量。 在平行数据集 (多种语言同时存在) 上训练会产生协同效应,提升所有涉及语言的性能。它提高了模型遵循指令的根本能力,而与其使用的语言无关。
  3. 规模影响数据效率。 “少即是多”的方法 (表面对齐) 适用于超大模型,但中型模型 (运行成本更低且更易获得) 仍然需要大量、稳健的指令数据集来有效学习。
  4. 信任,但要验证。 像 MT-Bench-X 这样的自动化基准对于快速迭代很有用,但它们不能完美替代人类判断。它们存在偏差和宽容度过高的问题。

这项研究为更高效的训练流程铺平了道路。社区不应为每种语言创建孤岛式的数据集,而应专注于创建高质量的平行语料库。通过这样做,我们可以确保下一代 AI 助手不仅在硅谷有用,在德累斯顿、巴黎、罗马和马德里也同样出色。