如果你曾经用谷歌翻译来完成西班牙语作业,或者在东京解读菜单,你就会知道结果通常能用,但往往缺乏“灵魂”。语法可能是正确的,但文化细微差别——习语、当地语境、那种独特的氛围——往往丢失了。
在大型语言模型 (LLM) 的世界里,我们正面临着一场大规模的类似危机。我们希望 LLM 能流利地讲每一种语言。然而,收集像俄语、中文或斯瓦希里语这样的高质量训练数据,要比收集英语数据难得多。行业标准的解决方案是什么?拿高质量的英语数据,通过机器将其翻译成目标语言。
但这翻译过来的数据真的是“好”数据吗?还是说我们只是在教模型说一种奇怪、机械的“翻译腔”方言?更令人担忧的是,如果我们用来评估这些模型的测试——通常也是从英语翻译过来的——甚至无法察觉这种差异呢?
一篇题为 “Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?” (是多语言指令微调的好数据,还是大语言模型的糟糕多语言评估?) 的精彩研究论文调查了这些确切的问题。让我们深入探讨他们的发现。
问题所在: 以英语为中心的循环
要理解这篇论文,我们需要先了解指令微调 (Instruction Tuning) 。 当一个基座模型 (如 Llama 2) 学会预测下一个单词后,它需要经过指令微调来学习如何成为一个有用的助手。这需要提示词和回复的数据集 (例如,“写一份西班牙海鲜饭的食谱” -> “这是一份食谱……”) 。
大多数此类数据集都是英语的。为了构建多语言模型,研究人员经常将这些英语指令翻译成其他语言。
这篇论文的作者提出了两个关键假设:
- 数据问题: 翻译数据带有缺陷。它缺乏特定语言的文化 (例如,知道当地名人是谁) ,并包含“翻译腔” (不自然的措辞) 。
- 评估问题: 如果我们使用同样是从英语翻译过来的基准测试来评估这些模型,我们可能看不到性能下降。模型可能非常擅长解决翻译过来的英语数学题,但在像母语者那样聊天时却表现糟糕。
设置: 原生 vs. 翻译
为了验证这一点,研究人员利用三种语言建立了一个受控实验: 西班牙语 (es)、俄语 (ru) 和 中文 (zh) 。 他们比较了两种类型的训练数据:
- 原生数据 (Native Data) : 他们使用了 Aya 数据集 , 这是一个由志愿者直接用他们的母语编写提示词和回复的项目。
- 翻译数据 (Translated Data) : 他们选取了 Aya 数据集的英语部分,并使用两种方法将其翻译成西班牙语、俄语和中文:
- Google Translate (谷歌翻译) : 标准的商业翻译引擎。
- Cohere Command R: 一个强大的 LLM,通过提示词要求其在翻译时保留格式。
然后,他们使用原生数据或翻译数据微调了几个流行的基座模型 (Llama 2, Gemma 和 Qwen 1.5) ,并比较了结果。
调查过程
结果发人深省,但它们在很大程度上取决于如何测试模型。研究人员将他们的基准测试分为两类: 原生基准测试 (最初用目标语言创建的测试) 和翻译基准测试 (从英语翻译过来的测试) 。
发现 1: 原生测试揭示了差距
当模型在由母语者创建的基准测试 (如针对俄语的 TyDi QA 或针对中文的 CMMLU )上进行评估时,出现了一个清晰的模式。

如图 1 所示,使用原生数据训练的模型 (绿色柱状图) 始终优于使用翻译数据训练的模型 (橙色和蓝色柱状图) 。
- TyDi QA (顶部图表) : 原生 Llama-2 模型得分约为 28.3%,而谷歌翻译版本降至约 25.5%。
- CMMLU (底部图表) : 在几乎所有模型尺寸上,差距都很明显。
这证实了第一个猜想: 原生数据更优越。 它捕捉到了翻译根本无法体现的文化知识和语言模式。
发现 2: 翻译测试掩盖了真相
这里情况变得棘手了。当研究人员在流行的翻译基准测试 (如用于数学的 MGSM 或用于常识的 MT-MMLU )上运行完全相同的模型时,性能差距消失了。

看一看图 2 (底行) 中的 MGSM 和 MT-MMLU 图表。绿色、橙色和蓝色的柱子几乎一模一样。
如果你只看这些基准测试,你会得出结论: “翻译的训练数据和原生数据一样好。” 这是一个危险的错觉。 因为测试本身就是英语概念的翻译,它不会惩罚模型缺乏当地文化知识。它本质上测试的是模型将英语逻辑转化为目标语言的能力——这正是翻译训练数据教给它的东西。
发现 3: 生成式任务不会撒谎
研究人员发现, 生成式任务 (Generative Tasks) (模型需要写一段话,而不是选择 A、B、C 或 D) 更难“作弊”。
在 XQuAD (一个翻译的问答任务,图 2 左上角) 上,原生数据保持了巨大的领先优势。同样,在使用 GPT-4 作为裁判对回复质量进行打分的开放式评估中,原生数据通常胜出。

图 3 突显了这一细微差别。当被要求生成开放式回答时,使用原生数据训练的模型通常能产生更好的回复,特别是当由像 GPT-4 这样的高质量裁判评估时 (右上角) 。
此外,基座模型“越好”,数据质量就越重要。

图 4 显示,对于像 XQuAD 和 QA-GPT4 这样的任务,存在很强的相关性。这表明随着我们的 LLM 变得越来越聪明 (更强的基座模型) ,瓶颈变成了数据质量。使用廉价的翻译数据对智能模型的伤害比对笨模型的伤害更大。
“福尔摩斯”时刻: 差距从何而来?
我们知道存在差距。但这是因为:
- 翻译缺陷 (Translation Defects) : 翻译训练数据的语法和风格很糟糕?
- 知识错配 (Knowledge Mismatch) : 翻译数据谈论的是美国的概念 (例如超级碗) ,这与中国或俄罗斯用户无关?
为了分离这些因素,作者设计了一个巧妙的实验,称为回译 (Round-Trip Translation, RTT) 。

如图 5 所示,他们取出原生数据 (例如,关于俄罗斯历史的俄语问题) ,将其翻译成英语,然后再翻译回俄语。
- 结果数据: 它包含“翻译噪声” (缺陷) ,但保留了原生数据集的原始文化知识 。
如果“翻译缺陷”是主要问题,那么这个 RTT 数据应该表现不佳 (就像源自英语的翻译数据一样) 。如果“知识错配”是问题所在,那么这个 RTT 数据应该表现良好 (就像原生数据一样) 。
结论:

看一看表 2 。 RTT (zh-origin) 列始终击败 translated (en-origin) 列。
- 对于 Qwen1.5-7B , RTT 得分为 68.9% (接近原生得分) ,而标准翻译数据为 68.4% 。
- 在其他实验中,RTT 的表现惊人地接近纯原生数据的表现。
这意味着知识为王。 翻译数据集的最大问题不在于语法稍有偏差;而在于内容本身在文化上是不相关的。一个在翻译的英语数据上训练的模型了解的是美国总统和棒球,而一个在原生中文数据上训练的模型了解的是中国朝代和诗歌。
我们能修复它吗?
现实情况是,我们无法总是为每种语言获取海量的原生数据集。所以,如果我们不得不使用翻译数据,我们能减轻损害吗?
论文探讨了两种正则化技术:
- 更低的学习率: 减慢学习过程,防止模型过拟合于“翻译腔”风格。
- 多语言微调: 在训练期间混合多种语言。
结果喜忧参半。

如表 4 所示,使用较低的学习率 (\(10^{-6}\) vs \(10^{-4}\)) 有助于弥合 Llama-2 在 TyDi QA 等任务上的差距。模型本质上学会了“指令格式”,而没有死记硬背那些奇怪的翻译措辞。
然而,对于像 XQuAD 这样的生成式任务,差距依然顽固存在。

表 6 的结果很残酷。无论学习率或多语言设置如何,原生数据 (每个模型的第一行) 都主导了翻译数据 (第二/三行) 。当任务需要创造性生成时,你无法简单地通过正则化来摆脱知识匮乏的问题。
结论: “糟糕评估”陷阱
这篇论文为 LLM 社区敲响了警钟。
如果你正在构建一个多语言模型, 翻译数据是一种妥协。 它对于逻辑、数学和多项选择题 (文化背景极少) 很有效。然而,对于开放式对话和文化流利度,原生数据是无可替代的。
更重要的是,如果你正在评估一个多语言模型, 翻译的基准测试是一个陷阱。 它们会制造一种虚假的安全感,让你相信你的模型精通西班牙语或中文,而实际上它只是精通“翻译过的英语”。
给学生和研究人员的关键要点:
- 对分数持保留态度: 如果一篇论文声称拥有“最先进的多语言性能”,但只在翻译的 MMLU 上进行测试,请半信半疑。寻找像 C-Eval 或 TyDi QA 这样的原生基准测试。
- 背景很重要: “知识错配”的发现证明,语言不仅仅是要破译的代码;它是文化的载体。你无法将语言与其承载的知识分离开来。
- 生成式测试更好: 多项选择题很容易被钻空子。要看一个模型是否真正理解一门语言,请让它写作。
当我们努力实现真正的全球人工智能时,我们需要超越简单地翻译现有的英语资源。我们需要投资创建原生数据,甚至更紧迫的是,创建原生评估。
](https://deep-paper.org/en/paper/2406.12822/images/cover.png)