迷失在翻译中：为何多语言大模型需要原生数据而非翻译数据

如果你曾经用谷歌翻译来完成西班牙语作业，或者在东京解读菜单，你就会知道结果通常能用，但往往缺乏“灵魂”。语法可能是正确的，但文化细微差别——习语、当地语境、那种独特的氛围——往往丢失了。

在大型语言模型 (LLM) 的世界里，我们正面临着一场大规模的类似危机。我们希望 LLM 能流利地讲每一种语言。然而，收集像俄语、中文或斯瓦希里语这样的高质量训练数据，要比收集英语数据难得多。行业标准的解决方案是什么？拿高质量的英语数据，通过机器将其翻译成目标语言。

但这翻译过来的数据真的是“好”数据吗？还是说我们只是在教模型说一种奇怪、机械的“翻译腔”方言？更令人担忧的是，如果我们用来评估这些模型的测试——通常也是从英语翻译过来的——甚至无法察觉这种差异呢？

一篇题为 “Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?” (是多语言指令微调的好数据，还是大语言模型的糟糕多语言评估？) 的精彩研究论文调查了这些确切的问题。让我们深入探讨他们的发现。

问题所在: 以英语为中心的循环

要理解这篇论文，我们需要先了解指令微调 (Instruction Tuning) 。当一个基座模型 (如 Llama 2) 学会预测下一个单词后，它需要经过指令微调来学习如何成为一个有用的助手。这需要提示词和回复的数据集 (例如，“写一份西班牙海鲜饭的食谱” -> “这是一份食谱……”) 。

大多数此类数据集都是英语的。为了构建多语言模型，研究人员经常将这些英语指令翻译成其他语言。

这篇论文的作者提出了两个关键假设:

数据问题: 翻译数据带有缺陷。它缺乏特定语言的文化 (例如，知道当地名人是谁) ，并包含“翻译腔” (不自然的措辞) 。
评估问题: 如果我们使用同样是从英语翻译过来的基准测试来评估这些模型，我们可能看不到性能下降。模型可能非常擅长解决翻译过来的英语数学题，但在像母语者那样聊天时却表现糟糕。

设置: 原生 vs. 翻译

为了验证这一点，研究人员利用三种语言建立了一个受控实验: 西班牙语 (es)、俄语 (ru) 和 中文 (zh) 。他们比较了两种类型的训练数据:

原生数据 (Native Data) : 他们使用了 Aya 数据集 , 这是一个由志愿者直接用他们的母语编写提示词和回复的项目。
翻译数据 (Translated Data) : 他们选取了 Aya 数据集的英语部分，并使用两种方法将其翻译成西班牙语、俄语和中文:

Google Translate (谷歌翻译) : 标准的商业翻译引擎。
Cohere Command R: 一个强大的 LLM，通过提示词要求其在翻译时保留格式。

然后，他们使用原生数据或翻译数据微调了几个流行的基座模型 (Llama 2, Gemma 和 Qwen 1.5) ，并比较了结果。

调查过程

结果发人深省，但它们在很大程度上取决于如何测试模型。研究人员将他们的基准测试分为两类: 原生基准测试 (最初用目标语言创建的测试) 和翻译基准测试 (从英语翻译过来的测试) 。

发现 1: 原生测试揭示了差距

当模型在由母语者创建的基准测试 (如针对俄语的 TyDi QA 或针对中文的 CMMLU )上进行评估时，出现了一个清晰的模式。

图 1: 原生封闭式测试集结果: 原生指令微调模型具有优势。

如图 1 所示，使用原生数据训练的模型 (绿色柱状图) 始终优于使用翻译数据训练的模型 (橙色和蓝色柱状图) 。

TyDi QA (顶部图表) : 原生 Llama-2 模型得分约为 28.3%，而谷歌翻译版本降至约 25.5%。
CMMLU (底部图表) : 在几乎所有模型尺寸上，差距都很明显。

这证实了第一个猜想: 原生数据更优越。 它捕捉到了翻译根本无法体现的文化知识和语言模式。

发现 2: 翻译测试掩盖了真相

这里情况变得棘手了。当研究人员在流行的翻译基准测试 (如用于数学的 MGSM 或用于常识的 MT-MMLU )上运行完全相同的模型时，性能差距消失了。

图 2: 翻译封闭式测试集结果: 原生指令微调模型在 XQuAD 上表现更好，但在 MGSM 和 MT-MMLU 上所有数据条件结果相当。

看一看图 2 (底行) 中的 MGSM 和 MT-MMLU 图表。绿色、橙色和蓝色的柱子几乎一模一样。

如果你只看这些基准测试，你会得出结论: “翻译的训练数据和原生数据一样好。” 这是一个危险的错觉。 因为测试本身就是英语概念的翻译，它不会惩罚模型缺乏当地文化知识。它本质上测试的是模型将英语逻辑转化为目标语言的能力——这正是翻译训练数据教给它的东西。

发现 3: 生成式任务不会撒谎

研究人员发现, 生成式任务 (Generative Tasks) (模型需要写一段话，而不是选择 A、B、C 或 D) 更难“作弊”。

在 XQuAD (一个翻译的问答任务，图 2 左上角) 上，原生数据保持了巨大的领先优势。同样，在使用 GPT-4 作为裁判对回复质量进行打分的开放式评估中，原生数据通常胜出。

图 3: 原生和翻译开放式问答结果: 经 GPT-4-Turbo 评判，原生指令微调模型在翻译问题上表现更优，但在其他情况下所有数据条件结果相似。

图 3 突显了这一细微差别。当被要求生成开放式回答时，使用原生数据训练的模型通常能产生更好的回复，特别是当由像 GPT-4 这样的高质量裁判评估时 (右上角) 。

此外，基座模型“越好”，数据质量就越重要。

图 4: 原生数据表现与原生-翻译表现差异之间的皮尔逊相关性: 结构化任务相关性较弱，生成式任务相关性较强。

图 4 显示，对于像 XQuAD 和 QA-GPT4 这样的任务，存在很强的相关性。这表明随着我们的 LLM 变得越来越聪明 (更强的基座模型) ，瓶颈变成了数据质量。使用廉价的翻译数据对智能模型的伤害比对笨模型的伤害更大。

“福尔摩斯”时刻: 差距从何而来？

我们知道存在差距。但这是因为:

翻译缺陷 (Translation Defects) : 翻译训练数据的语法和风格很糟糕？
知识错配 (Knowledge Mismatch) : 翻译数据谈论的是美国的概念 (例如超级碗) ，这与中国或俄罗斯用户无关？

为了分离这些因素，作者设计了一个巧妙的实验，称为回译 (Round-Trip Translation, RTT) 。

图 5: 回译 (经由英语) 产生的翻译数据与原生数据同源。

如图 5 所示，他们取出原生数据 (例如，关于俄罗斯历史的俄语问题) ，将其翻译成英语，然后再翻译回俄语。

结果数据: 它包含“翻译噪声” (缺陷) ，但保留了原生数据集的原始文化知识 。

如果“翻译缺陷”是主要问题，那么这个 RTT 数据应该表现不佳 (就像源自英语的翻译数据一样) 。如果“知识错配”是问题所在，那么这个 RTT 数据应该表现良好 (就像原生数据一样) 。

结论:

表 2: 在 CMMLU (中文) 上使用 RTT 数据 (中文源) 或翻译数据 (英文源) 训练的模型结果。

看一看表 2 。 RTT (zh-origin) 列始终击败 translated (en-origin) 列。

对于 Qwen1.5-7B , RTT 得分为 68.9% (接近原生得分) ，而标准翻译数据为 68.4% 。
在其他实验中，RTT 的表现惊人地接近纯原生数据的表现。

这意味着知识为王。 翻译数据集的最大问题不在于语法稍有偏差；而在于内容本身在文化上是不相关的。一个在翻译的英语数据上训练的模型了解的是美国总统和棒球，而一个在原生中文数据上训练的模型了解的是中国朝代和诗歌。

我们能修复它吗？

现实情况是，我们无法总是为每种语言获取海量的原生数据集。所以，如果我们不得不使用翻译数据，我们能减轻损害吗？

论文探讨了两种正则化技术:

更低的学习率: 减慢学习过程，防止模型过拟合于“翻译腔”风格。
多语言微调: 在训练期间混合多种语言。

结果喜忧参半。

表 4: 有时 TyDi QA 上的差距可以被弥合。

如表 4 所示，使用较低的学习率 (\(10^{-6}\) vs \(10^{-4}\)) 有助于弥合 Llama-2 在 TyDi QA 等任务上的差距。模型本质上学会了“指令格式”，而没有死记硬背那些奇怪的翻译措辞。

然而，对于像 XQuAD 这样的生成式任务，差距依然顽固存在。

表 6: XQuAD (EM) 上始终存在巨大差距。

表 6 的结果很残酷。无论学习率或多语言设置如何，原生数据 (每个模型的第一行) 都主导了翻译数据 (第二/三行) 。当任务需要创造性生成时，你无法简单地通过正则化来摆脱知识匮乏的问题。

结论: “糟糕评估”陷阱

这篇论文为 LLM 社区敲响了警钟。

如果你正在构建一个多语言模型, 翻译数据是一种妥协。 它对于逻辑、数学和多项选择题 (文化背景极少) 很有效。然而，对于开放式对话和文化流利度，原生数据是无可替代的。

更重要的是，如果你正在评估一个多语言模型, 翻译的基准测试是一个陷阱。 它们会制造一种虚假的安全感，让你相信你的模型精通西班牙语或中文，而实际上它只是精通“翻译过的英语”。

给学生和研究人员的关键要点:

对分数持保留态度: 如果一篇论文声称拥有“最先进的多语言性能”，但只在翻译的 MMLU 上进行测试，请半信半疑。寻找像 C-Eval 或 TyDi QA 这样的原生基准测试。
背景很重要: “知识错配”的发现证明，语言不仅仅是要破译的代码；它是文化的载体。你无法将语言与其承载的知识分离开来。
生成式测试更好: 多项选择题很容易被钻空子。要看一个模型是否真正理解一门语言，请让它写作。

当我们努力实现真正的全球人工智能时，我们需要超越简单地翻译现有的英语资源。我们需要投资创建原生数据，甚至更紧迫的是，创建原生评估。

问题所在: 以英语为中心的循环#

设置: 原生 vs. 翻译#

调查过程#

发现 1: 原生测试揭示了差距#

发现 2: 翻译测试掩盖了真相#

发现 3: 生成式任务不会撒谎#

“福尔摩斯”时刻: 差距从何而来？#

我们能修复它吗？#

结论: “糟糕评估”陷阱#