还能拯救糟糕的翻译吗？介绍 MT-Ladder：大语言模型翻译器的“拼写检查器”

语言障碍可以说是全球交流的最大阻碍，长期以来，机器翻译 (Machine Translation, MT) 一直是试图打破这一障碍的攻城锤。近年来，像 GPT-4 这样的大语言模型 (LLM) 彻底改变了这一领域，提供了不仅准确而且语境丰富的翻译。

但这里有一个问题。要获得顶级的翻译性能，你通常只有两个选择:

使用一个巨大的通用大语言模型 (如 GPT-4) : 这能产生极好的结果，但伴随着高昂的基础设施和部署成本。
训练一个特定于翻译的大语言模型 (如 ALMA) : 这涉及在数十亿个 token 上进行预训练，并在数百万个高质量的人工标注翻译对上进行微调。由于需要人工劳动，这既耗费资源又昂贵。

这就造成了一个巨大的差距。有没有可能拿一个较小的开源模型，在不花费巨资进行人工标注或大规模计算的情况下，提升其翻译能力，使其能与巨头们抗衡？

在这篇文章中，我们将深入探讨 MT-Ladder , 这是由浙江大学和新加坡国立大学的研究人员提出的一种新颖框架。MT-Ladder 提供了一种“与模型无关 (model-agnostic) ”的方法来改进翻译，本质上是充当一个复杂的编辑，润色其他模型生成的粗糙草稿。通过使用巧妙的数据合成策略和分层训练方法，MT-Ladder 可以将小模型 (如 7B 参数) 的性能提升到匹配甚至超过最先进系统的水平。

核心问题: 高质量的高昂代价

在理解解决方案之前，我们必须了解当前神经机器翻译 (NMT) 的瓶颈。

标准的微调方法依赖于 直接翻译 (Direct Translation) 。你给模型一个源句子，并训练它预测参考译文。为了改进这一点，研究人员通常转向 自动译后编辑 (Automatic Post-Editing, APE) 或 质量评估 (Quality Estimation, QE) 。

APE 试图纠正翻译中的系统性错误。
QE 试图预测翻译的好坏程度。

问题在于，传统的 APE 和 QE 需要昂贵的数据集。你需要人类查看机器翻译，找出错误，并写出修正版本。这种数据既稀缺又昂贵。此外，基于提示词的方法 (要求 ChatGPT “修复这个翻译”) 是不稳定的，经常导致“幻觉”，即模型完全改变了原意。

MT-Ladder 通过自动化“修正”过程绕过了这些问题。

MT-Ladder 框架

研究人员提出了视角的转变。他们不是训练模型从头开始翻译，而是训练模型润色现有的翻译。

MT-Ladder 最巧妙的部分在于它如何在没有人工干预的情况下生成训练数据。研究人员意识到，现有的平行语料库 (源文本 + 人类参考译文) 已经包含了“完美”的答案。他们只需要一个“粗糙的草稿”。

过程如下:

输入: 取一个包含源句子 (\(s\)) 和参考译文 (\(r\)) 的标准数据集。
采样: 使用一个现有的、表现平平的大语言模型来翻译源文本 (\(s\)) 。我们称之为 中间翻译 (Intermediate Translation, \(i\)) 。
三元组创建: 将这些结合起来形成一个三元组: [源句, 中间翻译, 参考译文]。

现在，模型不再是被训练去映射 \(s \rightarrow r\)，而是被训练去映射 \((s, i) \rightarrow r\)。模型学习的具体任务是: “给定这个源文本和这个不完美的翻译，生成高质量的参考译文。”

图 2 展示了采样和分层微调这两个步骤的过程。

如 图 2 所示，该流程分为两个不同的阶段: 采样 (创建数据) 和分层微调 (训练模型) 。这有效地将参考译文变成了一个“伪修正”标签，消除了对人工译后编辑的需求。

2. 分层微调 (Hierarchical Fine-Tuning, HFT)

并非所有的翻译错误都是一样的。有些中间翻译是垃圾 (与参考译文差异很大) ，而有些则近乎完美 (只需要微小的调整) 。

如果你随机地将所有这些数据喂给模型，它很难有效地学习。研究人员引入了 分层微调 (HFT) , 这是一种课程学习策略，根据难度对训练样本进行分类。

他们使用一种名为 COMET 的指标来对中间翻译的质量进行评分。基于这些分数，数据被分为三个桶:

简单 (Easy) : 中间翻译非常差 (COMET 分数低) 。模型需要做很多工作来修复它。讽刺的是，这些之所以“简单”，是因为错误很明显，容易改进。
中等 (Medium) : 质量一般。
困难 (Hard) : 中间翻译已经非常出色 (COMET 分数高) 。模型必须进行微妙、细致的更改才能匹配参考译文。

训练过程遵循 简单 \(\rightarrow\) 中等 \(\rightarrow\) 困难 的顺序。

为什么要这个顺序？其逻辑是，模型应该先学会纠正明显的错误 (简单样本) ，然后再尝试润色风格上的细微差别 (困难样本) 。这模仿了人类的学习过程；你在学习编辑诗歌之前，得先学会基本的语法纠错。

训练目标是最小化参考译文 (\(r\)) 的负对数似然，条件是源文本 (\(s\)) 和中间翻译 (\(i\)) :

训练 MT-Ladder 的数学目标函数。

这里，\(\mathcal{L}_a\) 代表 MT-Ladder 模型。它学习在给定源文本和草稿的语境下预测参考译文 \(r\)。

实验分析

为了证明这一点，作者使用 Gemma-2B 和 Gemma-7B 作为骨干模型测试了 MT-Ladder。他们在涉及英语、德语、捷克语、中文和俄语的 8 个翻译方向上进行了测试。

它真的能改善翻译吗？

结果是显而易见的。该框架持续改进了各种基线模型的性能，包括像 ALMA 这样的强基线甚至 GPT-3.5。

显示 8 个方向上平均翻译质量提升的柱状图。

如 图 1 所示，与原始模型 (灰色) 相比，MT-Ladder-2B (浅蓝色) 和 MT-Ladder-7B (深蓝色) 都显著提高了 COMET 分数。

小模型: 看看图表最右侧的 Alpaca-7B 。提升是巨大的。
大模型: 即使是 ALMA-13B 这种专门的翻译模型，性能也有所提升。
GPT-4 门槛: 虚线代表 GPT-4。MT-Ladder-7B 成功地将开源模型 (如 ALMA-13B) 推到了在这些基准测试上超越 GPT-4-turbo 的水平。

数值深入分析

让我们看看英语到其他语言 (En \(\rightarrow\) XX) 翻译的具体数字。

展示 MT-Ladder 在 WMT22 En 到 XX 测试集上结果的表格。

在 表 2 中，我们看到了详细的细分。

BigTranslate-13B: 原始 BLEU 平均分为 23.77。经过 MT-Ladder-7B 润色后，跃升至 33.18 。这可是 BLEU 分数上 +9.41 的巨大提升。
一致性: 蓝色框高亮了改进。几乎每个条目都显示出正向增长。
GPT-4: 有趣的是，当应用于 GPT-4 时，润色有时会导致轻微下降或收益微乎其微 (由红色文本表示) 。这表明 GPT-4 的翻译已经非常接近“困难”区间的顶端，以至于较小的 7B 润色器很难再增加价值，尽管它在某些特定的语言对上仍有提升。

可视化润色效果

可视化模型多久改进一次翻译与多久破坏一次翻译是很有帮助的。

比较原始翻译质量与润色后质量的散点图。

图 4 绘制了原始 COMET 分数 (x 轴) 与润色后分数 (y 轴) 的对比。

对角线: 虚线代表没有变化。
蓝色三角形: 这些是变好的翻译。
红色三角形: 这些是变差的翻译。

对于像 NLLB-3.3B (左上角) 这样的较弱模型，绝大多数点都是位于线上方的蓝色三角形。模型几乎修复了所有问题。对于 GPT-4 (右下角) ，点紧密聚集在对角线周围。“润色器”表现得很保守，在不破坏 GPT-4 的情况下保持其高质量，尽管它很难将其推得更高。这证实了假设: MT-Ladder 是将中小型模型提升到顶级水平的强大工具。

为什么分层微调 (HFT) 很重要

“由易到难”的训练策略真的有必要吗？我们能不能把所有数据混合在一起？

研究人员进行了一项消融实验，比较了 HFT 与“混合 (Mixed) ”训练 (随机顺序) 以及“反向 HFT (Anti-HFT) ” (由难到易) 。

比较 HFT、Mixed 和 Anti-HFT 在训练步骤中的 BLEU 和 COMET 分数趋势。

图 5 展示了训练轨迹。

HFT (橙/红线) : 性能稳步上升并保持稳定。
Anti-HFT (绿线) : 性能在早期达到顶峰，然后下降。通过先在“困难”样本上训练，最后在“简单”样本上训练，模型可能过拟合了简单的修正，忘记了如何处理微妙的细微差别，或者来自“简单”修正的大梯度破坏了从“困难”样本中学到的权重。
Mixed (混合) : 效果还可以，但有波动，且没有达到 HFT 的峰值。

我们可以进一步放大观察训练动态:

比较不同微调阶段的原始质量与润色后质量。

图 9 展示了训练不同阶段 (阶段 1、2 和 3) 的润色能力。

HFT: 随着训练的进行 (向右移动) ，点云向上移动 (质量更好) 。
Anti-HFT: 随着训练的进行 (向下移动) ，模型在润色高质量输入方面实际上变得更差了，把它们拉低了。

弱至强泛化 (Weak-to-Strong Generalization)

最近 AI 领域最令人兴奋的发现之一是“弱至强泛化”——即一个较弱的模型可以监督或改进一个较强的模型。MT-Ladder 展示了这种能力。

研究人员尝试使用较弱的模型 (ALMA-7B) 来生成训练用的“参考译文”，而不是使用金标准的由人类提供的参考译文。实际上，他们是在问: MT-Ladder 能学会比它的老师更好吗？

展示弱至强潜力和自我润色的柱状图。

图 7 (图上半部分) 展示了结果。

灰色柱: 原始模型。
蓝色柱: 在弱标签 (来自 ALMA 的伪参考) 上训练的 MT-Ladder。
红色柱: 在金标准标签 (人类参考) 上训练的 MT-Ladder。

值得注意的是，蓝色柱子始终高于灰色柱子。这意味着在不完美的机器输出上训练的 MT-Ladder 仍然设法产生了一个比原始机器输出更好的润色器。它学习到了润色的模式，使其能够泛化并超越训练数据中的噪声。

最后，模型能修正自己的错误吗？研究人员测试了一个迭代过程，即 MT-Ladder 翻译一个句子，然后将该翻译反馈给自己进行润色。

图 8 (上图下半部分) 展示了“Iter1”和“Iter2”。

Iter1 (浅蓝) : 第一遍润色显著提高了原始翻译 (灰色) 的分数。
Iter2 (深蓝) : 第二遍通常收益递减或仅有轻微提升。

这证实了 MT-Ladder 不仅仅是其他模型的“补丁”，它本身就是一个强大的翻译器，可以迭代地润色其输出。

结论与启示

MT-Ladder 为开源机器翻译的未来提出了令人信服的论点。与其卷入参数数量的军备竞赛 (1750亿、5000亿、1万亿参数) ，我们不如通过构建更智能、更专业的“润色”模型来获得可比的结果。

通过利用 伪修正三元组 , 该框架消除了人工标注的成本。通过利用 分层微调 , 它确保模型学习到稳健的纠正策略，能够处理明显的错误和微妙的风格不匹配。

对于学生和研究人员来说，要点很明确:

数据构建是关键: 有时答案不是更好的架构，而是更聪明地使用现有数据的方式 (比如从平行语料库创建三元组) 。
课程学习有效: 向模型提供数据的顺序 (由易到难) 可以极大地稳定训练并提高性能。
润色 > 重训: 训练一个小模型来修复错误，往往比为了避免错误而重新训练一个巨大的模型更有效率。

MT-Ladder 使 7B 参数的模型能够越级挑战，以小博大，让高质量翻译变得更加普及，并证明了你并不总是需要一台超级计算机才能流利地讲各种语言。