想象一下,你正在埃塞俄比亚旅行。你想读一篇当地的新闻文章,翻译路牌,或者用阿姆哈拉语与当地商贩交流。你拿出手机,将句子输入翻译 App。App 运转了一秒钟,吐出了一句翻译。你理所当然地认为它是对的。
但是,如果这个 App 刚刚把总理的名字翻译成了“基地组织”呢?如果它把你想买软饮料的请求翻译成了关于毒品走私的陈述呢?
这些并非假设的场景。它们是来自帕德博恩大学的研究人员 Hizkiel Mitiku Alemyehu、Hamada M. Zahera 和 Axel-Cyrille Ngonga Ngomo 发现的真实错误。在他们最近的论文中,他们对现代人工智能如何处理阿姆哈拉语 (Amharic) ——一种拥有超过 2000 万使用者的闪含语系语言,但在自然语言处理 (NLP) 领域被视为“低资源”语言——进行了严格的“健康检查”。
虽然像 Meta 的“无语言遗留” (NLLB) 这样的多语言大型语言模型 (mLLMs) 声称填补了数百种语言的鸿沟,但这项研究揭开了层层面纱,让我们看到了引擎盖下究竟发生了什么。
在这篇深度文章中,我们将探讨他们的方法论,剖析这些翻译模型的架构,并看看当 AI 试图利用有限的数据学习一门复杂语言时,会出现哪些有时令人捧腹、有时却极其危险的错误。
背景: “低资源”的挑战
机器翻译 (MT) 近年来经历了一个黄金时代。如果你在英语、法语和德语之间进行翻译,其质量往往接近人类水平。这是因为这些语言属于“高资源”语言——互联网上有数十亿个句对可供模型学习。
然而,阿姆哈拉语面临着截然不同的现实。尽管它是埃塞俄比亚的官方工作语言,拥有丰富的历史,但在数字领域它却是“低资源”的。简单来说,并没有足够多干净的平行文本 (阿姆哈拉语-英语句对) 可用,无法使用传统方法有效地训练大型模型。
以前处理阿姆哈拉语的尝试主要集中在统计方法或微调较小的模型上。然而,当前 AI 的趋势是多语言大型语言模型 (mLLMs) 。 这些是同时在数百种语言上训练的庞大神经网络。理论上,模型可以从高资源语言中学习通用的语法结构,并将这些知识“迁移”到像阿姆哈拉语这样的低资源语言上。
但这真的有效吗?这正是本研究的核心问题。
方法论: 我们如何给 AI 打分?
为了回答这个问题,研究人员建立了一个全面的评估流程。他们不仅想知道模型是否有效;他们还想知道模型是如何失败的。
他们选择了 Meta 开发的两大 mLLM 系列:
- NLLB-200 (No Language Left Behind): 专为提高低资源语言性能而设计的尖端模型。
- M2M-100 (Many-to-Many): 较早期的多语言模型。
他们测试了这些模型的不同尺寸,参数量从 4.18 亿到 33 亿不等。在 AI 领域,“参数”大致相当于大脑的突触——通常来说,参数越多,模型越聪明。

如上表 1 所示,研究人员考察了 600M 到 3.3B 参数的 NLLB 模型,以及 418M 和 1.2B 参数的 M2M 模型。
评估流程
研究人员使用了一个名为 Lesan 的数据集,其中包含新闻、维基百科和 Twitter 对话等多种文本来源。他们在两个方向上通过模型运行这些句子: 阿姆哈拉语到英语,以及英语到阿姆哈拉语。
但这项研究的独特之处在于: 他们不信任计算机的自我评分。他们采用了一种混合方法。

图 1 展示了他们的工作流程。它分为两条不同的路径:
- 自动评估: 使用标准算法计算分数。
- 人工评估: 招募母语为阿姆哈拉语的人 (大学生) 手动阅读、评分并标注翻译中的错误。
1. 自动指标: 相似度的数学计算
对于自动路径,研究人员使用了四个行业标准指标:
- BLEU: 计算翻译文本与参考文本中有多少词序列 (n-gram) 是匹配的。
- METEOR: 检查精确的单词匹配,但也检查同义词和词干 (例如,“running”匹配“run”) 。
- ChrF++: 查看字符级匹配,这对于像阿姆哈拉语这样形态丰富的语言非常重要 (一个词可能有许多前缀和后缀) 。
- TER (Translation Edit Rate,翻译编辑率): 计算人类需要进行多少次编辑 (删除、插入) 才能修复 AI 的句子。 (此处分数越低越好) 。
2. 人工评估: MQM 框架
像 BLEU 这样的算法速度很快,但它们无法分辨翻译是否具有攻击性或危险性。为此,研究人员使用了多维质量度量 (MQM) 框架。
他们聘请了母语人士,要求他们寻找特定的错误类型:
- Mistranslation (误译): 含义错误。
- Addition/Omission (增译/漏译): AI 添加了原本没有的词或删除了必要的词。
- Untranslated (未翻译): AI 放弃翻译,保留了原文。
- Grammar/Punctuation/Spelling (语法/标点/拼写): 结构性错误。
标注者为每个错误分配一个“严重程度” (Severity) : 中立、轻微、严重或极严重。
计算总体质量得分 (OQS)
为了将这些人工观察转化为可比较的数字,研究人员使用了一组特定的公式。首先,他们计算了总体质量得分 (OQS) 。

在这个公式中:
- PWPT 是“单词惩罚总计 (Per-Word Penalty Total) ”。
- PS 是惩罚缩放因子 (设定为 1) 。
- MSV 是最大分值 (设定为 100) 。
为了得到 PWPT , 他们将总惩罚除以单词总数:

最后, APT (绝对惩罚总计) 是所有错误惩罚的总和。一个“轻微”错误可能扣 1 分,而一个“极严重”错误扣 10 分。

这种严谨的数学方法使研究人员能够基于人类判断量化翻译究竟有多“糟糕”。
实验与结果: 好的、坏的和不知所云的
那么,模型的表现如何呢?
自动评估结果
当依赖算法时,模型之间的差异非常明显。NLLB (No Language Left Behind) 模型的表现显著优于较旧的 M2M 模型。

在表 2 (阿姆哈拉语到英语) 中,请看 BLEU 列。 NLLB3.3B 模型的得分达到了 26.7 。 在机器翻译领域,超过 20 分通常被认为是“可理解的”,超过 30 分则是“优秀的”。
现在看看 M2M418M 。 它只得了 3.07 分。这本质上就是随机噪声。这表明该模型几乎完全无法从阿姆哈拉语输入中生成连贯的英语。
反向 (英语到阿姆哈拉语) 的结果也是类似的:

如表 3 所示,NLLB 模型的得分始终徘徊在 20-22 BLEU 左右,而 M2M 则落后。有趣的是,较小的“蒸馏”版 NLLB (NLLB1.3BD) 表现相当有竞争力,这表明如果训练得当,高效的小型模型也适用于低资源语言。
人工评估结果
虽然自动指标给出了大致排名,但人工评估揭示了真相。标注者按 0 到 5 分对句子进行评分 (0 表示不相关,5 表示完美) 。

表 4 显示了基于人工评分的准确率百分比。 NLLB3.3B 模型在英语到阿姆哈拉语翻译中达到了 76.1% 的准确率。这是一个有希望的结果,表明对于四分之三的句子,模型生成了高质量的输出。
然而,请注意较小模型的性能下滑。1.3B 模型下降到了 42.67% 。 这表明对于低资源语言, 模型规模至关重要。 模型需要额外的容量来记忆和泛化阿姆哈拉语的复杂规则。
为了确保这些人工评分是可靠的,研究人员计算了 Fleiss’ Kappa , 这是一种衡量不同标注者之间一致性的统计指标。

表 5 显示系数大致在 0.2 到 0.4 之间。虽然在统计学家看来这可能较低,但在主观的翻译评估领域,这代表了“一般一致性 (Fair Agreement) ”。它证实了标注者在哪些翻译是好的、哪些是坏的方面大体上达成了一致。
最后,查看根据错误惩罚计算出的总体质量得分 (OQS) :

表 6 证实了 NLLB3.3 的主导地位。它在英语到阿姆哈拉语中获得了 84.77 分。这表明虽然存在错误,但通常是轻微的,文本在很大程度上仍然可用。
错误分析: 当 AI 产生幻觉
这是研究中最关键的部分。数字告诉我们模型犯了错,但定性分析告诉我们这些错误是什么。
研究人员将错误归类为特定类型。让我们看看这些错误的分布。

在图 2 (阿姆哈拉语到英语) 中,蓝色和红色部分代表较大的 NLLB 模型。主要的错误类型是误译 (Mistranslation) 和漏译 (Omission) 。 这意味着模型不仅仅是犯语法错误;它搞错了核心含义,或者完全跳过了句子的一部分。

图 3 (英语到阿姆哈拉语) 显示了类似的模式,尽管错误的总体数量略有不同。
“幻觉”: 具体案例
研究人员提供的具体案例令人着迷,凸显了在没有人工监督的情况下依赖 AI 进行翻译的危险。
1. 命名实体问题
模型在处理人名和地名时非常吃力。
- 总理: 模型始终无法翻译“Dr. Abiy” (埃塞俄比亚总理) 。M2M 模型将他的名字翻译成了 “基地组织 (Al-Qaeda) ” 。 这是一个“极严重”级别的错误。想象一下,一家新闻机构使用这个模型来翻译政府演讲;地缘政治后果可能是灾难性的。
- 地理: 城市“巴赫达尔 (Bahir Dar) ” (阿姆哈拉州首府) 被翻译成了“古吉拉特邦 (Gujarat) ” (印度的一个邦) 。模型可能在训练数据中将“地区”和“首府”与印度的关联多于与埃塞俄比亚的关联,从而导致了幻觉。
2. 直译与语境翻译
像所有语言一样,阿姆哈拉语也有不应该直译的习语和名称。

表 7 突出了这些问题。
- Mr. Wendimkun: “Wendimkun” 是一个专有名称。然而,模型将其按字面意思拆分为 “Wendim” (兄弟) 和 “Kun” (是/Be) ,将 “Mr. Wendimkun” 翻译成了 “Mr. Brotherkun” 。
- Coca-Cola: 著名的苏打水品牌被翻译成了 “KOKO KOLLA”,这是一个语音上的乱码,失去了品牌辨识度。
3. “可卡因”事件
也许最令人震惊的错误发生在英语到阿姆哈拉语的翻译中。

如表 8 (第三行) 所示,源文本讨论的是“喜力 (Heineken) ” (啤酒) 。模型将其翻译成了 “快克可卡因 (crack cocaine) ” 。 同样,在另一个例子中,关于“可口可乐 (Coca-Cola) ”的句子被误译为暗示某人是“ 可卡因走私贩 ”。
这些错误 (严重程度: 极严重) 之所以发生,可能是因为模型在训练数据中经常遇到与毒品相关的 “coca” 一词,未能区分其作为软饮料的语境。
4. 文化误解
电影《音乐之声》 (The Sound of Music) 被直译为“音乐的噪音” (YeMuziqa Dimts) ,而不是保留标题或使用文化上公认的译名。公司名称 “Friendly” 被翻译为“友谊” (Wedajinet) ,失去了其作为专有名词的地位。
结论: 阿姆哈拉语 AI 的未来之路
这项研究为 AI 社区提供了一个至关重要的现实检验。虽然像 NLLB-200 这样的模型相比其前辈 (如 M2M) 是一个巨大的飞跃,但它们还不是阿姆哈拉语的流利使用者。
主要收获:
- 规模致胜: 33 亿参数的模型 (NLLB3.3B) 是唯一能持续产生可用翻译的模型。较小的模型难以掌握语言的复杂性。
- 语境为王: 模型在处理“命名实体” (人名、地名、品牌) 时很吃力。当它们不认识一个名字时,往往会默认产生幻觉或直译。
- 必须有人工介入: 26 分的 BLEU 分数在纸面上看起来可能不错,但它无法捕捉到模型刚刚把总理称为恐怖分子或把软饮料称为硬毒品的事实。对于低资源语言,自动指标不能成为唯一的衡量标准。
作者的结论是,虽然 mLLM 潜力巨大,但未来的工作必须集中在更好地处理专有名称以及增加阿姆哈拉语数据集的规模和质量上。对于对 NLP 感兴趣的学生和开发人员来说,这篇论文提醒我们: 不要只看分数;去读一读翻译内容。
通过揭露这些错误,Alemyehu、Zahera 和 Ngonga Ngomo 为下一代翻译模型奠定了基础——希望下一代模型能分清清爽的饮料和重罪之间的区别。
](https://deep-paper.org/en/paper/file-3040/images/cover.png)