简介

我们通常认为像 ChatGPT 这样的大语言模型 (LLM) 是通用的翻译器。如果你要求现代 LLM 将英语翻译成法语或西班牙语,结果往往流畅且准确。然而,这种表现并非在所有语言上都一样。当我们离开高资源语言,尝试翻译成“低资源”语言——那些在互联网上训练数据明显较少的语言——时,模型往往会表现不佳。它们会产生幻觉、遗漏关键术语,或者完全无法生成连贯的文本。

对于自然语言处理 (NLP) 领域的研究人员和学生来说,这带来了一个显著的公平性差距。我们如何才能让这些强大的模型服务于成千上万种没有像英语或中文那样拥有海量网络语料库的语言呢?

一篇题为 “Chain-of-Dictionary Prompting Elicits Translation in Large Language Models” (字典链提示激发大语言模型的翻译能力) 的近期论文提出了一个引人入胜且无需训练的解决方案。研究人员引入了一个名为 字典链 (Chain-of-Dictionary, CoD) 的框架。CoD 不会对模型进行微调,也不依赖于难以寻找的例句,而是将多语言字典定义的“链条”直接注入到提示 (prompt) 中。

结果令人震惊。仅仅通过提供这些词汇链,研究人员在某些语言对上实现了高达 13 倍的性能提升,有时甚至超过了像 NLLB 这样最先进的专用翻译模型。在这篇文章中,我们将解构 CoD 的工作原理,为什么“链接”语言比简单翻译更有效,并看看其成功的实证证据。

问题所在: 词汇鸿沟

要理解为什么 CoD 是必要的,我们首先需要看看 LLM 为什么会在翻译上失败。在低资源环境中,罪魁祸首主要是“词汇层面”的问题。对于生僻词或特定的语法结构,模型根本没有见过足够的示例来将其从源语言正确映射到目标语言。

解决这个问题的标准方法涉及 上下文学习 (In-Context Learning, ICL) , 特别是少样本提示 (few-shot prompting) 。这就是你在要求模型翻译新句子之前,先给它几个正确翻译的完整句子示例 (例如,“这是一个英语句子,这是泰米尔语的翻译”) 。

然而,对于低资源语言来说,找到相关且高质量的句对作为少样本示例是很困难的。此外,论文指出,不相关的少样本示例实际上对模型理解输入句子的特定词汇帮助不大。

这就是字典发挥作用的地方。字典比对齐的平行语料库更容易获取。但是,仅仅将字典条目粘贴到提示中并不总是足够的。研究人员从 思维链 (Chain-of-Thought, CoT) 推理中汲取了灵感——即向模型展示中间推理步骤可以提高性能。他们将这一逻辑应用于翻译,创建了一个跨越多种语言的意义“链条”。

核心方法: 字典链 (CoD)

CoD 框架基于一个简单但强大的前提: 给 LLM 一个作弊条 (cheat sheet) ,但要让它是多语言的。

当系统接收到一个源句子时,它会在发送最终提示给 LLM 之前执行以下步骤:

  1. 关键词提取: 识别输入句子中可能难以翻译的特定单词。
  2. 字典查找: 在字典中查找这些单词。
  3. 链接: 它不仅仅是查找目标语言的翻译,还会检索目标语言 加上 几种“辅助”高资源语言 (如法语、德语或葡萄牙语) 的翻译。

提示结构

由此产生的提示由两部分组成: 标准的翻译请求和链接的多语言字典。

格式如下所示: "<源语言单词> means <目标语言单词> means <辅助语言 1 单词> means <辅助语言 2 单词>."

通过显式地将源词与目标词联系起来,然后将该目标词与 LLM 非常理解的其他语言 (如德语或法语) 联系起来,提示创建了一座语义“桥梁”。

图 1: 英语到泰米尔语翻译的 CoD 演示。CoD 由两部分组成: 标准翻译提示 (上方的方框) 和链接的多语言字典。我们在 CoD 部分按语言高亮显示了链接的字典部分,包含不同语言的单词及其翻译。在这个例子中,CoD 优于标准提示。

图 1 所示,输出结果的差异是巨大的。

  • 左侧 (标准提示) : 模型试图将一个关于糖尿病老鼠的英语句子翻译成泰米尔语。由于缺乏上下文,它产生了一个低质量的翻译,回译成英语后谈论的是“肥皂”和“两个月大的肥皂”,完全丢失了生物学语境。
  • 右侧 (CoD 提示) : 提示包含了一个链条。对于英语单词“diabetic” (糖尿病的) ,它提供了泰米尔语翻译,同时也提供了德语 (Diabetiker) 和法语 (diabétique) 的对应词。这种额外的上下文稳定了模型的理解。结果生成的泰米尔语翻译是准确的。

为什么链接语言很重要

你可能会问: 为什么不直接给出英语到泰米尔语的翻译?为什么要加上法语和德语?

作者假设高资源语言充当了“跨语言线索”。像 ChatGPT 这样的 LLM 已经阅读了大量的法语和德语文本。如果模型参数中英语和低资源语言之间的联系很弱,那么低资源语言和法语之间的联系可能会稍强一些,或者通过在三种主要语言中看到该词所形成的语义簇强化了正确的含义。

研究人员通过消融实验 (即移除系统的某些部分以观察什么会失效) 验证了这一假设。

表 2: CoD 和各种基线方法在 GPT-3.5 上的评估结果,平均值来自 200 种语言。我们报告的是从英语翻译成其他语言的结果。

表 2 强调了链条的重要性:

  • 双语字典 (第 3 行) : 仅使用 源语言 \(\rightarrow\) 目标语言 将性能提升至 36.37 分。
  • 分解字典 (第 4 行) : 如果将翻译作为单独的句子提供 (打破链条) ,性能显著下降至 31.20。
  • CoD (第 12/13 行) : 完整的链条将性能推高至 38.27。

这证实了提示的 结构——特别是以连续的链条链接含义——使得模型能够更有效地利用其多语言先验知识。

实验与结果

研究人员在 FLORES-200 基准上评估了 CoD,这是一个涵盖约 200 种语言的大型数据集。他们使用 ChatGPT (GPT-3.5-Turbo)、InstructGPT 和 BLOOM 进行了测试。

低资源语言的巨大收益

结果最直观的表现来自 CoD 与标准 ChatGPT 提示在所有 200 种语言上的对比。

图 2: 从英语翻译成其他语言的 200 种语言中,基线 ChatGPT (GPT-3.5-TURBO) 和 CoD 的图示比较。我们将 ChatGPT 的 chrF++ 语言得分按降序排列。CoD 对许多语言都有效,尤其是对低资源语言。

图 2 中,蓝色条代表基线 ChatGPT 的性能,红色条代表 CoD。

  • 上图 (高/中资源) : 对于 ChatGPT 已经擅长的语言 (左侧) ,CoD 提供了适度的改进。
  • 下图 (低资源) : 看下图的右侧。有些语言的蓝色条几乎不存在 (意味着模型完全失败) ,但红色条却猛增。

例如,在将英语翻译成塞尔维亚语 (西里尔字母) 时,得分从 3.08 跃升至 42.63——整整 13 倍的提升。

统计概览

这些改进有多一致?作者分析了各种语言对的胜负比例。

表 1: GPT-3.5-TURBO 上使用 CoD 在 200 种语言中的 chrF++ 变化统计。83.75% 的方向 (400 个中的 335 个) 得到了改善。CoD 的优势明显大于劣势。

表 1 所示:

  • X-En (翻译成英语) : CoD 提升了测试的 每一种 语言的性能 (200/200) 。
  • En-X (从英语翻译) : CoD 改善了 200 种语言中的 135 种。至关重要的是,其中 71 种语言的提升超过了 5 分,这在翻译指标 (chrF++) 中是一个显著的幅度。
  • 性能下降: 在少数性能下降的情况下,与成功案例中的巨大收益相比,下降幅度通常很小。

击败专用模型

也许最令人印象深刻的说法是,这种通用 LLM (配备 CoD) 与专门为翻译训练的模型 (如 Meta 的 NLLB,No Language Left Behind) 相比如何。

表 5: 基于 GPT-3.5-TURBO 的 CoD 与 SOTA 翻译器 NLLB 在 FLORES-200 全开发测试集上 200 种语言的 chrF++ 得分对比。

表 5 显示,虽然 NLLB 在从英语翻译 出去 (En-X) 方面仍占优势,但 CoD 使得 ChatGPT 在翻译 英语 (X-En) 时实际上 超过了 NLLB 。 CoD 的 66.12 分击败了 NLLB 的 54.77 分。这表明,对于涉及理解低资源语言并将其转换为英语的任务,提示后的 LLM 正成为比专用翻译系统更优的选择。

案例研究: 定性分析

数字讲述了一个故事,但实际的文本样本向我们展示了模型 如何 改进。论文提供了几个案例研究,其中标准模型产生幻觉或未能掌握主题,而 CoD 保持了准确性。

图 3: 使用 GPT-4 将英语翻译成带拉丁字母的基孔戈语的案例研究。我们用绿色高亮显示了基线翻译错误但 CoD 翻译正确的单词。

图 3 中,任务是将一个关于奥运奖牌的句子翻译成基孔戈语。

  • 标准提示: 输出 (回译后) 谈论的是“八棵树”和“集会”。它完全迷失了方向。
  • 双语提示: 好一些,但它幻觉出了“运输货物的气泡”。
  • CoD 提示: 翻译准确地传达了“18 枚奖牌”和“领奖台”。

作者提出的一个有趣的观察是,CoD 似乎甚至能“诱发”字典链中 明确包含的单词的翻译能力。通过链条设定正确的上下文和主题,模型激活了针对该语言的正确参数子集,从而改善了整个句子的翻译,而不仅仅是关键词。

结论与启示

这篇“字典链”论文为在机器翻译中使用检索增强提示提供了有力的论据。与其接受 LLM 在低资源语言上就是“糟糕”的,这项研究表明,这种能力通常存在于模型内部——只是需要正确的钥匙来解锁它。

主要收获:

  1. 先验知识是关键: 对于低资源语言,注入字典定义比少样本示例效果更好,因为字典更容易获取且提供精确的语义基础。
  2. 多语言辅助多语言: 通过高资源语言 (法语、德语) 链接翻译,稳定了模型对低资源语言的理解。
  3. 无需训练的改进: 这种方法不需要微调或模型更新。它纯粹是一种可以应用于任何现有 LLM 的提示策略。

随着 LLM 的不断发展,像 CoD 这样的技术对于确保这些技术能够服务于所有语言的使用者 (而不仅仅是主流语言) 至关重要。它弥合了字典的静态知识与大语言模型的生成流畅性之间的鸿沟。