引言: AI 领域的语言鸿沟

如果你要求像 GPT-4 这样的现代大型语言模型 (LLM) 将一个句子从英语翻译成法语，其结果往往与人工翻译难辨真假。该模型在训练期间见过数十亿个法语单词。它“懂”法语。

但如果你要求同一个模型将句子翻译成 Chokwe (安哥拉的一种班图语) 或 Gitksan (不列颠哥伦比亚省的一种土著语言) ，结果会如何？

模型很可能会失败，或者产生幻觉。这就是自然语言处理 (NLP) 领域的巨大不平等。互联网被少数几种语言主导——英语占据了超过 50% 的网络内容——而大约 7,000 种其他语言则被甩在后面。这些“低资源”语言缺乏训练传统翻译系统所需的大量平行句对数据 (例如，“Hello”对应“Bonjour”) 。

那么，我们该如何解决这个问题？我们可以花几十年时间雇佣语言学家翻译数百万个句子来创建训练数据。或者，我们可以尝试一种不同的方法: 让 AI 重返校园。

在研究论文*“Back to School: Translation Using Grammar Books”*中，研究人员 Jonathan Hus 和 Antonios Anastasopoulos 提出了一个引人入胜的解决方案。与其从头开始训练模型，不如直接给现有的 LLM 一本字典和一本语法教科书，让它在翻译时现学现卖，这会怎么样？

这个看似简单的想法利用了现代 LLM (如 GPT-4-turbo) 的海量上下文窗口，将整本书输入模型的短期记忆中，有效地在翻译的那一刻教会它一门从未见过的语言。

背景: 数据瓶颈

要理解这篇论文的创新之处，我们需要先了解标准机器翻译 (MT) 的局限性。

传统的神经机器翻译 (NMT)

像 Google 翻译或研究模型 NLLB (No Language Left Behind，无语言遗留) 这样的系统依赖于监督学习 。它们学习 \(p(\mathbf{y}|\mathbf{x})\)，即给定源句子 \(\mathbf{x}\) 时目标句子 \(\mathbf{y}\) 的概率。为了准确学习这种概率分布，它们需要大量的成对数据。对于高资源语言，我们有数 TB 的这类数据。对于低资源语言，我们几乎一无所有。

大型语言模型范式

LLM 则不同。它们被训练来预测序列中的下一个 token (\(p(x)\)) 。最近，它们经过“指令微调”以遵循命令。如果你提示 LLM “翻译这个”，它会建模 \(p(\mathbf{y}|\pi)\)，其中 \(\pi\) 是提示词 (prompt) 。

这篇论文利用的突破点是上下文学习 (In-Context Learning) 。你不需要更新模型的权重 (这很昂贵且需要训练数据) ，而是在提示词中提供信息。以前，提示词很短。你可以给模型几个例子 (少样本学习) 。但随着支持 128,000 token 上下文窗口的模型的出现，一种新的可能性出现了: 我们可以把整本书放进提示词里。

核心方法: 通过“阅读手册”进行翻译

研究人员关注了 16 种类型多样的低资源语言，包括 Ilokano (菲律宾) 、Guarani (南美洲) 和 Wolof (西非) 。

他们方法的核心是构建一个复杂的提示词 (\(\pi\)) ，作为目标语言的速成课程。提示词 \(\pi(\mathbf{x}, t, d, s, g)\) 由五个不同的部分组成:

任务 (\(t\)): 简单的指令，告诉模型它是一名专家翻译。
源句子 (\(\mathbf{x}\)): 需要翻译的文本。
字典 (\(d\)): 来自双语字典的相关条目。
平行句子 (\(s\)): 几个与输入相似的已翻译句子示例。
语法书 (\(g\)): 语言语法书的全文。

让我们以此来看看研究人员是如何收集和利用这些资源的。

1. 资源

对于其中许多语言，唯一可用的数据来自田野语言学家，他们在语法书或小型字典中记录了该语言。

字典: 团队从 PanLex 获取了双语字典。这些通常只是简单的单词列表。 平行句子: 他们使用了 FLORES-200 数据集，这是低资源翻译的基准。然而，对于像 Gitksan 这样的某些语言，标准大规模数据集中基本上没有平行句子。

下表说明了这些语言的数据稀缺性。请注意，像 Dogri、Gitksan 和 Natugu 这样的语言在通用训练语料库 (OPUS) 中列出的句子数量为零。

显示句子数量和字典单词数的表格。

2. 语法书

这是最新颖的部分。研究人员从 DReaM 语料库中选择了数字化的语法书。这些不是整洁的、机器可读的 JSON 文件；它们通常是几十年前写的实体书的 OCR 扫描件。它们的长度从 40,000 到 120,000 个 token 不等。

列出每种语言使用的具体语法书的表格。

上图显示了实际使用的书名。例如，对于 Dinka , 他们使用了一本 1948 年的语法书。对于 Kachin , 则是一本 1902 年的手册。这些书包含扫描伪影、页眉和页码，使 LLM 的任务更加艰巨。

3. 构建提示词

在推理时 (即翻译发生时) ，系统会动态构建提示词:

字典查找: 系统查看源句子中的单词，并使用最长公共子序列 (LCS) 距离在字典中找到最接近的匹配项。它将这些定义粘贴到提示词中。
句子检索: 它在少量可用的平行句子集中搜索，以找到任何与输入句子共享相似单词或结构的句子，并将它们作为示例添加进去。
注入书籍: 它将语法书的全部文本粘贴到提示词中。

然后 LLM 被告知: “这是一本字典、一些例子和一本语法书。现在翻译这句话。”

实验与结果

研究人员比较了四种不同的配置，看看什么对翻译性能真正有帮助:

Baseline (基线) : 零样本翻译 (仅有指令) 。
W: 添加单词 (字典) 。
W+S: 添加单词 + 句子。
W+S+G: 添加单词 + 句子 + 语法书。

他们使用 chrF++ 分数 (一种查看字符重叠的指标，对形态复杂的语言很有用) 评估翻译，并将结果与 NLLB (No Language Left Behind) 进行了比较，后者是目前专为多语言翻译训练的最先进模型。

主要结果

结果令人惊讶且微妙。这并不是一场简单的“更多上下文 = 更好翻译”的全面胜利。

比较不同方法的集体结果表。

让我们分析上表:

NLLB vs. LLM: 对于 NLLB 支持的语言 (如 Ilokano 和 Guarani )，NLLB 通常表现更好。这很有道理；NLLB 是专门针对这些语言训练的。然而，“重返校园”方法具有竞争力，偶尔甚至更优 (例如 Kabuverdianu English\(\to\)X) 。
语法的影响: 添加语法书( W+S+G )为几种语言提供了最佳结果，特别是 Kalamang 和 Natugu 。
意外之处: 对于许多语言，仅仅使用单词和句子( W+S )比添加语法书更好。在某些情况下，添加书本反而损害了性能。

为什么语法书有时会有负面影响？

这是论文中最关键的见解。为什么给模型提供更多信息 (整本关于语言运作原理的书) 会导致更差的翻译？

研究人员假设这取决于模型已经知道了多少。

如果 GPT-4 是在网络上预训练的，它可能见过一些像 Ilokano 或 Guarani 这样的语言内容，这些语言有一定的网络存在感。如果模型已经“懂”这门语言，那么把一本 1902 年的、充满噪音的 OCR 扫描 PDF 扔进它的上下文窗口，可能会起到干扰作用，而不是帮助。

然而，对于极度低资源的语言 (如 Gitksan 或 Natugu )，它们几乎没有网络存在感，模型对此一无所知。在这些情况下，语法书是必不可少的。

可视化相关性

为了证明这一点，作者绘制了翻译质量与可用句子数量 (作为语言“已知”程度的代理) 的关系图。

散点图显示翻译质量与可用句子的关系。

仔细观察上图 1 中的左图 (English \(\to\) X) :

绿色方块 (W+S+G，使用语法书) 倾向于在 X 轴的最左侧表现最好——这些是资源最少的语言 (\(10^1\) 到 \(10^3\) 个句子) 。
当你向右移动 (朝向高资源语言) 时, 橙色十字 (W+S，仅示例) 甚至蓝色圆圈 (基线) 通常占据领先地位。

这表明存在一个“交叉点”。如果 AI 真的不认识一门语言，你需要教科书。如果 AI 以前见过这门语言，只需给它几个例子唤起它的记忆即可。

回归分析

研究人员进行了线性回归，以从数学上确定哪些特征预示着成功。他们查看了字典大小、语料库大小和语法书的困惑度 (书有多难懂) 。

显示特征重要性 R 平方值的表格。

上表证实了他们的猜想。

字典单词数: 正面影响。词汇量总是越多越好。
语法书长度: 正面影响。书越长通常意味着规则越详细。
可用句子数: 相对于基线产生负面影响。这意味着随着一种语言变得越来越普遍 (存在的句子越多) ，复杂提示词相对于基线的具体收益就会减少。

结论: 为“长尾”语言提供生命线

这项研究标志着人工智能翻译民主化迈出了重要一步。它强调，我们不一定需要抓取整个网络或雇佣数千名翻译人员来为稀有语言构建系统。有时，数字化一本 20 世纪编写精良的语法书，并将其输入巨大的上下文窗口，就足以起步了。

关键要点

上下文为王: 处理 128k token 的能力使我们能够改变教学模型的方式——从训练权重转变为实时提供参考资料。
没有一刀切的方法: 语法书是针对最生僻语言 (“长尾”) 的强大工具。对于有数字足迹的语言，少样本提示通常就足够了。
资源差距: 输出的质量在很大程度上取决于输入的质量。OCR 扫描混乱的语法书限制了性能。改进语言资源的数字化是改善全球交流的一个容易实现的目标。

“重返校园”的方法通过一种未来图景: 保护一门语言不仅仅是将其归档在图书馆里——而是创建一本有朝一日能教会 AI 说这门语言的手册，确保没有任何语言会真正消失在历史中。

引言: AI 领域的语言鸿沟#

背景: 数据瓶颈#

传统的神经机器翻译 (NMT)#

大型语言模型范式#

核心方法: 通过“阅读手册”进行翻译#

1. 资源#

2. 语法书#

3. 构建提示词#

实验与结果#

主要结果#

为什么语法书有时会有负面影响？#

可视化相关性#

回归分析#

结论: 为“长尾”语言提供生命线#

关键要点#