AI 真的会说“挪威语”吗？为低资源语言构建生成式模型

如果你关注人工智能目前的发展轨迹，你可能会认为大型语言模型 (LLMs) 已经攻克了自然语言处理的难题。像 GPT-4 这样的模型可以轻松地写诗、用 Python 编程，甚至总结法律文件。然而，在 AI 领域中存在着一种隐性的不平等: 英语的主导地位。

虽然以英语为中心的模型蓬勃发展，但那些使用者较少——因此数字化训练数据也较少——的语言往往被甩在后面。这一类语言被称为低资源语言 (Low-Resource Languages, LRLs) , 其中包括只有约 500 万人口使用的挪威语。当我们用这些主流模型测试此类语言时，经常会发现“翻译”并不等同于“理解”。一个模型可能能正确翻译单词，但在理解文化细微差别或本地语境方面却表现得一塌糊涂。

今天，我们将深入探讨一篇题为 “NLEBench+NorGLM” 的研究论文。这项工作代表了北欧自然语言处理 (NLP) 向前迈出的重要一步。研究人员不仅测试了现有模型，还从头开始构建了一套新的挪威语语言模型( NorGLM )，并创建了一个全面的基准测试套件( NLEBench )来正确评估它们。

对于 NLP 专业的学生来说，这篇论文堪称典范，它展示了当你没有英语网络那样无限的资源时该如何进行语言建模，以及在数据受限的情况下，为什么“更大”并不总是“更好”。

问题所在: 为什么英语模型在挪威语上常常失效

在深入架构之前，我们需要理解这种差距。历史上，大多数针对低资源语言的基准测试都集中在判别式 (discriminative) 任务上。这些任务通常是分类或多项选择题 (例如，“这句话是褒义还是贬义？”) 。

然而，现代 AI 革命建立在生成式 (generative) 任务之上——撰写文本、回答开放式问题和总结文章。目前缺乏专门测试模型生成挪威语能力的基准。

此外，当研究人员简单地将英语基准 (如著名的 GLUE 基准) 翻译成挪威语时，他们会丢失文化语境。一个被翻译成挪威语的关于美国历史的问题，测试的是模型的翻译能力，而不是它对挪威文化的了解。

为了填补这一空白，该论文的作者推行了两项巨大的举措:

NorGLM: 训练一套专门针对挪威语的生成式语言模型。
NLEBench: 创建一个包含翻译、摘要以及——至关重要的是——文化根基的基准测试。

第一部分: 构建 NorGLM (模型篇)

训练一个 LLM 需要海量的文本语料库。对于英语来说，这很容易。对于挪威语，则需要精心策划。研究人员汇编了一个总计 1987 亿个 token 的数据集。

如下图所示，数据不仅仅是挪威语。它包含了挪威语 (71%) 、瑞典语 (10%) 、丹麦语 (8%) 和英语 (6%) 的混合。包含这些邻近的北日耳曼语支语言是一个战略举措，旨在通过迁移学习提高模型的语言鲁棒性。

图 1: 预训练数据集中的数据分布。内部部分代表语言，外部部分表示各种来源的挪威语数据集。数据集大小以数字显示 (单位: 千兆字节) ，以及它们占总数据集的百分比。右侧标签指示每种语言的 token 数量，以十亿计。

挪威语数据本身来自不同的来源:

mC4 和 OSCAR: 大规模的网络爬取语料库 (经过清洗和过滤) 。
Nasjonalbiblioteket: 来自挪威国家图书馆的无版权材料。
新闻与社交媒体: 高质量的新闻文章 (Schibsted 集团) 以及来自 Reddit 和 Twitter 的非正式文本，以捕捉对话的细微差别。

架构

研究人员训练了几个模型，统称为 NorGLM , 具有不同的大小，以测试参数规模如何影响低资源环境下的性能:

NorGPT-369M: 基于 GPT-2 架构的较小模型。
NorGPT-3B: 一个中等规模的模型 (30 亿参数) 。
NorLlama-3B: 一个使用 Llama 架构的模型，用于测试架构变化 (如不同的激活函数) 是否影响性能。
NorGPT-23B: 一个拥有 230 亿参数的大型模型。

他们还将这些模型与 NB-GPT-J-6B (一个现有的基于英语训练并针对挪威语微调的模型) 以及商业巨头 GPT-3.5-Turbo 进行了比较。

具体的训练参数，包括层数和上下文窗口，如下详述。请注意，训练 23B 模型所需的计算资源 (全局批大小为 112) 明显多于较小的模型。

表 7: NorGLMs 的训练参数设置

第二部分: NLEBench (评估套件)

你无法提升你无法衡量的东西。这篇论文的第二个主要贡献是 NLEBench 。研究人员超越了简单的分类任务，纳入了复杂的生成式任务。

他们将数据集分为三类:

现有数据集: 改编为挪威语的标准 NLP 任务 (例如，情感分析) 。
机器翻译数据集: 通过 Google 翻译 API 翻译的英语基准 (例如，用于摘要任务的 CNN/DailyMail) 。
人工标注数据集: 专门为此项目创建的全新数据。

下表提供了基准测试的全面概览。注意任务的多样性: 从指令微调 (Instruction Fine-tuning，即听从命令) 到偏见检测和多任务学习 。

表 1: NLEBench 数据集和评估设置概览。LoRA 表示低秩适应。RLHF 表示基于人类反馈的强化学习。Dist-4 表示 Distinct-4 分数。PPL 表示困惑度。

创新点: 多任务协同 (NO-Multi-QA-Sum)

NLEBench 中最有趣的部分之一是 NO-Multi-QA-Sum 数据集。研究人员认为，标准基准使用的是“单任务”数据 (例如，仅仅总结这段文字) 。然而，真正的理解通常涉及连接不同的任务。

为了测试这一点，他们聘请了人工标注员阅读新闻文章并执行两个相关联的动作:

围绕文章进行对话 (问答) 。
撰写文章的摘要。

这就创建了一个数据集，其中的问题、答案和摘要都在数学和逻辑上与同一篇源文本相关联。这使得研究人员能够测试思维链 (Chain-of-Thought, CoT) 推理。如果模型先回答关于文本的问题，它能写出更好的摘要吗？

用于此人工标注过程的界面如下所示。它集成了 GPT-4 的建议，然后由人类进行验证和修正，这是一种“人在回路 (human-in-the-loop) ”的数据生成方法。

图 7: 用于多任务基准标注的 API 界面。

实验与关键结果

研究人员进行了广泛的实验，将他们的 NorGLM 模型与现有的 NB-GPT-J-6B 和 OpenAI 的 GPT-3.5 进行了比较。结果提供了一些反直觉的见解。

1. GPT-3.5 的“英语中心”偏见

人们可能认为 GPT-3.5 会凭借其巨大的规模碾压竞争对手。虽然它在一般任务上表现良好，但在挪威文化语境方面却举步维艰。

在下面的例子中，指令问道: “谁写了歌曲 ‘Ut mot havet’？”

人类真相: Finn Kalvik。
GPT-3.5: Jo Nesbø (著名的犯罪小说作家) 。

GPT-3.5 产生幻觉，将其连接到一个它确实知道的挪威名人 (Jo Nesbø) 身上，而不是检索正确的文化事实。这凸显出，虽然大规模多语言模型可以在语法上通过图灵测试，但它们往往缺乏本土模型的“文化知识图谱”。

图 3: GPT3.5 在 NO-AlpacaPlus 挪威文化指令上的生成表现示例。右侧为翻译。

同样，当被问及一个特定的本土俚语/表达 (“hestkuk”) 时，GPT-3.5 将其视为一般的粗俗语言，而人类标注者则正确地将其识别为挪威北部使用的特定区域表达。

图 4: GPT3.5 在 NO-AlpacaPlus 挪威语特殊表达指令上的生成表现示例。右侧为翻译。

2. 规模不是一切

在观察新闻摘要任务 (NO-CNN/DailyMail) 时，研究人员发现，仅仅增加参数并不能保证胜利。

如下表所示, NB-GPT-J-6B (一个 60 亿参数的模型) 在 ROUGE 分数 (衡量文本重叠的指标) 上经常优于大得多的 NorGPT-23B 。

表 3: 新闻摘要任务的实验结果。

为什么? NB-GPT-J-6B 在针对挪威语微调之前，是在海量英语语料库上进行预训练的。而 NorGPT 模型是从头开始训练的。这表明对于低资源语言, 迁移学习 (从一个聪明的英语模型开始，教它挪威语) 可能比试图在有限的本土数据上从头构建一个巨大的本土模型更有效。

3. 协同效应与思维链 (CoT)

研究人员利用他们的多任务数据集测试了“协同效应”假设。他们要求模型:

任务 A: 回答关于文章的问题，然后利用这些答案来写摘要。
任务 B: 写摘要，然后根据摘要回答问题。

他们发现, 思维链提示 (要求模型先通过问题进行推理) 显著提高了生成摘要的事实一致性 (蕴含得分，Entailment Score) 。

有趣的是，GPT-3.5 在使用 CoT 后性能有了大幅提升，这表明虽然它缺乏文化知识，但其推理引擎非常发达。较小的挪威语模型也看到了改进，证明如果引导得当，即使是较小的模型也能进行推理。

表 4: 使用 NO-Multi-QA-Sum 数据集进行摘要任务 (任务一) 的实验结果。

4. 毒性与偏见

最后，研究人员评估了模型的毒性 (toxicity) 。关于有毒生成内容的来源，他们发现了一些令人惊讶的事情。我们通常假设毒性来自 Reddit 或 Twitter 数据。然而，研究人员将高毒性分数追溯到了描述犯罪的新闻文章 (例如，“夺去生命/杀害”) 。

下表显示了毒性评分。 NorLlama-3B 的毒性评分最低，但作者指出，这部分是因为它经常生成无意义的文本，而毒性过滤器没有标记这些文本。这提醒学生们: 永远要检查为什么一个指标看起来很好！

表 15: 挪威语生成式语言模型的毒性实验结果。分数是使用 Perspective API 获得的，分数越高表示生成的毒性越大。

结论: 低资源 NLP 的未来

NLEBench+NorGLM 论文为 AI 民主化提供了路线图。它表明我们不能仅仅依靠硅谷巨头来解决地球上每种语言的自然语言处理问题。

给学生的关键启示:

语境很重要: 像 GPT-3.5 这样的模型在挪威语语法上可能完美无缺，但在文化上却是文盲。我们需要本土基准来检测这一点。
数据质量 > 模型规模: 在有限的数据上训练 23B 参数的模型收益递减。明智的数据策划或迁移学习 (来自英语模型) 往往更有效。
多任务处理是未来: 孤立的基准测试 (仅摘要，仅翻译) 正变得过时。未来在于协同任务，模型必须展示跨不同思维模式的推理能力。

研究人员已公开发布了他们的模型和数据集。这对于科学界至关重要，确保像挪威语这样的语言的保存和发展是在开放中进行的，而不是在封闭的 API 门后。

这篇博文总结了来自挪威科技大学的 Liu 等人的论文 “NLEBench+NorGLM”。

问题所在: 为什么英语模型在挪威语上常常失效#

第一部分: 构建 NorGLM (模型篇)#

架构#

第二部分: NLEBench (评估套件)#

创新点: 多任务协同 (NO-Multi-QA-Sum)#

实验与关键结果#

1. GPT-3.5 的“英语中心”偏见#

2. 规模不是一切#

3. 协同效应与思维链 (CoT)#

4. 毒性与偏见#

结论: 低资源 NLP 的未来#