引言
在自然语言处理 (NLP) 飞速发展的今天,我们往往认为数据的丰富性是理所当然的——尤其是对于英语而言。如果你想训练一个聊天机器人来回答有关英语历史、科学或流行文化的问题,你可以利用 SQuAD 或 HotpotQA 这样的大型数据集。但是,如果你想为斯瓦希里语、芬兰语或孟加拉语构建同样的系统,会发生什么呢?
这些语言的数据量根本无法相提并论。
这造成了巨大的“数字鸿沟”。为了弥补这一差距,研究人员依赖于 自动问题生成 (Automatic Question Generation, QG) 技术。QG 的目标是让 AI 阅读一段文本 (语境) 和一个答案,然后生成相应的问题。如果我们能自动完成这项工作,就可以在无需聘请数千名人工标注员的情况下,为低资源语言合成大量的训练数据集。
然而,这里有一个陷阱。目前大多数方法都依赖于 跨语言迁移 (Cross-Lingual Transfer, XLT) 。 这通常涉及在英语数据上训练模型,然后要求其在目标语言中执行任务。问题在于,这些模型经常遭遇“疑问句语码转换 (interrogative code-switching) ”。它们可能会使用目标语言的单词,但句子结构却像英语,或者更糟糕的是,它们保留了英语的关键疑问词 (Who, What, Where) 。想象一下,生成的问题看起来像: “How long is Pyhäjärven pituus?",而不是正确的芬兰语结构。
在这篇文章中,我们将深入探讨一篇新的研究论文,该论文提出了 QuIST (Questions by learning Interrogative Structures in Target languages,通过学习目标语言疑问句结构来生成问题) 。这种新颖的方法通过仅使用少量示例来教授小型语言模型目标语言的问题 结构,从而解决了语码转换问题,且无需该语言的大规模训练数据集。
背景: 跨语言迁移及其缺陷
在理解 QuIST 之前,我们需要了解基线方法: 零样本跨语言迁移 (Zero-shot Cross-lingual Transfer) 。
在典型的设置中,研究人员采用多语言预训练语言模型 (mPLM) ,如 mBERT 或 mT5。这些模型在预训练阶段见过 100 多种语言的文本。为了教它们进行问题生成 (QG) ,研究人员会在高质量的英语 QA 数据集上对它们进行微调。
其逻辑是,模型学会了创建问题的 概念。当你给它一个韩语的语境时,它依赖其内部的多语言知识来生成一个韩语问题。
问题: 疑问句语码转换
虽然这在理论上听起来不错,但在实践中,模型通常会对目标语言的语法表现出“灾难性遗忘”。因为它在英语 QG 数据上进行了大量微调,所以过度拟合了英语的句子结构。
结果就是 疑问句语码转换 (Interrogative Code-Switching) 。 模型生成的句子部分是目标语言,但保留了英语的疑问助词 (如 “When did” 或 “How many”) 或英语语序。这使得生成的数据对于训练目标语言的鲁棒 QA 系统毫无用处。
以前解决这个问题的方法包括冻结模型的部分参数或使用“适配器 (adapters) ”,但这些解决方案通常需要目标语言的一些训练数据或复杂的架构更改。
解决方案: QuIST
研究人员提出的 QuIST 方法既简单又高效。其核心理念是将问题的 内容 与问题的 结构 分离。
QuIST 分两个不同的阶段运行:
- 问题类型分类 (Question Type Classification, QTC) : 弄清楚我们需要 哪种 问题 (例如,询问人、地点或时间) 。
- 基于范例的问题生成 (QG with Exemplars) : 使用该问题类型的几个标准示例 (范例) 来指导模型的生成过程。
让我们分解一下架构。

如上图 Figure 2 所示,流程如下:
阶段 1: 问题类型分类 (QTC)
同一个答案可能会根据语境引出不同的问题。例如,数字 “1930” 可能是 “第一届世界杯是什么时候举办的?” (时间) 的答案,也可能是 “售出了多少件商品?” (数量) 的答案。
因此,系统首先需要理解意图。研究人员基于英语疑问词定义了八种通用的问题类型:
- When (时间)
- Where (地点)
- What (什么)
- Which (哪个)
- Who (谁)
- Why (为什么)
- How (way/manner) (方式)
- How (number/quantity) (数量)
QTC 模型 (基于 mBERT) 将 答案 和 语境 作为输入,并预测这八个标签中的一个。至关重要的是,该分类器 仅在英语数据上 进行训练,但由于 mBERT 是多语言的,因此在其他语言上进行推理时效果出奇地好。
阶段 2: 基于范例的生成
这是 QuIST 的亮点所在。一旦系统知道了问题类型 (例如,“Where”) ,它就会检索一组 问题范例 (Question Exemplars) 。
这些范例只是目标语言中符合该类型的少量通用问题列表。例如,如果目标语言是韩语,类型是“Where”,范例可能看起来像:
- Where do you find a lead out? (翻译成韩语结构)
- Where is the library? (翻译成韩语结构)
QG 模型 (基于 mT5) 接收三个输入:
- 语境 (段落) 。
- 答案 (具体的文本片段) 。
- 范例 (模板问题) 。
模型被训练为观察范例以理解 句法结构 (如何用该语言组成“Where”问题) ,并观察语境/答案以获取 语义内容 。
训练与推理的技巧
这是给学生们最重要的启示: 模型在训练期间从未见过目标语言。
- 训练: 模型使用 英语 语境、英语 答案和 英语 范例进行训练。它学习的是使用范例来指导其句子结构的 技能。
- 推理: 当部署到新语言 (例如斯瓦希里语) 时,研究人员只需将英语范例换成斯瓦希里语范例。因为模型学会了遵循范例结构的 技能,它会自动适应斯瓦希里语的句子结构,而无需任何参数更新。

Table 1 展示了这种效率。虽然基线模型通常需要在训练期间使用目标语言数据 (\(Q^{tgt}\) 或 \(S^{tgt}\)) ,但 QuIST 只需要英语数据 (\(C-Q-A^{en}\)) 和英语范例 (\(Q^{en}\)) 进行训练。目标语言范例仅在最后的推理阶段需要。
实验结果
研究人员在九种语言多样化的语言上评估了 QuIST,包括孟加拉语 (bn) 、德语 (de) 、芬兰语 (fi) 、韩语 (ko) 和斯瓦希里语 (sw) 。他们将其与几个强大的基线进行了比较,包括标准微调的 mT5 模型和基于适配器的方法。
自动评估
使用的主要指标是 BLEU、METEOR 和 ROUGE-L,它们衡量生成文本与人工编写的参考文本的匹配程度。

Table 2 展示了 ROUGE-L 分数。在这里,我们看到了明显的趋势:
- 基线表现挣扎: 简单的
Baseline_EncDec(在英语上微调编码器和解码器) 在孟加拉语 (0.72) 和韩语 (2.17) 等语言上表现糟糕,可能是由于严重的语码转换。 - QuIST 占据优势: QuIST (特别是使用 15 个范例的 QuIST15) 显着优于基线。例如,在芬兰语中,QuIST 得分为 38.79 , 而最佳基线仅为 20.26。
- 与巨头竞争: 该表还将 QuIST (使用相对较小的 12 亿参数模型) 与 GPT-3.5-turbo 进行了比较。QuIST 实现了与这个庞大的商业 LLM 相当的性能,在某些情况下 (如韩语和斯瓦希里语) 甚至更优。
分析语码转换
这篇论文的核心动机是阻止模型在非英语问题中使用英语语法。它奏效了吗?

Figure 3 提供了一个鲜明的可视化结果。柱状图代表包含语码转换 (使用错误语言的单词或语法) 的生成问题的百分比。
- 看一看
B-EncDec(每组的第一个柱子) : 对于许多语言来说,它几乎是 100%。模型完全忘记了如何说目标语言。 - 看一看 QuIST (深蓝色柱子) : 语码转换率急剧下降,通常低于 10-20%。这证实了向模型提供“范例”有效地提醒了它目标语言的疑问句结构。
人工评估
自动指标并不总能说明全部情况,尤其是在语法方面。作者聘请了母语人士对问题的语法、清晰度和可回答性进行评分。

Table 3 突显了人类的偏好。在德语 (de) 和印尼语 (id) 等语言中,QuIST 在清晰度和可回答性方面获得了近乎完美的分数。
- 关于斯瓦希里语 (sw) 的说明: 有趣的是,虽然 QuIST 在自动指标上表现良好,但人工评估者在可回答性方面给它的评分低于 GPT-3.5。这表明,虽然 QuIST 搞对了 语法 (修复了语码转换) ,但在与像 GPT 这样的巨型模型相比时,它有时难以在极低资源语言中抓取正确的 内容。
为了形象化这一点,让我们看一个具体的斯瓦希里语示例。

在 Figure 4 中,我们看到了挑战。
- Context (语境) 讨论了马拉维、赞比亚和津巴布韦。
- BaselineEncDec 生成了一个混合英语 (“Along with…”) 和斯瓦希里语的“弗兰肯斯坦”式句子。
- QuIST 生成了一个语法正确的斯瓦希里语句子: “Ni nchi ipi iliyohesabiwa kuwa sehemu ya Afrika ya Kusini?” (哪个国家被认为是南非的一部分?) 。
- 然而,人类的标准答案具体询问的是北罗得西亚的 当前名称。虽然 QuIST 的语法是完美的,但语义焦点略有偏差,这解释了人工评分的差异。
为什么这很重要: 数据增强
QG 的最终目标通常是生成合成数据来训练 其他 AI 模型 (问答系统) 。如果 QuIST 生成更好的问题,这有助于我们构建更好的 QA 机器人吗?

Table 4 证实了这一效用。研究人员使用不同方法生成的合成数据训练了 QA 模型。
- 仅英语 (English-only) : 仅在英语数据上训练 QA 模型产生的平均得分为 49.86。
- QuIST 增强 (QuIST-augmented) : 在 QuIST 生成的数据上进行训练将平均得分提高到了 59.65 。
- 值得注意的是,QuIST 生成的数据证明比 GPT-3.5-turbo 生成的数据在训练下游模型方面更有效 (57.79) 。这对于开源、高效的研究来说是一个巨大的胜利。
方法分析
你需要多少个范例?
有人可能会问: 我们需要数千个示例问题吗?论文对此进行了详细探讨。

Table 5 以及 Table 2 中的比较 (QuIST1, QuIST5, QuIST10, QuIST15) 显示,随着范例数量的增加,性能通常会提高,直到大约 10 或 15 个为止。
- 人工 vs. 机器翻译: Table 5 (第 1 行 vs 第 2 行) 显示,使用人工编写的范例 (QuIST) 远优于使用机器翻译的范例。这凸显了高质量、地道的句法结构对于模型的正确学习至关重要。
静态 vs. 动态范例
范例应该是每次随机的,还是固定的?研究人员发现,为每种问题类型使用 静态 (固定) 的一组范例效果最好。

如 Table 7 所示,“静态”方法始终优于“动态”方法。这表明模型受益于稳定性——在训练期间反复看到相同的高质量结构模板,比起不断切换模板,能让它更有效地内化模式。
提示 GPT-3.5
研究人员还探讨了他们的方法 (QTC + 范例) 是否可以帮助像 GPT-3.5 这样的大型语言模型。

使用如 Figure 6 所示的模板,他们发现即使是强大的 LLM 也能从这种结构化方法中受益,特别是在低资源语言中。
结论
QuIST 论文为多语言 AI 的未来描绘了一个引人注目的叙事。它摆脱了大规模数据收集或大规模模型扩展的“暴力”方法。相反,它依赖于一个巧妙的语言学洞察: 语言在词汇上有所不同,但疑问句结构是重复且可学习的。
通过将“问什么” (内容) 与“怎么问” (结构) 解耦,QuIST 允许仅在英语上训练的模型生成多种语言的高质量问题,如芬兰语和泰卢固语。
给学生的关键要点:
- 效率: 你并不总是需要在目标语言上进行训练才能生成该语言的文本。
- 范例: 在推理过程中提供“模板” (范例) 可以指导模型的句法,解决语码转换问题。
- 可扩展性: 这种方法可以通过简单地编写 10-15 个示例问题应用于任何新语言,使其对于低资源语言具有极高的可扩展性。
随着 AI 继续在全球范围内扩展,像 QuIST 这样的技术将至关重要,它确保技术能够服务于所有语言的使用者,而不仅仅是英语使用者。
](https://deep-paper.org/en/paper/2410.03197/images/cover.png)