引言: AI 的“下雪”难题
想象一下,你正在训练一个人工智能来理解“常识”。你给它输入了数千个问题来测试它的推理能力。其中一个问题是: “这个男人需要铲自家车道的雪。这是什么季节?” 答案显而易见,是冬天。
现在,想象一下把同样的问题问给印度尼西亚雅加达的一个学生。他们可能会困惑地看着你。印度尼西亚是一个热带国家;人们不需要铲车道,而且那里肯定不会下雪。这个概念不仅不是“常识”,而且在文化上是不相关的 。
这凸显了自然语言处理 (NLP) 中的一个巨大瓶颈。大多数用于训练和测试大型语言模型 (LLM) 的基准数据集都严重以西方为中心 。 当我们尝试将这些模型应用于代表性不足的语言时,我们通常依赖翻译。但翻译无法修复文化上的错位。
那么,我们可以利用 LLM 本身来解决这个问题吗?我们可以要求 GPT-4 为印度尼西亚语和巽他语等语言生成具有文化相关性的数据吗?
最近一篇题为 “Can LLM Generate Culturally Relevant Commonsense QA Data?” (LLM 能否生成文化相关的常识问答数据?) 的研究论文调查了这个问题。研究人员进行了一项全面的案例研究,涉及印度尼西亚语 (一种中等资源的国家语言) 和巽他语 (一种低资源的地区语言) 。他们的发现为我们提供了一个迷人的视角,让我们看到了 AI 在捕捉人类文化细微差别方面的能力——以及局限性。
背景: 为什么语境很重要
在深入实验之前,我们需要了解一下背景。常识问答 (Commonsense QA) 是一项任务,要求模型回答那些需要先验世界知识而不仅仅是阅读理解的问题。
这方面的黄金标准是英语的 CommonsenseQA 数据集。然而,将其改编为其他语言是很棘手的。
- 印度尼西亚语 (Indonesian) : 印度尼西亚的通用语。它使用拉丁字母,在全国范围内使用。
- 巽他语 (Sundanese) : 主要由西爪哇的巽他族人 (约 3400 万使用者) 使用的地区语言。虽然使用者众多,但在 AI 领域它被视为低资源语言 , 因为可用于训练的数字化文本数据非常少。
研究人员发现了一个空白: 不存在针对巽他语的常识问答数据集,而现有的印度尼西亚语数据集往往缺乏文化深度。他们着手构建这样一个数据集,并将人工成果与 AI 生成的内容进行了对比。
方法论: 创建数据的三条路径
这项研究的核心是比较三种不同的数据创建方法。研究人员不只是想要任何数据;他们想要反映当地概念的数据——特定于印度尼西亚和巽他文化的食物、地点、习惯和历史。
如下图所示,他们设计了一个流程来创建约 9,000 个问答对。

让我们分解一下图 1 中展示的这三种方法:
1. 自动数据改编 (LLM_ADAPT)
这种方法试图回收现有的英语数据。
- 种子数据: 他们选取了英语 CommonsenseQA 数据集中的问题。
- 过滤器: 并非所有问题都适用。他们使用 LLM 来检查概念 (如“雪”或“地铁”) 是否与印度尼西亚或西爪哇相关。如果一个概念被认为不相关,它就会被标记为需要改编。
- 改编: 向 LLM 发出提示,要求“本地化”该概念。例如,将“雪”改为“火山灰” (爪哇常见的现象) 。
- 翻译: 改编后的文本随后被机器翻译成巽他语。
2. 人工数据生成 (HUMAN_GEN)
这是“黄金标准”。
- 研究人员招募了 12 名来自爪哇和巴厘岛不同地区的母语标注员。
- 这些人基于五个文化类别从零开始创建问题: 饮食、地点、文化、历史和活动。
- 至关重要的是,他们利用自己的亲身经历来创建选项和干扰项 (错误的答案) 。
3. 自动数据生成 (LLM_GEN)
在这里,研究人员问: “LLM 能做到人类刚才做的事情吗?”
- 他们向 GPT-4 Turbo 提供了与人类标注员使用的相同类别和概念列表。
- 他们提示模型直接用目标语言生成问题、正确答案和干扰项。
由此产生的数据集是同类语言中最大的。你可以在下表中看到数据划分的详细情况。注意这三种方法之间的数据平衡。

深入探讨: 合成数据的质量
创建数据很容易;创建好数据很难。研究人员花了大量时间分析 LLM 生成的内容是否真正可用。
翻译的“幻觉”
LLM_ADAPT 方法 (将英语改编为本地语境) 显示出了明显的缺陷,尤其是对于巽他语。虽然英语到印度尼西亚语的改编还算不错,但转换到巽他语的步骤却容易出错。
例如,在改编“白头海雕” (bald eagle) 这一概念时,GPT-4 正确地识别出了印度尼西亚语境下的“爪哇鹰雕” (Javan hawk-eagle) 。然而,对于巽他语,它产生了一种被称为“Garuda Puspa” (直译为“鹰花”) 的不存在的鸟类的幻觉。
这凸显了合成数据的一个主要风险: 错误传播 。 如果改编模型出现轻微的逻辑错误,而翻译模型又增加了语言错误,最终的数据点就会变成垃圾数据。
重复性问题
当研究人员审视 LLM_GEN 方法 (从零开始创建数据) 时,他们注意到了另一个问题: 缺乏多样性。
当被要求生成关于印度尼西亚动物或自然的问题时,LLM 有它的“偏好”。如图 2 所示,模型绝大多数时候更喜欢谈论科莫多巨蜥。

虽然科莫多巨蜥确实是印度尼西亚特有的,但人类数据集可能会包含更广泛的当地动物群。模型默认选择统计概率最高 (且最著名) 的实体,降低了数据集的文化丰富性。
句法和流畅度
研究人员还评估了生成问题的语法正确性。
- 印度尼西亚语: 模型表现良好,流畅度高。
- 巽他语: 模型表现挣扎。
- LLM_ADAPT (基于翻译) 在巽他语中只有 15.19% 的无错误问题率。
- LLM_GEN (直接生成) 较好,有 51.00% 的无错误问题。
这一发现至关重要: 直接要求 LLM 用低资源语言生成数据,通常比尝试翻译改编后的英语数据要好。 低资源语言的翻译工具根本不够健壮,无法处理复杂的常识推理。
基准测试结果: 模型能解出自己的考题吗?
在构建这些数据集后,研究人员进行了一系列实验。他们测试了各种 LLM——包括 LLaMA-2、Mistral、Merak (一种印度尼西亚语 LLM) 和 GPT-4——看看它们回答问题的能力如何。
整体表现
首先,让我们看看图 3 中的总体情况。

这里有一个清晰的层级结构。
- GPT-4 模型占据主导地位,得分超过 80%。
- 印度尼西亚语 (ind) 和 巽他语 (sun) 之间存在显著的性能差距。几乎每个模型在巽他语 (浅灰色条) 上的表现都更差。
- 即使是 Merak-v4 (一种专门针对印度尼西亚语调整的模型) ,也难以超越 GPT-3.5 这样的通用模型,而且它在巽他语上的表现急剧下降。这证实了模型的“多语言”能力一旦超出前 10-20 种最常用语言的范围,往往会严重退化。
“简单测试”陷阱
这是研究变得非常有趣的地方。研究人员比较了模型在人工生成数据与 LLM 生成数据上的表现。
请看图 4 。 米色条代表在 LLM 生成数据上的表现,而红色条代表人工数据。

注意到规律了吗? 模型在 LLM 生成的数据上得分始终更高。
这表明 LLM 生成的数据集对其他 LLM 来说更“容易”解答。合成数据可能包含更简单的句子结构和更可预测的逻辑模式。相比之下,人类数据包含细微差别、文化特质和“词汇多样性” (更广泛的词汇量) ,这些都难住了模型。
这就产生了一个危险的反馈循环。如果我们只使用 LLM 生成训练数据,然后使用 LLM 评估该数据,我们可能会欺骗自己,认为我们的模型比实际上更聪明。它们只是在通过同类编写的考试,而这个同类有着同样的盲点。
按类别划分的表现
最后,研究人员按主题细分了表现。

在图 5 中,我们看到模型在饮食 (Culinary) 方面最为挣扎 (第四列图表) 。饮食文化具有极强的地方性和特殊性。
- LLM 示例: 当被问及“Kerupuk” (炸脆片) 时,LLM 可能会生成一个关于配料 (面粉) 的通用问题。
- 人类示例: 人类标注员生成了一个关于 kerupuk rambak (牛皮脆片) 的问题,询问具体的动物部位。
LLM 缺乏“生活经验”来生成或回答关于特定当地美食的问题,而它们在历史或地点方面表现得更好,因为这些在维基百科式的训练数据中有详细记录。
讨论: 文化的深度
研究得出的结论是,虽然 LLM 可以生成具有文化相关性的数据,但它们缺乏深度 。
当研究人员分析词汇时,他们发现人类数据集拥有更多独特的、具有文化特异性的术语。LLM 倾向于停留在表面——泛泛地提到“辛辣食物”,而不是特定的区域性“参巴酱” (sambal) 。
此外,研究人员尝试了一项“开放式”实验。他们不再提供多项选择,而是直接向模型提问。
- 问题: “在升旗仪式的默哀时刻,必唱的歌曲是什么?”
- 模型回答: “通常不唱歌。”
- 正确答案: “Mengheningkan Cipta” (默哀曲) 。
在多项选择题的设置下,模型可能会猜对。但当被要求自由生成答案时,它失败了。这证明模型的“知识”往往是脆弱的,依赖于识别所提供选项中的模式,而不是真正了解文化。
结论与启示
这篇论文对低资源语言的 NLP 领域做出了重大贡献。它提供了迄今为止最大的印度尼西亚语和巽他语 CommonsenseQA 数据集。
给学生和研究人员的关键要点:
- 直接生成 > 改编: 如果你需要低资源语言的数据,目前最好的做法是提示强大的模型 (如 GPT-4) 直接用该语言生成,而不是翻译英语数据。翻译引入了太多的噪音。
- 人类对于深度至关重要: 合成数据在规模上很棒,但它是“简单”的数据。要真正测试模型的文化能力,你需要人工标注的数据来捕捉日常生活中繁杂且具体的细节。
- 低资源差距: 即使在同一个国家内,国家语言 (印度尼西亚语) 和地区语言 (巽他语) 在 AI 性能方面也存在巨大差距。
随着我们迈向更具包容性的 AI,我们不能简单地依赖翻译西方数据集。我们需要构建能够理解“常识”因立场而异的系统——有时,这意味着要明白雅加达不下雪。
](https://deep-paper.org/en/paper/2402.17302/images/cover.png)