引言: AI 的“下雪”难题

想象一下，你正在训练一个人工智能来理解“常识”。你给它输入了数千个问题来测试它的推理能力。其中一个问题是: “这个男人需要铲自家车道的雪。这是什么季节？” 答案显而易见，是冬天。

现在，想象一下把同样的问题问给印度尼西亚雅加达的一个学生。他们可能会困惑地看着你。印度尼西亚是一个热带国家；人们不需要铲车道，而且那里肯定不会下雪。这个概念不仅不是“常识”，而且在文化上是不相关的 。

这凸显了自然语言处理 (NLP) 中的一个巨大瓶颈。大多数用于训练和测试大型语言模型 (LLM) 的基准数据集都严重以西方为中心 。当我们尝试将这些模型应用于代表性不足的语言时，我们通常依赖翻译。但翻译无法修复文化上的错位。

那么，我们可以利用 LLM 本身来解决这个问题吗？我们可以要求 GPT-4 为印度尼西亚语和巽他语等语言生成具有文化相关性的数据吗？

最近一篇题为 “Can LLM Generate Culturally Relevant Commonsense QA Data?” (LLM 能否生成文化相关的常识问答数据？) 的研究论文调查了这个问题。研究人员进行了一项全面的案例研究，涉及印度尼西亚语 (一种中等资源的国家语言) 和巽他语 (一种低资源的地区语言) 。他们的发现为我们提供了一个迷人的视角，让我们看到了 AI 在捕捉人类文化细微差别方面的能力——以及局限性。

背景: 为什么语境很重要

在深入实验之前，我们需要了解一下背景。常识问答 (Commonsense QA) 是一项任务，要求模型回答那些需要先验世界知识而不仅仅是阅读理解的问题。

这方面的黄金标准是英语的 CommonsenseQA 数据集。然而，将其改编为其他语言是很棘手的。

印度尼西亚语 (Indonesian) : 印度尼西亚的通用语。它使用拉丁字母，在全国范围内使用。
巽他语 (Sundanese) : 主要由西爪哇的巽他族人 (约 3400 万使用者) 使用的地区语言。虽然使用者众多，但在 AI 领域它被视为低资源语言 , 因为可用于训练的数字化文本数据非常少。

研究人员发现了一个空白: 不存在针对巽他语的常识问答数据集，而现有的印度尼西亚语数据集往往缺乏文化深度。他们着手构建这样一个数据集，并将人工成果与 AI 生成的内容进行了对比。

方法论: 创建数据的三条路径

这项研究的核心是比较三种不同的数据创建方法。研究人员不只是想要任何数据；他们想要反映当地概念的数据——特定于印度尼西亚和巽他文化的食物、地点、习惯和历史。

如下图所示，他们设计了一个流程来创建约 9,000 个问答对。

图 1: 我们的数据集生成方法。为清晰起见，LLM_ADAPT、HUMAN_GEN 和 LLM_GEN 数据集的示例以英文显示。这些数据集的原始版本为印度尼西亚语和巽他语。

让我们分解一下图 1 中展示的这三种方法:

1. 自动数据改编 (LLM_ADAPT)

这种方法试图回收现有的英语数据。

种子数据: 他们选取了英语 CommonsenseQA 数据集中的问题。
过滤器: 并非所有问题都适用。他们使用 LLM 来检查概念 (如“雪”或“地铁”) 是否与印度尼西亚或西爪哇相关。如果一个概念被认为不相关，它就会被标记为需要改编。
改编: 向 LLM 发出提示，要求“本地化”该概念。例如，将“雪”改为“火山灰” (爪哇常见的现象) 。
翻译: 改编后的文本随后被机器翻译成巽他语。

2. 人工数据生成 (HUMAN_GEN)

这是“黄金标准”。

研究人员招募了 12 名来自爪哇和巴厘岛不同地区的母语标注员。
这些人基于五个文化类别从零开始创建问题: 饮食、地点、文化、历史和活动。
至关重要的是，他们利用自己的亲身经历来创建选项和干扰项 (错误的答案) 。

3. 自动数据生成 (LLM_GEN)

在这里，研究人员问: “LLM 能做到人类刚才做的事情吗？”

他们向 GPT-4 Turbo 提供了与人类标注员使用的相同类别和概念列表。
他们提示模型直接用目标语言生成问题、正确答案和干扰项。

由此产生的数据集是同类语言中最大的。你可以在下表中看到数据划分的详细情况。注意这三种方法之间的数据平衡。

表 1: 我们生成的印度尼西亚语和巽他语 CommonsenseQA 数据集的统计信息。我们在 LLM_ADAPT 中保留了原始英语 CommonsenseQA 的划分，以避免数据污染。

深入探讨: 合成数据的质量

创建数据很容易；创建好数据很难。研究人员花了大量时间分析 LLM 生成的内容是否真正可用。

翻译的“幻觉”

LLM_ADAPT 方法 (将英语改编为本地语境) 显示出了明显的缺陷，尤其是对于巽他语。虽然英语到印度尼西亚语的改编还算不错，但转换到巽他语的步骤却容易出错。

例如，在改编“白头海雕” (bald eagle) 这一概念时，GPT-4 正确地识别出了印度尼西亚语境下的“爪哇鹰雕” (Javan hawk-eagle) 。然而，对于巽他语，它产生了一种被称为“Garuda Puspa” (直译为“鹰花”) 的不存在的鸟类的幻觉。

这凸显了合成数据的一个主要风险: 错误传播 。如果改编模型出现轻微的逻辑错误，而翻译模型又增加了语言错误，最终的数据点就会变成垃圾数据。

重复性问题

当研究人员审视 LLM_GEN 方法 (从零开始创建数据) 时，他们注意到了另一个问题: 缺乏多样性。

当被要求生成关于印度尼西亚动物或自然的问题时，LLM 有它的“偏好”。如图 2 所示，模型绝大多数时候更喜欢谈论科莫多巨蜥。

图 2: 从 LLM_ADAPT 数据的训练集、验证集和测试集中提取的前 10 个改编问题概念。

虽然科莫多巨蜥确实是印度尼西亚特有的，但人类数据集可能会包含更广泛的当地动物群。模型默认选择统计概率最高 (且最著名) 的实体，降低了数据集的文化丰富性。

句法和流畅度

研究人员还评估了生成问题的语法正确性。

印度尼西亚语: 模型表现良好，流畅度高。
巽他语: 模型表现挣扎。
LLM_ADAPT (基于翻译) 在巽他语中只有 15.19% 的无错误问题率。
LLM_GEN (直接生成) 较好，有 51.00% 的无错误问题。

这一发现至关重要: 直接要求 LLM 用低资源语言生成数据，通常比尝试翻译改编后的英语数据要好。 低资源语言的翻译工具根本不够健壮，无法处理复杂的常识推理。

基准测试结果: 模型能解出自己的考题吗？

在构建这些数据集后，研究人员进行了一系列实验。他们测试了各种 LLM——包括 LLaMA-2、Mistral、Merak (一种印度尼西亚语 LLM) 和 GPT-4——看看它们回答问题的能力如何。

整体表现

首先，让我们看看图 3 中的总体情况。

图 3: LLM 在我们合并测试集上的表现。

这里有一个清晰的层级结构。

GPT-4 模型占据主导地位，得分超过 80%。
印度尼西亚语 (ind) 和 巽他语 (sun) 之间存在显著的性能差距。几乎每个模型在巽他语 (浅灰色条) 上的表现都更差。
即使是 Merak-v4 (一种专门针对印度尼西亚语调整的模型) ，也难以超越 GPT-3.5 这样的通用模型，而且它在巽他语上的表现急剧下降。这证实了模型的“多语言”能力一旦超出前 10-20 种最常用语言的范围，往往会严重退化。

“简单测试”陷阱

这是研究变得非常有趣的地方。研究人员比较了模型在人工生成数据与 LLM 生成数据上的表现。

请看图 4 。米色条代表在 LLM 生成数据上的表现，而红色条代表人工数据。

图 4: LLM 在印度尼西亚语和巽他语的 LLM_GEN 与 HUMAN_GEN 数据集上的表现。为了可视化，我们将两种语言的数据点结合在一起，下四分位数通常代表巽他语数据。

注意到规律了吗? 模型在 LLM 生成的数据上得分始终更高。

这表明 LLM 生成的数据集对其他 LLM 来说更“容易”解答。合成数据可能包含更简单的句子结构和更可预测的逻辑模式。相比之下，人类数据包含细微差别、文化特质和“词汇多样性” (更广泛的词汇量) ，这些都难住了模型。

这就产生了一个危险的反馈循环。如果我们只使用 LLM 生成训练数据，然后使用 LLM 评估该数据，我们可能会欺骗自己，认为我们的模型比实际上更聪明。它们只是在通过同类编写的考试，而这个同类有着同样的盲点。

按类别划分的表现

最后，研究人员按主题细分了表现。

图 5: 印度尼西亚语和巽他语在 LLM_GEN 和 HUMAN_GEN 中按问题类别划分的 LLM 表现。

在图 5 中，我们看到模型在饮食 (Culinary) 方面最为挣扎 (第四列图表) 。饮食文化具有极强的地方性和特殊性。

LLM 示例: 当被问及“Kerupuk” (炸脆片) 时，LLM 可能会生成一个关于配料 (面粉) 的通用问题。
人类示例: 人类标注员生成了一个关于 kerupuk rambak (牛皮脆片) 的问题，询问具体的动物部位。

LLM 缺乏“生活经验”来生成或回答关于特定当地美食的问题，而它们在历史或地点方面表现得更好，因为这些在维基百科式的训练数据中有详细记录。

讨论: 文化的深度

研究得出的结论是，虽然 LLM 可以生成具有文化相关性的数据，但它们缺乏深度。

当研究人员分析词汇时，他们发现人类数据集拥有更多独特的、具有文化特异性的术语。LLM 倾向于停留在表面——泛泛地提到“辛辣食物”，而不是特定的区域性“参巴酱” (sambal) 。

此外，研究人员尝试了一项“开放式”实验。他们不再提供多项选择，而是直接向模型提问。

问题: “在升旗仪式的默哀时刻，必唱的歌曲是什么？”
模型回答: “通常不唱歌。”
正确答案: “Mengheningkan Cipta” (默哀曲) 。

在多项选择题的设置下，模型可能会猜对。但当被要求自由生成答案时，它失败了。这证明模型的“知识”往往是脆弱的，依赖于识别所提供选项中的模式，而不是真正了解文化。

结论与启示

这篇论文对低资源语言的 NLP 领域做出了重大贡献。它提供了迄今为止最大的印度尼西亚语和巽他语 CommonsenseQA 数据集。

给学生和研究人员的关键要点:

直接生成 > 改编: 如果你需要低资源语言的数据，目前最好的做法是提示强大的模型 (如 GPT-4) 直接用该语言生成，而不是翻译英语数据。翻译引入了太多的噪音。
人类对于深度至关重要: 合成数据在规模上很棒，但它是“简单”的数据。要真正测试模型的文化能力，你需要人工标注的数据来捕捉日常生活中繁杂且具体的细节。
低资源差距: 即使在同一个国家内，国家语言 (印度尼西亚语) 和地区语言 (巽他语) 在 AI 性能方面也存在巨大差距。

随着我们迈向更具包容性的 AI，我们不能简单地依赖翻译西方数据集。我们需要构建能够理解“常识”因立场而异的系统——有时，这意味着要明白雅加达不下雪。

引言: AI 的“下雪”难题#

背景: 为什么语境很重要#

方法论: 创建数据的三条路径#

1. 自动数据改编 (LLM_ADAPT)#

2. 人工数据生成 (HUMAN_GEN)#

3. 自动数据生成 (LLM_GEN)#

深入探讨: 合成数据的质量#

翻译的“幻觉”#

重复性问题#

句法和流畅度#

基准测试结果: 模型能解出自己的考题吗？#

整体表现#

“简单测试”陷阱#

按类别划分的表现#

讨论: 文化的深度#

结论与启示#