引言

想象一下,你向 AI 助手提一个简单的问题: “制作自制香草油时,我该如何干燥香草?”

如果你身处美国,你可能期望得到的答案是使用食物脱水机或烤箱。然而,如果你在加纳,“常识性的”回答——即大多数人直觉上认为正确的答案——很可能是将它们放在篮子里在阳光下晒干。

这个场景凸显了现代人工智能的一个关键盲点。虽然像 GPT-4 和 Llama 这样的大型语言模型 (LLMs) 已经展示了惊人的推理能力,但它们对“常识”的定义往往是存在偏差的。由于这些模型主要是在从西方网络抓取的数据上进行训练的,它们往往将西方 (特别是美国) 的文化规范视为普遍的默认标准。

在研究论文 “Susu Box or Piggy Bank: Assessing Cultural Commonsense Knowledge between Ghana and the U.S.” 中,来自马里兰大学的研究人员 Christabel Acquaye、Haozhe An 和 Rachel Rudinger 正面解决了这个问题。他们介绍了一个名为 AMAMMERE (源自阿坎语单词,意为“文化”) 的新数据集,旨在探究英语 LLM 的文化适应性。

一个来自数据集的例子,展示了加纳和美国在干燥香草方面的差异。

如图 1 所示,该数据集挑战模型去识别“正确”往往取决于地理位置。通过严格比较模型如何处理加纳与美国的文化背景,研究人员揭示了 AI 在服务非西方人群方面存在的显著差距。

问题所在: 到底是谁的常识?

常识推理是 AI 研究中的圣杯。它指的是对未明确陈述的世界做出假设的能力。例如,如果有人掉了一个玻璃杯,常识告诉我们它可能会碎。

为了测试这一点,AI 社区开发了像 CSQA (常识问答) 和 SIQA (社会智能问答) 这样的大型基准测试。然而,这些基准测试通常由西方机构的研究人员创建,并使用同样主要是西方背景的众包工人。

结果是一个带有偏见的反馈循环。模型在西方数据上训练,在西方基准上测试,并为西方用户优化。这使得“低资源文化”——那些在数字数据中代表性较少的文化,如加纳文化——处于不利地位。当加纳用户与这些模型交互时,AI 可能无法理解当地的社会规范、实用知识或文化指涉。

研究人员假设,现有的数据集包含隐性的西方偏见。为了证明这一点,他们需要构建一种新型测试——这种测试不将文化知识视为单一整体,而是作为两个不同群体 (加纳和美国) 之间的比较研究来处理。

方法论: 构建 AMAMMERE

创建一个文化上公平的数据集并非易事。你不能简单地将美国的问题翻译成当地语言;因为底层的概念本身可能无法转换。研究人员采用了一种基于文化共识理论 (Cultural Consensus Theory) 的方法。该理论认为,“文化上正确”的答案是反映特定群体共享共识的答案。

为了构建 AMAMMERE 数据集,团队遵循了一个严格的、多阶段的“人机回环 (human-in-the-loop) ”流程,每一步都有来自加纳和美国的参与者介入。

生成测试集的整体流程图。

第 1 步: 问题选择与消歧

该过程首先从现有的流行数据集 (CSQA、SIQA 和 PIQA) 中选择了 200 个问题。作为加纳人的第一作者特别选择了那些她预期在文化规范上会有分歧的问题。

随后,这些问题被重写为三个版本:

  1. 未指定 (Unspecified) : 移除所有文化标记。
  2. 加纳特定 (Ghana Specified) : 背景被调整为适应加纳 (例如,使用像“Kpakpo”这样的名字或“pesewas”作为货币单位) 。
  3. 美国特定 (US Specified) : 背景被调整为适应美国 (例如,使用像“Zach”这样的名字或“pennies”) 。

这个“消歧”步骤确保了测试的是模型识别上下文线索的能力。

第 2 步: 参与式答案生成

与许多由研究人员编写答案的数据集不同,该项目要求来自该文化的人来生成答案。团队招募了加纳和美国两组独立的志愿者。

参与者获得上下文背景,并被要求写出:

  • 一个 正确答案 (文化上恰当的) 。
  • 一个 干扰项答案 (错误但在某种程度上看似合理的,具有迷惑性) 。

加纳的答案选择生成阶段调查样本

如上面的调查样本所示,加纳参与者对“Bronya” (圣诞节) 大餐切鸡肉的描述可能与美国参与者对其节日大餐的描述截然不同。

美国的答案选择生成阶段调查样本

反之,美国参与者提供的答案则植根于他们自己的传统 (图 17) 。这确保了“正确”答案是原生的,真实代表了该文化,而不是外人想象的刻板印象。

第 3 步: 李克特量表标注 (测量共识)

一旦答案生成,研究人员需要对其进行验证。他们不仅问“这是对还是错?”,而是要求另一组参与者在 5 点李克特量表上对答案的合理性进行评分。

加纳的李克特量表答案标注阶段调查样本

这一步对于建立文化共识至关重要。只有当一个答案从该文化的成员那里获得高一致性评分时,它才会被认定为数据集的“正确”答案。例如,在加纳语境中,“Susu box” (一种传统的储蓄盒) 获得了很高的共识评分,类似于“Piggy bank” (存钱罐) 在美国的评分。

第 4 步: 最终验证

最终的多项选择题 (MCQs) 是通过配对来自两种文化的最高评分 (正确) 和最低评分 (干扰项) 答案构建的。这导致问题包含四个选项:

  • 加纳正确答案
  • 加纳干扰项
  • 美国正确答案
  • 美国干扰项

最后,这些构建好的 MCQ 由人类标注员进行最后一次验证,以确保质量和一致性。

加纳的多项答案选择标注调查样本。

实验: LLM 表现如何?

随着 525 个问题的最终确定,研究人员测试了多种模型。其中包括像 BERTRoBERTa 这样的编码器模型,以及像 Llama-2Llama-3GemmaMistral 这样的生成式 LLM。

他们设计了三种特定的实验设置来探究模型行为的不同方面。

实验 1: “未指定”设置 (测量偏见)

在这个设置中,提供给模型的问题没有任何文化标记。目标是看模型将哪种文化视为“默认”。如果模型是中立的,它不应该强烈偏好某一文化的正确答案。

表格显示了模型在没有指定上下文的文化设置中的表现。

结果: 如表 1 所示 (特别是“Question-and-Answers”列) ,模型压倒性地偏好符合美国偏好的答案选项。

  • RoBERTa-base 选择美国正确答案的比例为 51.43% , 而选择加纳正确答案的比例仅为 30.29%
  • Llama3-70B 显示出更强的偏见,选择美国答案的比例为 68.57% , 而加纳为 23.43%

这证实了假设: 当 LLM 不知道上下文时,它会假设用户是美国人。

实验 2: “已指定”设置 (测量适应性)

接下来,研究人员向模型提供文化特定的问题版本 (例如,明确提到“加纳”或使用加纳名字) 。一个“具有文化适应性”的模型应该能识别这些线索并将偏好切换到加纳答案。

加纳特定语境: 加纳特定设置中的模型偏好分布。

当语境明确为加纳时 (图 3) ,模型确实有所改进。 Llama3-70B 成功选择加纳正确答案的比例为 60% 。 然而,在相当一部分时间里,尽管有上下文线索,模型仍然感到困惑或选择了美国答案。

美国特定语境: 美国特定设置中的模型偏好分布。

相比之下,看图 4,当语境是美国时,模型的表现要好得多。 Llama3-70B 达到了 77% 的准确率。

这就造成了性能差距。即使模型知道它在谈论加纳,它的准确性也不如谈论美国时高。它很难像处理美国文化规范那样有效地回忆或推理加纳的文化规范。

实验 3: 仅含正确答案与文化侧面

研究人员还按特定主题或“侧面” (Facets) 细分了表现,如食物、社会习俗和建筑。

不同文化侧面的准确率。

表 2 揭示了一些有趣的细微差别。 Llama3-70B 在加纳“地理”方面表现不错 (78% 准确率) ,可能是因为地理是固定的、客观的事实,通常存在于训练数据中。

然而,看看 “社会习俗和生活方式” , 加纳的准确率降至 52% , 而美国则保持在 70% 。 这表明 LLM 在处理非西方文化中微妙的、不成文的日常生活规则方面最为吃力——这正是本文旨在衡量的“常识”。

研究人员还进行了一个“仅含正确答案 (Correct-Only) ”的实验,他们移除了干扰项,强制模型在加纳正确答案和美国正确答案之间做出选择。

仅以正确答案为条件时的偏好分布。

图 7 强化了先前的发现。在“未指定” (UN) 设置中,蓝色条 (美国偏好) 占主导地位。在“加纳特定” (GH Specified) 设置中,橙色条 (加纳偏好) 增长,显示出适应性,但对于像 BERT 和 RoBERTa 这样的模型,美国偏好仍然顽固地居高不下。

定性分析: “Bronya”的例子

为了真正理解模型缺失了什么,我们可以看论文中关于圣诞节庆祝的具体例子。在加纳,圣诞节通常被称为“Bronya”。

语境: “这人已婚,有两个小孩。” 问题: “Kojo 怎样才能让 Bronya 对他的家人来说感觉更神奇?”

选项: A. 装饰圣诞树,树下放很多礼物…… (美国共识) C. 确保有足够的食物、饮料和有趣的游戏…… (加纳共识)

在美国,圣诞节的“神奇”元素在很大程度上与装饰品和成堆的礼物有关。在加纳,虽然也有装饰,但文化重心主要放在公共层面: 丰富的食物、饮料和庆祝活动。

当被提示时,7 个模型中有 5 个选择了选项 A (树和礼物) ,即使提示中使用了名字“Kojo”和术语“Bronya”。模型识别出了圣诞节的概念,但未能将文化符号 (Kojo/Bronya) 映射到具体的加纳习俗——即优先考虑盛宴而非装饰。它们默认使用了西方的圣诞节“剧本”。

结论与启示

AMAMMERE 数据集及其相关研究提供了有力的证据,表明 AI 中的“常识”目前是“美国规范”的同义词。

这项研究的主要结论包括:

  1. 默认偏见: 在缺乏语境的情况下,模型默认为美国文化规范。
  2. 适应性差距: 虽然像 Llama-3 这样的先进模型在被明确告知文化背景时可以进行调整,但它们在加纳语境下的准确率仍显著低于美国语境。
  3. 参与的重要性: 如果没有来自该文化的人,你就无法建立一个文化评估基准。多阶段的人工标注过程对于捕捉“Susu box”和“Piggy bank”之间的差异至关重要。

随着 AI 成为一种全球性的公用设施,嵌入到非洲及世界各地的手机和浏览器中,这种偏见变得至关重要。一个误解社会习俗、饮食规范或家庭习惯的模型,对于西方以外的用户来说可能是令人沮丧的、无用的,甚至是冒犯的。

这篇论文强调了需要更多像 AMAMMERE 这样的数据集——这些资源不仅限于翻译,而是深入挖掘塑造我们日常生活的丰富的、具有文化特异性的知识。只有通过在多样化的文化数据上进行训练和测试,我们才能迈向真正理解世界,而不仅仅是理解世界一角的 AI。