像 ChatGPT 这样的大型语言模型 (LLMs) 通常被标榜为通用工具——能够用任何语言谈论任何话题的全知助手。然而,当我们层层剥开这种“通用性”的外衣时,往往会发现系统中编码了一种非常特定的世界观。对于全球数百万英语使用者来说,ChatGPT 并没有充当其中立的镜像;相反,它充当了一副矫正镜片,过滤掉了他们的文化认同,或者更糟糕的是,向他们反射出一幅讽刺漫画。

加州大学伯克利分校的研究人员最近发表了一篇论文 “Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination” (ChatGPT 中的语言偏见: 语言模型加剧了方言歧视) , 对 GPT-3.5 和 GPT-4 如何处理十种不同的英语变体进行了大规模审计。结果凸显了一个令人不安的动态: 这些模型不仅默认使用“标准”美式英语,抹杀了其他方言,而且当被要求承认这些方言时,它们往往会诉诸有害的刻板印象。

在这篇深度文章中,我们将探讨研究人员是如何设计这项研究的,这些模型具体在哪些方面辜负了少数化英语群体 (minoritized English speakers) ,以及为什么像 GPT-4 这样“更好”的模型反而可能使刻板印象问题变得更糟。

“标准”英语的错觉

要理解这项研究,我们需要首先打破“标准”英语的概念。在语言学领域,通常被称为“标准”的语言 (如标准美式英语或标准英式英语) 只是语言的一种理想化版本,通常与高地位群体和正式写作联系在一起。它并不本质上比其他变体“更好”或“更正确”;它只是拥有更多的权力。

数十亿人说着与这些标准不同的英语变体——例如非裔美国人英语 (AAE) 、尼日利亚英语、新加坡英语 (“Singlish”) 或牙买加英语。这些都是丰富的、基于规则的语言系统,拥有自己的语法和词汇。

研究人员试图调查的核心问题是方言偏见 。 如果一个 AI 模型主要接受标准美式英语 (SAE) 的训练,它如何对待说尼日利亚英语的用户?它能理解他们吗?它尊重他们吗?还是将他们的说话方式视为需要纠正的错误?

研究设计: 全球视野

虽然之前的研究主要关注针对非裔美国人英语的偏见,但这篇论文大大拓宽了视野。作者选择了十种英语变体进行测试:

  1. 标准变体: 标准美式英语 (SAE)、标准英式英语 (SBE)。
  2. 被边缘化的变体 (Minoritized Varieties) : 非裔美国人英语 (AAE)、印度英语、爱尔兰英语、牙买加英语、肯尼亚英语、尼日利亚英语、苏格兰英语和新加坡英语。

研究人员收集了这些方言母语者的真实写作样本——特别寻找信件、电子邮件和信息等非正式文本,因为在这些文本中方言特征最为突出。

调查分为两个独立的研究:

  1. 语言学分析: 模型是用同样的方言回信,还是切换到标准形式?
  2. 人工评估: 母语者对 AI 的回复有何感受?他们是感到被冒犯、困惑还是满意?

研究 1: 身份的抹除

在第一个实验中,研究人员向模型输入用特定方言编写的提示 (例如,用肯尼亚英语编写的寻求旅行建议的文本) ,并分析其回复。他们寻找的是特征保留 (feature retention) 。如果输入使用了肯尼亚英语的特定语法特征 (比如在特定语境下省略冠词“a”) ,输出是否也会这样做?

结果非常鲜明。这些模型绝大多数都默认使用标准美式英语。

“美式化”机器

当你用一种被边缘化的变体与 ChatGPT 交谈时,它实际上会在回复之前将你的查询“翻译”成标准美式英语。

  • 标准美式英语 (SAE): 模型保留了 78% 的独特语言特征。
  • 标准英式英语 (SBE): 模型保留了 72%
  • 被边缘化的变体: 保留率断崖式下跌。对于印度英语,保留率为 16% 。 对于爱尔兰英语、AAE、苏格兰英语和新加坡英语,保留率为 3-4% 。 对于牙买加英语,保留率几乎为 0%

这意味着,如果用户使用新加坡英语,用常见的语气词如“lah”或特定的句式结构写作,ChatGPT 会忽略这种风格,并像一个美国企业助理一样进行回复。

为什么会发生这种情况?

研究人员假设这种抹除是一个数据问题。大语言模型是在对互联网的大规模抓取数据上训练的,而在这些数据中,标准美式英语占主导地位。

图 2: 被边缘化变体的估计最大使用人口与保留率的对比。

图 2 所示,估计的使用人口数量 (作为可能可用数据量的代表) 与保留率之间存在明显的相关性。拥有大量人口的变体,如印度英语,其保留率略好于牙买加英语等人口较少的变体。然而,即使是被边缘化变体中的“高”保留率,与标准变体相比也是微不足道的。

拼写 (正字法) 转换

这不仅仅是语法问题,还有拼写 (正字法) 问题。英国殖民主义的遗产意味着许多全球英语变体使用英式拼写 (例如 colour vs. color, analyse vs. analyze) 。

图 3: 从输入到输出,使用英式、美式或两种拼写风格的示例百分比变化。

图 3 展示了向美式化的大规模转变。

  • 蓝色条 (英式拼写) : 请注意在“Input” (输入) 列中,印度、爱尔兰和苏格兰英语等变体的蓝色部分有多大。
  • 红色条 (美式拼写) : 在“Output” (输出) 列中,蓝色急剧收缩,红色大幅扩张。

即使对于标准英式英语的输入,模型也经常切换到美式拼写。AI 正在积极地同质化书面英语语言,剥离区域标记以支持以美国为中心的规范。

研究 2: 人类体验

语言学分析向我们展示了模型生成了什么 (美式英语) 。但这给用户带来的感受如何?

为了找出答案,研究人员招募了所有十种方言的母语者。他们向这些参与者展示了 AI 的回复,并要求他们就温暖度、自然度以及——至关重要的是——刻板印象和贬低性内容等品质对文本进行评分。

“标准”特权

用户体验的差异是巨大的。标准变体 (美式和英式) 的使用者通常认为回复自然且礼貌。而被边缘化变体的使用者报告的体验则要糟糕得多。

图 1: 模型回复示例 (上) 和母语者对模型回复的反应 (下) 。

图 1 提供了定性反馈的视觉总结。

  • 刻板印象: 当模型试图承认方言时,它往往矫枉过正。如左上角所示,针对新加坡英语的回复使用了夸张的短语,如“damn jialat”和“Wah sian sia”,母语者认为这“令人尴尬 (cringeworthy) ”。
  • 距离感: 相反,如右侧所示,当模型忽略方言时,感觉“冷漠”且“像机器人”。一位牙买加使用者可能会带着温暖和亲密感写作,结果却收到冷冰冰、正式的企业式回复。

量化危害

调查结果描绘了标准用户与被边缘化用户之间“价值差距”的严峻图景。

图 4: 各变体的平均回复评分 (5 分制) 。

图 4 分解了这些评分。红色标题表示负面品质,而绿色表示正面品质。橙色虚线代表标准英语使用者的基准体验。

  • 贬低性内容 (Demeaning Content): 对被边缘化变体的回复被评为比对标准变体的回复贬低程度高 25%
  • 刻板印象 (Stereotyping): 刻板印象程度高 19%
  • 居高临下 (Condescension): 居高临下程度高 15%
  • 理解能力 (Comprehension): 用户感觉模型对他们的理解比标准用户低 9%

结论很明确: 如果你说的是被边缘化的变体,“默认”的 ChatGPT 体验不是中立的。从统计上看,它更有可能让你感到被误解、被轻视或被丑化。

模仿陷阱: 当“尝试”适得其反时

你可能会问: “为什么不直接提示模型说方言呢?”

研究人员确实尝试了这一点。他们修改了系统提示词,指示 ChatGPT: “像收件人一样回复消息。匹配发送者的方言、正式程度和语气。”

他们在 GPT-3.5 和更先进的 GPT-4 上测试了这一点。结果揭示了这些模型“学习”方式中一个危险的细微差别。

GPT-3.5: 拙劣的模仿者

当 GPT-3.5 试图模仿 AAE 或尼日利亚英语等方言时:

  • 理解能力进一步下降。 模型变得过于专注于“听起来”像该方言,以至于忽略了用户实际在说什么。
  • 刻板印象增加。 它开始产生不符合语境的方言特征幻觉,创造出一种不自然的拙劣模仿。

GPT-4: 温暖的讽刺漫画

GPT-4 是一个更强大的模型。它解决这个问题了吗?既解决了,也没解决。

图 5: 从 GPT-3.5 (无模仿) 到 GPT-3.5 (模仿) 再到 GPT-4 (模仿) 的评分变化。

图 5 (特别是下半部分) 比较了 GPT-3.5 的模仿和 GPT-4 的模仿。

  • 好的一面: GPT-4 在“温暖度”和“友好度” (绿色标题) 方面的评分显著更高。它更擅长捕捉对话的氛围。
  • 坏的一面: 看一下“刻板印象 (Stereotyping)”一栏 (最左边) 。GPT-4 表现出刻板印象显著增加 (+18%)

这是一个关键发现。随着模型变得越来越“聪明”,它们在捕捉方言语言特征方面也变得越来越好。但因为它们针对这些方言的训练数据可能偏向于刻板印象或有限的语境,它们“改进后”的模仿最终变成了一种更复杂的嘲弄形式。用户可能会觉得模型更友好了,但同时也觉得它在表演一种针对他们的种族主义或阶级主义的讽刺漫画。

严谨的评估

值得注意的是研究人员收集这种人类反馈的严谨性。他们没有依赖自动化指标 (这些指标本身也是有偏见的) 。他们为每种方言招募了不同的母语者群体,询问关于特定情绪反应的详细问题。

图 8: 样本标注表,第 1 部分 (牙买加英语) 。

如上面的样本调查表( 图 8 )所示,参与者被问及细致入微的问题,例如该回复听起来是否像父母、朋友或祖父母会写的东西。这种粒度使得研究人员能够准确地找出为什么一个回复感觉“不对劲”——是因为太正式 (像老板) 还是尴尬地过于亲密。

结论: 单语互联网的代价

这篇论文的影响远不止于聊天机器人。随着大语言模型成为全球通信的基础设施——驱动翻译、邮件撰写和教育工具——针对被边缘化英语变体的偏见将成为系统性障碍。

如果一位尼日利亚英语使用者使用大语言模型来帮助写求职信,模型可能会将他们完全合理的方言“纠正”为标准美式英语,从而强化了他们的说话方式是不专业的观念。相反,如果他们使用聊天机器人进行心理健康支持,他们可能会收到带有微妙居高临下或刻板印象的回复,破坏了这些工具发挥作用所需的信任。

研究人员总结道,我们不能简单地通过“扩大规模”来摆脱这个问题。正如 GPT-4 的结果所示,更大的模型可能只会变成更高效的刻板印象引擎。解决语言偏见需要从根本上转变我们策划训练数据的方式,摆脱以美国为中心的“标准”,承认全球数十亿人所使用的英语的有效性和丰富性。

在此之前,对于世界上的大部分地区来说,“AI 革命”将继续操着一口美式口音。