想象一下,你正刷着社交媒体,看到一条关于敏感政治话题的评论。你可能会耸耸肩,觉得这不过是个无伤大雅的观点。然而,你的朋友可能会觉得它极具冒犯性。现在,再想象一下,第三个人正在开罗的咖啡馆、东京的地铁或圣保罗的客厅里阅读同一条评论。

对于这句话是否“有毒 (toxic) ”,他们会达成一致吗?

多年来,自然语言处理 (NLP) 领域一直将冒犯性语言检测等任务视为具有单一“基准真相 (ground truth) ”的客观问题。我们收集标注者的标签,采用多数票原则,然后训练 AI 来预测该标签。但是,如果标注者之间的分歧并不是需要过滤掉的噪音呢?如果这恰恰是我们拥有的最重要信号呢?

在论文 “D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation” 中,来自 Google Research 和 DAIR Institute 的研究人员对“冒犯性存在通用标准”这一假设提出了挑战。他们引入了一个庞大的新数据集,描绘了我们的文化背景和内在道德指南针如何决定我们认为什么是不可接受的。

对于 AI 和数据科学专业的学生来说,这篇论文堪称经典一课,它阐明了在数据标注中,“谁”在标注与标注了“什么”同样重要。

图 1: 来自不同国家的标签分布。来自中国、巴西和埃及的标注者提供了显著不同的标签。

NLP 中的主观性问题

在深入探讨新方法之前,让我们先建立背景。内容审核系统——即在 YouTube 或 Instagram 等平台上隐藏有毒评论的 AI 过滤器——依赖于监督学习。这意味着人类需要阅读成千上万条评论并给它们打上标签 (例如,“有毒”或“无毒”) 。

从历史上看,研究人员一直忽略这些人类标注者的身份。如果有三个人说一条评论是有毒的,而两个人说没毒,这条评论就会被标记为“有毒”,而那两个反对的声音则被视为错误。

然而,最近的研究表明,这些“错误”往往沿着人口统计学界限分布。一个 50 岁的男性认为可以接受的内容,对于一个 20 岁的女性来说可能极其伤人。此外,以前的大多数研究都是“WEIRD”的——即关注西方 (Western)受过教育 (Educated)工业化 (Industrialized)富裕 (Rich)民主 (Democratic) 的人群。

D3CODE 论文认为,要构建真正的全球化 AI,我们需要超越简单的年龄和性别等人口统计学特征。我们需要理解文化 (我们生活的社会规范) 和道德 (我们的内在价值观) 。

D3CODE 数据集: 一项全球性工程

为了捕捉这种复杂性,作者开展了一项大规模的数据收集工作。他们没有仅仅从互联网上招募随机人员;而是精心组建了一个由21 个国家8 个地理文化区域4,309 名标注者组成的资源库。

多样化的标注者群体

研究人员超越了标准的“北美 vs. 欧洲”的比较。他们积极从阿拉伯文化圈、印度文化圈、中华文化圈 (东亚) 、拉丁美洲、撒哈拉以南非洲和大洋洲招募人员。

如下表所示,他们确保每个区域都有足够的样本量 (约 500 人以上) ,同时也平衡了性别和年龄。这种粒度允许我们提出具体的问题: 在“中华文化圈”,年轻人对权威的看法是否与“西欧”的老年人不同?

表 1: 各地区的人口统计分布。

定义区域

定义文化是困难的。为了使数据易于管理,作者根据文化相似性将国家划分为更广泛的区域 (大致基于联合国的分类) 。这为分析宏观层面的文化趋势提供了一个框架。

表 5: 我们数据集中的区域及其包含的国家列表。

标注任务

参与者被要求标注从著名的 Jigsaw 毒性数据集 (Jigsaw Toxicity dataset) 中选出的社交媒体评论。这些不是随机的评论;研究人员专门挑选了那些已知难以判断或有争议的句子。数据集分为三种类型的内容:

  1. 随机 (Random) : 已知会引起分歧的项目。
  2. 道德情感 (Moral Sentiment) : 会引发道德推理的句子。
  3. 社会群体提及 (Social Group Mentions) : 提及种族、宗教、性别或性取向的评论。

至关重要的是,标注者不仅仅是给句子评分。他们还接受了一项心理调查。

“为什么”: 整合道德基础理论

这是该论文的重大创新之处。收集人口统计数据 (年龄、国家) 是标准做法。收集心理档案则很罕见。

作者使用道德基础问卷 (MFQ-2) 对每位标注者进行了侧写。道德基础理论认为人类的道德不是一维的;它建立在几个支柱之上:

  • 关爱 (Care) : 保护他人免受伤害。
  • 平等 (Equality) : 平等对待他人。
  • 比例 (Proportionality) : 根据功绩奖励个人。
  • 权威 (Authority) : 尊重传统和等级制度。
  • 忠诚 (Loyalty) : 与你的群体/家庭站在一起。
  • 圣洁 (Purity) : 避免精神或身体上的堕落。

通过询问标注者类似下方的问题,研究人员可以计算出每个人的“道德档案”。

图 5: 调查中的 MFQ-2 问题示例

这使得分析可以从“印度的标注者与美国的标注者有分歧”转变为“重视圣洁的标注者与重视关爱的标注者有分歧”。

分析: 什么驱动了分歧?

研究结果揭示了人类的认知差异是多么巨大。研究人员发现,分歧不是随机的——它是系统性的,并且受身份驱动。

1. “我不理解”现象

数据标注中最被忽视的一个方面是困惑。通常,如果标注者跳过一个问题,该数据就会被丢弃。在 D3CODE 中,研究人员分析了在跳过问题。

他们发现选择“我不理解这条信息”的人群有明显的模式。

  • 性别: 女性和非二元性别者比男性更有可能承认她们不理解某条信息。
  • 年龄: 50 岁以上的人明显更有可能不理解社交媒体评论 (其中通常包含俚语或互联网特定的语境) 。
  • 地区: 有趣的是,英语母语者 (在大洋洲、北美、英国) 比来自阿拉伯文化圈或撒哈拉以南非洲等地区的参与者可能将信息标记为令人困惑。

图 2: 标注者不理解信息的可能性,按社会人口统计信息分组。

这表明不确定性的分布是不均匀的。如果我们简单地删除“困惑”的回答,我们可能会系统性地压制老年人群或特定性别的观点,使模型偏向于年轻男性的理解。

2. 跨越国界的道德价值观

当研究人员根据 MFQ-2 分数对标注者进行聚类时,他们发现道德价值观并不完全与国界一致。虽然某些地区倾向于特定的价值观,但在世界各地都能找到具有相似道德档案的人。

下表显示了来自不同地区的参与者如何落入不同的“道德聚类”。例如, 聚类 0 (每个堆叠柱状图的底部条块) 由那些报告对所有道德基础都有很高认同感的人组成。这个聚类中包含了大量来自印度文化圈 (红色)阿拉伯文化圈 (蓝色) 的参与者。

相比之下,其他具有不同道德优先级的聚类中,西欧或北美的代表比例更高。这证明,虽然地区是文化的一个很好的代表,但观察价值观能以此为我们要提供关于标注者更高分辨率的画像。

图 3b: 来自不同地区的参与者在不同道德聚类中的分布。

3. 内容很重要: 社会群体引发冲突

研究发现,我们在所有话题上的分歧程度并不相同。研究人员比较了三种内容类型的分歧水平: 随机、道德情感和社会群体提及。

数据显示, 社会群体提及 (关于宗教、种族、性取向等的评论) 在各地区之间造成的分歧最大。

在下方的可视化图中,请看图表 (a) 。 红线代表提及社会群体的项目。它向右偏移,表明与随机项目 (蓝色) 相比,跨区域分歧更高。

图表 (b) 进一步细分了这一点。你可以看到,像 穆斯林 (Muslim) 、性少数群体 (LGB) 和基督徒 (Christian) 这样的话题,在各地区之间产生的其分歧 (标准差) 明显高于像“公平 (Fairness) ”或“关爱 (Care) ”这样的抽象概念。

图 4: 各类别 (a) 和各子类别 (b) 项目上的区域间分歧。

这对于 AI 安全来说是一个至关重要的见解。这意味着,如果模型是用关于 LGBTQ+ 议题或宗教评论的西方数据训练的,它可能完全无法符合中东或拉丁美洲用户的价值观,反之亦然。

4. 冒犯性的全球热力图

最后,研究人员查看了各国的原始“冒犯性”评分。有些国家是否真的觉得所有东西都更具冒犯性?

答案似乎是肯定的——或者至少,被认为“冒犯”的阈值差异很大。如下图所示,像埃及、巴西和印度 (列表顶部) 这样的国家倾向于更频繁地将评论评为高度冒犯。相反,来自中国、新加坡和澳大利亚 (列表底部) 的标注者给出的平均冒犯性分数要低得多。

图 6: 不同国家标注者提供的不同标签的分布。

这种差异可能是由于翻译的细微差别、文化沟通风格 (直接与含蓄) ,或关于哪些语言被视为禁忌的社会规范不同造成的。

5. 文化冲突的具体例子

为了让这些统计数据更真实,让我们看看那些引发最大分歧的实际句子。下表显示了各地区意见完全分裂的实例。

以第二个例子为例: *“指出越来越多的美国人支持通奸……这能丝毫改变上帝的律法吗?” (“Does pointing out that a growing majority of Americans support adultery… change God’s law an iota?”) *

  • 被评为冒犯性的地区: 阿拉伯文化圈、印度文化圈、拉丁美洲、北美。
  • 被评为不具冒犯性的地区: 大洋洲、中华文化圈、撒哈拉以南非洲、西欧。

这凸显了一句话如果援引宗教法律和道德判断,在某些文化中被视为有效的观点,而在其他文化中则被视为冒犯性的攻击。二元的“有毒/无毒”标签无法捕捉这一现实。

表 3: 区域间分歧最大的实例。

结论与启示

D3CODE 论文为 NLP 社区敲响了警钟。随着大型语言模型 (LLM) 在全球范围内部署,在安全和冒犯性问题上采取“一刀切”的方法已不再可行。

给学生的核心要点:

  1. 数据是主观的: 在毒性检测等任务中,标注者的背景是特性,而不是 Bug。
  2. 人口统计 \(\neq\) 命运: 虽然你住在哪里很重要,但你的内在道德价值观 (关爱、圣洁、权威) 是你如何感知语言的有力预测因素。
  3. 语境为王: 当讨论特定的社会群体 (宗教、性别) 时,分歧达到顶峰。这是模型最有可能无法满足特定用户群体的地方。

研究人员总结道,我们需要迈向多元化 AI 模型——能够理解和尊重不同文化视角的系统,而不是强加单一的主导世界观。D3CODE 数据集为开始构建这些具有文化意识的系统提供了必要的测试平台。通过解开数据中的分歧,我们可以开始看到标签背后真实的人。