引言

在自然语言处理 (NLP) 的世界里,我们经常将数据标注视为寻找单一真理的过程。如果我们让五个人将一条评论标记为“有毒 (toxic) ”或“无毒”,其中三个人说有毒,我们通常会采用多数投票的结果,并将反对意见视为噪声丢弃。但这种分歧真的是噪声吗?

试想这句话: *“你是个白痴。” (You’re an idiot.) *

对于游戏聊天室里的亲密朋友来说,这可能只是顽皮的玩笑。对于政治辩论中的陌生人来说,这却是一种侮辱。一个群体认为可以接受的内容,另一个群体可能会觉得极具冒犯性。如果我们将这些不同的观点聚合成单一的“基准真相 (ground truth) ”,我们就剥离了数据中固有的社会差异。我们丢失了标签背后的“人”。

这对安全系统构成了重大挑战。如果人工智能只学习多数人的观点,它可能无法保护少数群体,或者误解特定的文化背景。

在这篇文章中,我们将探讨一篇引人入胜的研究论文《Accurate and Data-Efficient Toxicity Prediction when Annotators Disagree》 (当标注者意见不一致时准确且数据高效的毒性预测) ,该论文提出了视角的转变。研究人员不再问“这句话有毒吗?”,而是问“这个特定的人会觉得这句话有多毒?”

我们将深入研究三种旨在预测个体标注者评分的不同架构: 神经协同过滤 (NCF) 、基于嵌入的架构和上下文学习 (ICL) 。我们还将发现关于人口统计数据与调查问卷回复之间惊人的关系,以及这对用户隐私意味着什么。

背景: 主观性问题

传统的监督学习依赖于这样一个假设: 对于每一个输入 \(x\),都有一个正确的标签 \(y\)。在诸如仇恨言论检测等主观任务中,这一假设并不成立。人类标注者之间的分歧不一定是错误;它往往反映了他们的背景、生活经历和个人容忍度。

近期关于“透视主义 NLP (Perspectivist NLP) ”的研究表明,我们应该显式地对这些分歧进行建模。与其训练模型输出单一分数 (例如 0 代表安全,1 代表有毒) ,我们可以训练模型来预测特定用户给出的具体评分。

为了做到这一点,模型不仅需要文本,还需要关于标注者的语境信息。本研究的研究人员使用了一个数据集,其中每个文本的毒性评分范围从 0 (毒性最小) 到 4 (毒性最大) 。关键在于,该数据集包含了关于标注者的元数据:

  • 人口统计信息: 种族、性别、年龄、教育程度、政治立场等。
  • 调查问卷信息: 他们的社交媒体习惯、是否曾在网上受到骚扰,以及他们对技术的看法。
  • 评分历史: 他们过去如何评价其他文本。

研究人员旨在回答两个主要问题: 我们能否构建准确预测这些个性化评分的架构?敏感的人口统计数据真的是必要的吗,还是我们可以从不那么敏感的调查数据中推断出偏好?

核心方法: 三种个性化方案

这项研究的核心在于我们如何将阅读的文本与阅读者的个人资料结合起来。作者提出并严格测试了三种不同的方法。

1. 神经协同过滤 (NCF)

第一种方法从推荐系统中汲取灵感——这就好比 Netflix 根据你的观看历史预测你是否会喜欢某部电影。这被称为神经协同过滤 (NCF) 。

这里的假设是,标注者对毒性的“品味”是一种可以通过学习获得的潜在偏好。该架构创建了两条并行的信息流,它们合并后形成预测。

图 1: 我们的神经协同过滤 (NCF) 架构设计。标注者信息和被评分的文本被传入一个嵌入模型,然后与标注者嵌入进行拼接,并通过一系列全连接层来预测评分。

图 1 所示,该过程如下运作:

  1. 文本编码: 待评分的文本 (例如“你是个白痴”) 被传入一个 RoBERTa 模型。RoBERTa 是一个在毒性数据集上微调过的鲁棒语言模型。它生成句子的稠密向量表示。
  2. 标注者嵌入: 同时,模型维护一个可学习的标注者嵌入。在最基础的版本中,这是分配给用户 ID 的一个随机向量,模型会在训练过程中调整它以代表该用户的潜在行为。
  3. 拼接与预测: 文本嵌入和标注者嵌入被拼接 (连接在一起) 。这个组合向量——包含关于说的是什么以及在阅读的信息——被传入一系列全连接神经网络层 (分类头) ,以输出 0 到 4 之间的最终评分。

研究人员对这种架构进行了大量实验。他们尝试冻结 RoBERTa 的权重,调整标注者嵌入的大小 (从 8 维到 768 维) ,甚至直接将人口统计数据注入到 RoBERTa 的输入中。

2. 基于嵌入的架构

第二种方法不再使用潜在用户 ID 的“黑盒”,而是利用数据显式地对标注者建模。这就是基于嵌入的架构 , 正如我们在结果中将看到的那样,这种方法被证明是本研究中最强大的方案。

图 2: 我们的基于嵌入的架构设计。

如图 图 2 所示,该架构将标注者的个人资料视为一个文本问题。

  • 第一步: 文本输入: 待评分的文本使用 OpenAI 的嵌入模型 (具体为 text-embedding-3-smalltext-embedding-3-large) 转换为嵌入。
  • 第二步: 个人资料输入: 标注者的信息——他们的人口统计数据、调查回复和评分历史——被转换为描述性的字符串。例如: “读者是一位 25-34 岁的亚裔女性,她……认为有毒评论是一个严重的问题。”
  • 第三步: 双重嵌入: 这个描述性的个人资料字符串被传入文本嵌入模型。现在,有毒评论和用户简介都在同一个高维向量空间中表示。
  • 第四步: 融合: 这两个嵌入被拼接并输入到一个自定义的多层感知机 (MLP) 中。这是一个由全连接层组成的神经网络,旨在学习用户资料与文本之间的非线性交互。

这种方法的优点在于其语义丰富。模型不仅仅知道“用户 123”;它在语义上理解用户 123 的属性

3. 上下文学习 (ICL)

最后一种方法利用了像 GPT-3.5 和 Mistral 这样的大型语言模型 (LLM) 的能力。这种被称为上下文学习的方法不涉及训练新的神经网络结构,而是依赖于复杂的提示工程。

研究人员构建了一个结构化的提示词,为 LLM 提供所有必要的语境。提示词遵循以下模式:

  1. 系统提示词 (System Prompt): 定义角色 (例如,“你是一个预测毒性评分的模型……”) 。
  2. 标注者历史: 该特定标注者过去评分的文本示例 (例如,“‘这是无害的’被评为 0”) 。
  3. 调查/人口统计信息: 标注者的自然语言描述 (类似于嵌入方法) 。
  4. 目标文本: 需要预测的实际句子。

然后,LLM 被要求生成评分。这测试了模型根据提供的简介和历史“扮演”特定标注者的能力。

实验与结果

研究人员使用平均绝对误差 (MAE) 来评估这些模型。由于评分范围是 0 到 4,MAE 越低意味着预测的评分越接近真实的人类评分。

Q1: 哪种架构表现最好?

结果显示各种方法之间存在明显的层级差异。

神经协同过滤 (NCF) 方法表现挣扎。尽管进行了大量调优,它仍未能显著超越基准线。如下表所示,即使冻结预训练模型或调整嵌入维度,MAE 也大约在 0.80 到 0.89 之间。

表 3: 重要实验及其对平均绝对误差 (MAE) 的影响

NCF 模型失败的原因可能是,标注者 ID 与文本之间的交互非常复杂,仅通过分类头中的简单拼接难以捕捉,尤其是在每个用户的数据稀疏时。

赢家: 基于嵌入的架构

基于嵌入的架构是明显的赢家,达到了 0.61 的 MAE。这相较于 NCF 方法是一个显著的提升。

上下文学习 (ICL) 模型也表现不错,Mistral 达到了 0.69 的 MAE。然而,专用的嵌入架构始终击败通用的 LLM。

Q2: 什么信息最重要?

研究人员进行了消融实验,系统地移除不同的输入 (人口统计、历史、调查信息) ,以观察是什么驱动了性能。

图 3: 不同模型在输入不同数量的标注者信息时 MAE 改善情况的比较。text-embedding-3-large 模型始终优于所有其他模型,并且在其自身基准上的提升最大。

图 3 展示了与纯文本基准相比,添加不同数据源时误差减少的幅度 (柱子越高越好) 。

  1. 仅文本 (基准): 仅根据句子本身进行预测会产生最高的误差。
  2. 添加人口统计信息: 带来适度的提升 (第一组柱状图) 。
  3. 添加历史与调查信息: 这是见证奇迹的时刻。人口统计 + 历史 + 调查信息的组合 (最右边的柱状图) 使最佳模型 (text-embedding-3-large) 的误差减少了近 18%。

“估算”人口统计数据的发现

论文中最有趣的发现或许在于“预测人口统计数据 (Predict Demographics) ”的消融实验 (图 3 中的第四组柱状图) 。

收集人口统计数据 (种族、性别、性取向) 通常在法律上很困难或具有侵入性。研究人员问道: 我们能不能直接用调查数据来代替?

他们训练了一个单独的模型,仅根据调查回复 (对技术的看法、社交媒体使用情况) 和评分历史来预测标注者的人口统计特征。

  • 他们发现预测性别的准确率达到 63% , 预测种族的准确率达到 47%——明显优于随机猜测。
  • 当他们在毒性模型中使用这些预测的 (估算的) 人口统计数据代替真实的人口统计数据时,性能下降微乎其微。

这表明调查问卷的回复隐含了与人口统计数据相同的信号。 如果你知道某人的在线习惯和评分历史,你不一定需要询问他们的种族或性别就能预测他们如何评价毒性。调查数据就是一个充分的代理。

结论与启示

这项研究强调,毒性不是文本的客观属性,而是文本与读者之间的一种关系。通过超越多数投票,我们可以构建尊重个体判断差异的系统。

主要收获如下:

  1. 架构至关重要: 融合了文本和用户档案语义表示的专用基于嵌入的架构,显著优于协同过滤和通用的 LLM 提示方法。
  2. 语境为王: 包含标注者历史和调查数据极大地降低了预测误差 (MAE 0.61 对比基准 >0.75) 。
  3. 隐私悖论: 调查数据可以作为人口统计数据的代理,这一发现是一把双刃剑。虽然这意味着我们可以在不明确询问敏感数据的情况下构建准确的个性化模型 (数据高效) ,但这也意味着“匿名”调查可能会无意中通过数据推断泄露敏感的人口统计特征 (隐私风险) 。

随着我们迈向更加个性化的人工智能,理解这些细微差别——如何对用户建模以及如何保护他们的潜在数据——对于构建更安全、更包容的数字环境至关重要。