在自然语言处理 (NLP) 的世界里,我们经常执着于一个令人宽慰的神话: “金标签” (Gold Label) 神话。

想象一下,你正在训练一个 AI 来检测仇恨言论。你把一句话展示给三位人类标注者。两个人说它是冒犯性的;一个人说它是讽刺。在传统的机器学习中,我们会采取多数投票的方式,将这句话标记为“冒犯性”,然后继续。那个反对的声音被视为噪声——一种需要被平滑掉的错误。

但如果这种分歧本身就是信号呢?

在主观任务中——比如判断道德、识别毒性或解读幽默——很少存在单一、客观的真理。通过将人类的分歧扁平化为单一标签,我们要么抹去了少数派的观点,要么训练出的模型只能代表多数人的看法。

这给我们带来了一个紧迫的问题: 准确地建模全方位的人类观点是昂贵的。它需要为每一个数据点雇佣许多不同的标注者。我们如何在不倾家荡产的情况下捕捉这种丰富的多样性?

标注者中心的主动学习 (Annotator-Centric Active Learning, ACAL) 应运而生。这是由 Idiap、莱顿大学、斯图加特大学和代尔夫特理工大学的研究人员提出的一种新颖框架。这种方法颠覆了我们训练模型的传统剧本,不仅关注什么数据需要标注,还关注应该去标注它。

在这篇深度文章中,我们将探讨 ACAL 是如何工作的,它用于在准确性之外兼顾公平性的策略,以及为何 AI 的未来可能取决于倾听房间里那些“最弱势” (worst-off) 的声音。


第一部分: 被动学习的问题

要理解为什么 ACAL 是必要的,我们首先需要看看标准监督学习 (在这种语境下通常被称为“被动学习”) 的局限性。

金标准 vs. 软标签

在标准的 NLP 流程中,我们要处理的数据集里每个输入 \(x\) (例如一条推文) 都有一个目标标签 \(y\) (例如“正面情绪”) 。通常,\(y\) 是一个“硬标签”——一个源于标注者多数投票的确定性类别。

然而,研究人员正越来越多地转向软标签预测 (Soft Label Prediction) 。 模型不再预测单一的类别,而是试图预测标注的分布

例如,如果有 10 个人看了一条推文,7 个人说是“仇恨言论”,3 个人说“非仇恨言论”,那么目标就不仅仅是“仇恨言论”,而是一个概率分布: [0.7, 0.3]

将这些个人判断聚合为软标签 \(\hat{y}_i(x)\) 的数学公式如下:

将个人标注聚合为软标签分布的公式。

在这里,模型从群体的集体智慧中学习,而不是从赢家通吃的投票中学习。虽然这对主观任务更好,但它造成了资源瓶颈。为了得到一个可靠的分布 (平滑的 0.7 vs 0.3) ,你需要对每个条目进行多次标注。如果你有 50,000 个条目,每个条目付钱给 10 个标注者,就会产生 50 万次标注。这通常极其昂贵。

传统的主动学习 (AL) 解决方案

针对高昂标注成本,行业的标准解决方案是主动学习 (Active Learning, AL)

在主动学习中,模型从极少量的已标注数据开始。然后,它查看大量未标注的数据池,并问道: “这些例子中哪一个最让我困惑?”它选择那些特定的、令人困惑的例子,并将它们发送给“先知” (Oracle,通常是人类专家) 进行标注。

该过程如下图左侧所示:

传统主动学习 (左) 与标注者中心的主动学习 (右) 的对比。

AL 的缺陷: 传统 AL 假设存在一个先知——一个绝对真理的来源。它假设如果模型请求一个标签,它将得到正确的标签。

但在主观任务中,没有所谓的先知。只有一个人类标注者池,每个人都有自己的偏见、价值观和文化背景。如果 AL 系统选择了一个有争议的句子并将其发送给一个随机的标注者,它收到的标签完全取决于接了这个任务。

如果我们想模拟人类观点的完整分布,仅仅选择正确的数据是不够的。我们还需要选择正确的


第二部分: 引入标注者中心的主动学习 (ACAL)

研究人员提出了 ACAL (如上图 1 右侧所示) 。它通过增加一个关键的新步骤扩展了传统的循环: 标注者选择 (Annotator Selection) 。

在 ACAL 中,系统在每一步都要做出两个决定:

  1. 样本选择: 我们接下来应该标注哪篇文本文档? (标准 AL)
  2. 标注者选择: 在我们可用的人类库中,应该标注这份特定的文档?

算法

这是一个迭代过程。模型选择一批数据,为这些条目选择特定的标注者,在新数据上进行训练,然后重复。

算法 2: ACAL 的逐步过程。

这个简单的补充改变了优化目标。我们不再仅仅试图减少模型对标签的不确定性;我们试图有效地近似人类判断的多样性

理想情况下,我们要构建一个反映全体人群 (多数派和少数派) 观点的数据集,而不必让每个人都去标注每一个条目。


第三部分: 选择标注者的策略

如果你有 100 个标注者的池子,你如何决定谁应该标注下一个数据点?随机选择是基准,但这效率低下。它往往会过度代表多数派的观点,仅仅因为他们人数更多。

受到罗尔斯 (Rawls) 公平原则的启发,该论文介绍了三种旨在捕捉多样性和公平性的具体策略。这一哲学原则表明,一个公平的社会是那些“处境最差” (worst-off) 成员的福祉最大化的社会。在 NLP 术语中,“处境最差”的是那些意见很少被听到的标注者——即少数派的声音。

以下是测试的四种策略:

1. 随机选择 (\(T_R\))

这是对照基准。给定一个选定的文本样本,系统随机均匀地选择一名标注者。随着时间的推移,这反映了标注者池的自然分布 (包括所有偏见) 。

2. 标签少数派 (\(T_L\))

此策略关注结果 。 它查看每个标注者给出的标签历史。

  • 逻辑: 它识别当前训练数据中哪个标签类别是“少数派” (例如,如果“有毒”出现的频率低于“安全”) 。
  • 操作: 对于新样本,它选择一个有分配该少数派标签历史的标注者。
  • 目标: 人为地平衡数据集标签,确保模型看到足够多的稀有类别示例。

3. 语义多样性 (\(T_S\))

此策略关注内容覆盖 。 它查看标注者以前读过什么

  • 逻辑: 它使用嵌入 (文本的数学向量表示) 来理解标注者已经标注过的样本的语义含义。
  • 操作: 对于新样本,它计算该样本与标注者历史记录之间的“语义距离”。它选择那个最少看到此类内容的标注者。
  • 目标: 以此拓宽每个标注者的经验,确保他们独特的视角被应用于广泛的主题。

4. 表征多样性 (\(T_D\))

此策略关注标注者的独特性 。 它查看一个标注者相对于其他人的行为方式如何

  • 逻辑: 它根据标注者标注的文本和给出的标签为每个人建立档案。然后比较标注者之间的差异。
  • 操作: 它选择那个与该条目可用的其他人最不相似的标注者。
  • 目标: 寻找“离群者”或“唱反调的人”。如果大多数人意见一致,该策略会专门寻找可能持不同意见的人,确保分布捕捉到主观性的全部范围。

第四部分: 在主观世界中衡量成功

我们如何知道这些策略是否有效?在传统 AI 中,我们使用 F1 分数 (准确性) 。但如果“真相”是主观的,对多数票的准确性可能实际上是一件坏事——这可能意味着模型学会了忽略少数群体。

研究人员使用了一套指标,分为两类:

标准指标 (功利主义视角)

  • 宏平均 F1 (Macro F1): 模型预测多数票的效果如何?
  • Jensen-Shannon 散度 (JS): 衡量预测概率分布与真实标注分布差异的统计指标。 (越低越好) 。

标注者中心指标 (平等主义视角)

为了与罗尔斯的公平原则保持一致,研究人员引入了关注个体标注者的指标:

  • 平均标注者 F1 (\(F_1^a\)): 我们将每个标注者视为唯一的真理来源,计算模型针对他们的 F1 分数,然后取平均值。这告诉我们模型在多大程度上代表了“普通”人。
  • 最弱势标注者 F1 (\(F_1^w\)): 我们计算所有标注者的 F1 分数,取底部 10% (模型表现最差的那些人) ,并平均他们的分数。
  • *为什么这很重要: * 如果这个分数很低,说明模型辜负了少数派。如果这个分数很高,说明模型成功地学会了代表即使是最独特或分歧最大的观点。

第五部分: 实验与结果

团队在三个数据集上测试了 ACAL:

  1. DICES: 与聊天机器人的对话,在这个任务中评级安全性。 (每条目有大量标注者) 。
  2. MFTC: 带有道德基础标签 (如关怀、忠诚、背叛) 的推文。 (意见极度两极分化) 。
  3. MHS: 仇恨言论评论。 (混合的一致性水平) 。

让我们看看主要发现。

发现 1: ACAL 更高效

主动学习的主要目标是省钱。结果表明,ACAL 在使用显著更少数据的情况下,达到了与被动学习 (全量训练) 相似或更好的性能。

表 1: 显示标注预算减少的性能对比。

看看上面表 1 中的 DICES 部分。\(\Delta\%\) 列显示了与被动学习 (PL) 相比标注预算的减少。

  • ACAL 策略 (如 \(S_R T_S\)) 取得了相当的 F1 和 JS 分数,同时将预算减少了 ~30-38%
  • MHS 数据集上,预算减少是巨大的——高达 62.5%

这证实了我们不需要让每个标注者标注每个条目。通过策略性地选择标注什么,我们可以以一小部分成本构建稳健的模型。

发现 2: 学习曲线与收敛

模型学习得有多快?下面的学习曲线比较了传统主动学习 (AL,左侧策略) 与 ACAL。

DICES 和 MHS 数据集的学习曲线。

  • 上图 (DICES): 与传统 AL 相比,ACAL 策略 (实线) 的 JS 分数 (误差) 下降得快得多。这意味着 ACAL 用更少的训练步骤近似了人类观点的真实分布。
  • 下图 (MHS): 有趣的是,对于仇恨言论检测 (非人化 Dehumanize) ,ACAL 实际上获得了比被动学习 (黄色水平线) 更高的 F1 分数。这表明,有选择地采样多样性有时比盲目地在所有噪声数据上训练能产生更好的表征。

发现 3: “最弱势”群体的权衡

最深刻的发现之一与公平性指标有关。研究人员发现了在建模多数派与保护少数派之间的一种权衡。

显示 F1 平均值 vs. JS 最弱势值的验证图。

在上面的图中,请看 最弱势 JS (\(JS^w\)) (越低越好) 。这衡量了模型对 10% 少数派标注者的误读程度。

  • 在分歧较大的数据集 (如 MFTC 和 MHS) 上,ACAL 策略导致了比标准主动学习更好 (更低) 的 \(JS^w\) 分数。
  • 这证明了标注者选择有效地捕捉了标准采样忽略的少数派声音。

然而,请注意,随着模型看到更多数据,“最弱势”误差有时增加了。为什么?因为模型开始收敛于真实分布,而真实分布本身就包含分歧。模型正确地学到了“10% 的人会讨厌这个标签”,因此它对这 10% 的预测永远不会是完美的“1.0”匹配。这是一个特性,而非缺陷——它反映了主观分歧的现实。

发现 4: ACAL 需要大量人群

研究人员指出了一个关键的局限性。ACAL 在 DICES 数据集上表现最出色。为什么?因为 DICES 的每个条目都有一个庞大的标注者池 (平均 73 人) 。

相比之下,像 MFTC 这样的数据集每个条目只有大约 3-4 个标注者。当池子如此之浅时,“选择”一个标注者并没有给你太多的杠杆作用——你基本上还是得问所有人。

这在下面的跨任务比较中得到了直观展示:

跨任务比较 ACAL、AL 和被动学习的条形图。

在左上角 (MFTC) ,条形相对均匀。但在标注者池更深或分歧更复杂的任务中,策略之间的区别变得更加明显。

发现 5: 管理熵

最后,团队分析了“熵” (Entropy) ——一种衡量混乱或分歧的指标。他们想看看他们的策略是人为地夸大了分歧,还是准确地反映了分歧。

按 ACAL 策略导致更高/更低熵的数据样本比例。

这张 DICES 数据集的图表追踪了策略随时间变化的行为。

  • \(T_D\) (表征多样性 - 浅蓝色): 这种策略 (挑选“唱反调的人”) 始终高估熵。它如此积极地寻找分歧,以至于让世界看起来比实际上更加分裂。
  • \(T_S\) (语义多样性 - 绿色): 这种策略更为保守,更接近数据集的“真实”熵。

这给从业者提供了一个调节手段: 你是想严格地寻找边缘情况 (\(T_D\)) ,还是想要一个平衡的内容视图 (\(T_S\)) ?


第六部分: 启示与结论

NLP 的“金标签”时代正在消退。随着我们将越来越主观的责任交给 AI——社区版主、分析政治情绪或识别安全风险——我们必须接受人类分歧是数据的一个基本组成部分。

标注者中心的主动学习 (ACAL) 提供了一条充满希望的前进道路。通过将标注者视为与数据同等重要的变量,ACAL 使我们能够:

  1. 节省资源: 在减少 30-60% 标注工作量的情况下实现高性能模型。
  2. 增强公平性: 专门针对并包含代表有效但不常见观点的少数派视角 (“处境最差”的标注者) 。
  3. 定制训练: 根据应用需求选择策略 (\(T_L, T_S, T_D\)) 来调整模型是偏向稳定性还是多样性。

对于学生和未来的研究人员来说,关键要点很明确: 在为主观任务设计 AI 系统时,不要只问“标签是什么?”要问“是谁在标注它?”这个问题的答案将改变一切。


参考文献: Van der Meer, M., Falk, N., Murukannaiah, P. K., & Liscio, E. (2024). Annotator-Centric Active Learning for Subjective NLP Tasks.