NLP 中的偏差度量指标已支离破碎：为何“可行动性”是缺失的一环

想象一下，你是一名机器学习工程师，负责为招聘平台部署一个大型语言模型 (LLM)。你运行了一个标准的偏差评估脚本，它返回了一个分数: 0.42 。

现在你该怎么做？

0.42 是好是坏？这是否意味着模型太糟糕了？这是否意味着模型仇视女性，或者只是稍微偏向西方名字？如果你修复了数据，分数降到了 0.38，模型是否就可以安全部署了？

如果你无法回答这些问题，那么你使用的指标就缺乏可行动性 (actionability) 。

在快速发展的自然语言处理 (NLP) 领域，我们看到了提出各种偏差度量新方法的论文呈爆炸式增长。然而，一篇题为 “Metrics for What, Metrics for Whom: Assessing Actionability of Bias Evaluation Metrics in NLP” 的最新论文指出，我们正在制造一些在根本上难以使用的工具。

作者 Pieter Delobelle, Giuseppe Attanasio, Debra Nozza, Su Lin Blodgett, 和 Zeerak Talat 对 146 篇研究论文进行了全面的审查。他们的结论是什么？该领域正遭受着清晰度缺失的困扰，这阻碍了我们将偏差测量转化为现实世界的干预措施。

在这次深度解读中，我们将探讨可行动性的概念、研究人员提出的评估框架，以及他们文献综述中发人深省的结果。

测量与行动之间的鸿沟

要理解为什么可行动性是必要的，我们需要先看看“公平 NLP (Fair NLP)”的现状。

多年来，研究人员一直使用社会科学中的测量建模 (measurement modeling) 等框架。这种方法要求我们区分构念 (construct) (我们要测量的理论概念，如“性别歧视”) 和操作化 (operationalization) (我们实际如何测量它，如“计算代词不匹配”) 。

虽然这种区分对于有效性 (测量我们认为正在测量的东西) 至关重要，但它忽略了一个实际组成部分: 效用 (utility) 。

在现实世界中，指标是决策的工具。2014 年，亚马逊曾试图构建一个 AI 系统来筛选简历。他们发现该系统会惩罚包含“women’s (女性的) ”一词的简历 (例如，“女性国际象棋俱乐部”) 。因为他们内部审计的结果清晰且具备可行动性，所以他们能够采取具体步骤: 他们尝试编辑程序，当失败后，最终放弃了该项目。

结果促成了一项决策。这就是可行动性的本质。

定义可行动性

作者将可行动性正式定义为:

度量结果促成知情行动的程度。

一个具备可行动性的结果能够传达谁受到了影响、伤害的规模或问题的来源。这使得利益相关者能够进行干预。干预措施可能包括:

开发人员: 更改训练数据或微调模型。
公司: 决定不发布模型或部署保障措施。
监管机构: 处以罚款或禁止特定的违规应用。
用户: 选择退出他们知道存在偏差的系统。

可行动性与可解释性 (interpretability) 或透明度 (transparency) 等概念相关，但又有区别。一个指标可能具有完美的可解释性 (你确切地知道数学原理) ，但不具备可行动性 (那个数字并没有告诉你该模型是否可以安全使用) 。

必要条件: 什么让指标具备可行动性？

这就引出了这篇论文的核心贡献: 一个用于评估偏差指标是否具备可行动性的框架。作者确定了五个关键的“必要条件 (desiderata)”——即一篇研究论文应该提供的要求——以使其提出的指标真正有用。

如果你是开发新指标的学生或研究员，这是你必须回答的五个问题。

1. 动机 (Motivation)

要求: 清楚地陈述该度量方法所解决的需求。 为何重要: 这个指标是用来检测招聘中的直接歧视吗？还是为了检查模型如何处理特定方言？或者它是针对以前的指标未涵盖的新语言？如果用户不了解具体的动机，他们就无法确定该指标是否适合他们的具体问题。一个为“情感分析”设计的指标，即使都测量“性别偏差”，对于“文本生成”来说也可能是毫无用处的。

2. 潜在的偏差构念 (Underlying Bias Construct)

要求: 明确定义这种语境下的“偏差 (bias)”意味着什么。 为何重要: “偏差”是一个模糊且过载的术语。它可以指统计偏斜、社会刻板印象、分配性伤害 (拒绝资源) 或表现性伤害 (贬低某个群体) 。可行动性需要理论上的理解。如果论文没有定义构念，那么数字就只是噪音。例如，如果一个指标声称测量“性别偏差”，但只检查二元代词 (他/她) ，那么它在操作上就未能捕捉到非二元性别身份。如果没有清晰的定义，开发人员可能会认为他们的模型对所有人都是“公平”的，而实际上它只对特定的子集“公平”。

3. 区间与理想结果 (Interval and Ideal Result)

要求: 定义分数的可能范围，尤其是“理想”分数是什么样的。 为何重要: 这通常是从业者最大的痛点。

定义域: 分数是实数吗？百分比？
区间: 它是有界的 (如 0 到 1 之间) 还是无界的 (如对数似然) ？
理想值: 目标是什么？0 是完美吗？50 是完美吗？

如果一个指标是无界的 (例如，它可以从负无穷大到正无穷大) ，那么它很难被付诸行动。如果你的分数从 150 提高到 120，这显著吗？还是说任何高于 10 的分数都是不可接受的？如果没有“理想结果” (一个规范性标准) ，决策者就无法设定部署的门槛。

4. 预期用途 (Intended Use)

要求: 指定指标适用的条件。 为何重要: 没有哪个指标是万能药。有些是专门为掩码语言模型 (如 BERT) 设计的，在生成式模型 (如 GPT) 上无法工作。有些需要特定的数据集格式 (如刻板印象对) 。通过明确说明预期用途——包括必要的数据、模型类型和社会背景——研究人员可以防止误用。在预期范围之外使用指标是产生错误自信的根源。

5. 可靠性 (Reliability)

要求: 提供证据证明该指标是一致且稳健的。 为何重要: 如果你运行两次测试，会得到相同的结果吗？如果你稍微改变种子词，偏差分数会反转吗？可靠性是可行动性的先决条件。如果一个指标的误差幅度很大，你无法基于它做出商业或政策决策。论文应报告误差幅度、统计显著性检验和稳健性检查。

审计: 该领域的表现如何

为了观察 NLP 社区是否达到了这些标准，作者进行了系统性的文献综述。他们不仅仅是挑选著名的论文；他们遵循了严格的筛选过程。

正如下面的 PRISMA 流程图所示，他们从 ACL Anthology (NLP 研究的主要资料库) 中的近 1200 篇论文开始。在根据相关性进行过滤后——具体寻找引入新偏差指标或数据集的论文——他们将其缩小到最终的 146 篇论文 。

doi: 10.1136/bmj.n71. 图 1: 我们论文集的 PRISMA 2020 流程图。

随后，研究人员阅读了这 146 篇论文中的每一篇，并根据五个可行动性必要条件对它们进行了注释。结果揭示了整个领域中存在的重大“对可行动性的威胁”。

威胁 1: 模糊的动机

虽然 80% 的论文提供了某种动机，但许多动机都极其模糊。一种常见的模式是循环逻辑: “我们引入一个新的性别偏差指标，因为现有的指标无法测量这种特定类型的性别偏差”，却不解释为什么这种特定类型在现实世界中很重要。

有些论文引用了未详细说明的“威胁”作为动机。例如，一篇论文仅引用“LangChain” (一个用于构建 LLM 应用的库) 作为一种危险来作为其工作的动机，却没有解释具体的风险是什么。如果动机不明确，从业者就无法知道该指标是否解决了他们的实际问题。

威胁 2: 缺失的构念

也许最令人震惊的发现是，在 25% 的论文中，根本无法确定作者打算测量什么样的理论偏差构念。

这忽略了测量的一个基本规则: 你无法测量你没有定义的东西。许多论文跳过了定义，直接进入操作化阶段，通常只是简单地复制以前的方法 (如词嵌入关联测试，WEAT) ，而不质疑它是否适合当前的语境。

当构念缺失时，“偏差”就变成了数学抽象，而不是社会现实。这使得干预变得不可能——如果指标只给你一个向量距离，你就无法修复社会伤害。

威胁 3: “理想”分数的谜团

大多数论文 (82%) 报告了其指标的范围 (例如，“分数范围从 0 到 1”) 。然而，如何解释这些分数通常留给了读者自己去参悟。

只有 32% 的论文在涉及理想结果时，实际讨论了该结果意味着什么，或者如何解释与理想值的偏差。

作者强调了 “StereoSet” 论文 (Nadeem et al., 2021) 中的一个正面例子，该论文明确定义了一个 IdealLM (理想语言模型) :

“我们将这个假设模型定义为一个总是选择正确关联的模型……它还在所有目标术语中选择了[相同]数量的刻板印象和反刻板印象关联……因此，结果 lms 和 ss 分数分别为 100 和 50。”

这种程度的清晰度是罕见的。没有它，获得“65”分的用户就没有参考点。65 离 50 够近吗？还是严重偏差的证据？

威胁 4: 忽视可靠性

可靠性是信任的基础。如果温度计每次接触都会给出不同的读数，你就不会用它来检查发烧。然而，审查发现，可靠性在偏差指标的开发中很大程度上被忽视了。

下表按论文的动机分类，对比了它们是否讨论了可靠性。

$表 1: 为新指标提供的动机。我们收集的论文 ( n = 146 ) 中的绝对计数，按作者是否讨论了可靠性 ( R_{Y} ) 或未讨论 ( R_{N} ) 进行拆分$

正如我们在表中所见, 只有 28 篇论文 (约 19%) 明确讨论了其新方法的可靠性 (由 $R_Y$ 列表示) 。

更引人注目的是表格的第一行。有 19 篇论文是专门由于现有度量方法缺乏可靠性而受到启发去做的。然而，在这 19 篇论文中, 有 11 篇甚至没有评估它们自己提出的方案的可靠性 。

这表明了一种令人不安的趋势: 研究人员承认该领域存在可靠性问题，引入了一个“更好”的指标，却未能证明他们的新指标实际上更可靠。

讨论: 如何修复偏差指标

这篇论文的发现敲响了警钟。我们正在建立一个庞大的“公平性工具”库，但其中许多都是钝器，无助于我们修复底层系统。

作者提出了一些建议，以推动该领域走向具备可行动性的科学。

1. 将指标建立在影响与危害之上

对于计算机科学家来说，数字是舒适的；社会影响是混乱的。然而，为了使指标具备可行动性，数字必须与伤害相关联。

不要只说: “分数是 0.8。”
要说: “0.8 的分数对应于女性候选人的简历排在前 10 名的概率降低了 20%。”

当结果建立在预期行为之上时，开发人员可以在模型准确性和公平性之间做出明智的权衡。

2. 明确界定预期用途的范围

研究人员需要停止暗示他们的指标是通用的。如果一个指标是为使用 BERT 的英语新闻文章设计的，请说明这一点。如果将其应用于使用 GPT-4 的法语医疗记录，它可能会完全失败。明确的范围界定有助于用户为工作选择正确的工具。

3. 论证偏差定义的合理性

我们需要摆脱将“偏差”作为一个包罗万象的术语。论文应该阐明它们正在测量的具体构念。它们是在测量“刻板印象关联”？“有毒的补全”？还是“排他性语言”？将指标与特定的社会构念 (例如，使用社会学或心理学的文献) 联系起来，可以增强工作的有效性，并阐明需要采取什么具体的干预措施。

4. 可靠性没得商量 (必须具备)

最后，社区必须要求进行可靠性评估。一个新的指标应该带有误差条。它应该针对不同的种子词或输入句子的轻微改写进行稳定性测试。如果一个指标不稳定，它不仅仅是无用的——它是危险的，因为它可能会给模型部署者带来错误的安全感 (或错误的警报) 。

结论

论文 “Metrics for What, Metrics for Whom” 为 NLP 社区引入了一套关键的词汇体系。通过将重点从有效性 (数学是正确的吗？) 转移到可行动性 (我们能使用它吗？) ，它挑战研究人员去思考他们工作的下游消费者。

对于学生和从业者来说，教训很清楚: 对分数保持怀疑。当你遇到偏差指标时，问一些尖锐的问题。理想分数是多少？构念是什么？这可靠吗？

如果指标无法回答这些问题，它就无法帮助你建立一个更公平的系统。而构建更公平的系统，归根结底，才是唯一重要的指标。

测量与行动之间的鸿沟#

定义可行动性#

必要条件: 什么让指标具备可行动性？#

1. 动机 (Motivation)#

2. 潜在的偏差构念 (Underlying Bias Construct)#

3. 区间与理想结果 (Interval and Ideal Result)#

4. 预期用途 (Intended Use)#

5. 可靠性 (Reliability)#

审计: 该领域的表现如何#

威胁 1: 模糊的动机#

威胁 2: 缺失的构念#

威胁 3: “理想”分数的谜团#

威胁 4: 忽视可靠性#

讨论: 如何修复偏差指标#

1. 将指标建立在影响与危害之上#

2. 明确界定预期用途的范围#

3. 论证偏差定义的合理性#

4. 可靠性没得商量 (必须具备)#

结论#