简介
想象一下,在翻译引擎中输入以下句子: “The doctor asked the nurse to help her in the procedure.” (医生请护士在手术中协助她。)
如果你将其翻译成具有语法性别的语言——如西班牙语、德语或希伯来语——模型必须做出选择。医生是男是女?护士是男是女?历史上,自然语言处理 (NLP) 模型严重依赖训练数据中的刻板印象。因此,即使句子中明确使用了代词 “her” (她) 来指代医生,模型仍经常将 “doctor” 翻译为男性,将 “nurse” 翻译为女性。
这种现象是一种外在偏见 (extrinsic bias) ——即在下游任务的最终输出中表现出来的偏见。为了解决这个问题,研究人员开发了各种方法来“清理”模型内部的数学运算,这被称为内在去偏 (intrinsic debiasing) 。 逻辑似乎很合理: 如果我们从模型的内部词表示 (嵌入) 中去除性别信息,模型就应该停止在输出中做出性别假设。
但实际运作真的如此简单吗?
在论文 Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation (在下游任务中应用内在去偏: 机器翻译的挑战与考量) 中,来自耶路撒冷希伯来大学和艾伦人工智能研究所的研究人员调查了这种联系。他们探索了清理模型的内部几何结构是否真的能带来更公平的翻译。他们的发现表明,这种关系绝非简单——它在很大程度上取决于你在哪里去偏、你针对哪些词,以及你翻译成什么语言。
背景: 两种类型的偏见
要理解研究人员的方法,我们首先需要区分 NLP 中衡量偏见的两种方式。
- 内在偏见 (Intrinsic Bias) : 这关注的是模型的内部表示 (词嵌入) 。在一个有偏见的向量空间中,“医生”和“男人”之间的数学距离远小于“医生”和“女人”之间的距离。内在去偏方法试图强制这些距离相等。
- 外在偏见 (Extrinsic Bias) : 这关注的是模型在现实世界任务 (如机器翻译 MT) 中的表现。如果模型基于刻板印象持续对专业人士的性别进行错误判断,那么它就表现出外在偏见。
文献中存在一个日益扩大的空白: 虽然提出了许多修正内在偏见的新方法,但它们很少在像翻译这样复杂的下游任务中经过严格测试。
工具箱: 内在去偏方法
研究人员测试了三种从向量空间中去除性别信息的著名方法:
- Hard-Debiasing (硬去偏) : 一种使用主成分分析 (PCA) 来识别向量空间中的“性别方向”并将其减去的方法。它是非线性的,且不完全彻底。
- INLP (Iterative Null-space Projection,迭代零空间投影) : 一种训练分类器从向量中预测性别,然后去除该分类器所用信息的方法。它会迭代重复此过程。
- LEACE: 一种较新的闭式解方法,可以从数学上防止任何线性分类器检测到受保护的属性 (在本例中为性别) 。
核心方法: 将去偏整合到机器翻译中
研究人员将这些内在去偏方法整合到了一个标准的基于 Transformer 的神经机器翻译 (NMT) 架构中。他们的目标是观察不同的设计选择如何影响最终的翻译质量和公平性。
他们确定了从简单的词向量转移到复杂的翻译系统时出现的三个主要设计挑战。

如图 1 所示,研究人员系统地控制了三个变量:
1. 架构位置 (在哪里?)
Transformer 模型不仅仅是一大堆数字;它有不同的阶段。研究人员尝试在三个特定点应用去偏:
- 编码器输入 (Encoder Input) : 源语言 (英语) 的嵌入,在被处理之前。
- 解码器输入 (Decoder Input) : 输入到解码器的目标语言嵌入。
- 解码器输出 (Decoder Output) : 模型预测下一个单词之前的最终表示 (Softmax 层) 。
2. 分词不匹配 (什么?)
这是一个微妙但关键的挑战。内在去偏方法通常是为完整的单词 (如 “nurse”, “doctor”) 设计的。然而,现代 NMT 模型使用子词分词 (sub-word tokenization) 来处理生僻词。像 “receptionist” (接待员) 这样的词可能会被分解为 re、ception 和 ist 这样的 Token。
如果我们有一个针对单词 “receptionist” 的去偏算法,我们如何将其应用于 ception?研究人员测试了三种策略:
- All-tokens (所有 Token) : 对词表中的每一个 Token 进行去偏。
- N-token-profession (多 Token 职业词) : 对构成职业列表的 Token 进行去偏,即使该单词被拆分成多个部分。
- 1-token-profession (单 Token 职业词) : 仅对那些在模型词表中作为单个完整 Token 出现的特定职业词进行去偏。
3. 目标语言 (谁?)
不同的语言处理性别的方式不同。团队测试了从英语翻译成希伯来语、德语和俄语 。 这三种语言都有语法性别,但在形态学 (单词的结构) 和字母表方面有显著差异。
实验与结果
为了评估性能,研究人员使用了两个主要指标:
- 准确率 (Accuracy) : 使用 WinoMT 数据集,测量模型正确识别专业人士性别的频率 (例如,当句子暗示医生是女性时,正确地将 “doctor” 翻译为女性) 。
- BLEU: 衡量翻译质量的标准指标。我们要减少偏见,但不能破坏模型正确翻译的能力。
不同语言使用的数据集详情如下:

发现 1: “完整单词”至关重要
最有趣的发现之一涉及分词问题。你可能会认为对更多 Token 去偏会更好。然而,结果显示恰恰相反。

如表 2 所示, 1-token-profession (单 Token 职业词) 策略的表现始终优于其他策略。这表明性别信息在完整单词中具有很强的语义性。当一个单词被破碎成子词 Token (如 cep 或 tion) 时,这些碎片可能并不以内在去偏方法可以检测或修复的方式携带“性别方向”。试图对这些碎片去偏可能会增加噪声,而无法去除偏见。
发现 2: 位置取决于方法
没有一个“最佳”位置可以插入去偏模块。这完全取决于你使用的数学方法。

表 3 强调了一个关键的分歧:
- Hard-Debiasing 在最开始( 编码器输入 )效果最好。这种方法是非线性的。
- INLP 和 LEACE 在最后( 解码器输出 )效果最好。这些方法是线性的。
这在架构上是有道理的。INLP 和 LEACE 旨在消除线性依赖关系。Transformer 架构是高度非线性的。如果你在开始时应用线性“修复”,后续层可能会重新引入或扰乱该信息。通过将其应用于解码器输出 (就在最终预测之前) ,这些线性方法可以有效地“把守”输出。相反,Hard-Debiasing 通过 PCA 去除子空间,这似乎为编码器最初处理输入提供了更好的基础。
发现 3: 准确率与质量的权衡
让模型更公平会不会让它成为更差的翻译器?研究人员绘制了性别准确率的提高与 BLEU 分数 (翻译质量) 变化的关系图。

图 2 揭示了这种权衡:
- INLP (中间的图) 显示 BLEU 分数显着下降 (蓝色条深深地变为负值) 。它消除了偏见,但以牺牲整体翻译质量为代价。
- LEACE (右图) 和 Hard-Debiasing (左图) 则“安全”得多。它们提高了性别准确率 (橙色条) ,同时保持 BLEU 分数接近基线。
这表明 LEACE 和 Hard-Debiasing 更加精确——它们像手术一样去除了性别信息,而没有删除翻译所需的其他语义信息。
发现 4: 语言形态学是一个障碍
回顾表 2 , 我们看到去偏在德语 (DE) 和希伯来语 (HE) 中取得了成功,但在俄语 (RU) 中几乎没有效果。
为什么?作者将其归因于俄语丰富的形态学。俄语单词的形式 (屈折变化) 很大程度上取决于其语法格。这显着增加了词汇量的大小,意味着在分词器中作为“单个 Token”出现的职业词更少。由于研究人员发现去偏对单个 Token 最有效 (发现 1) ,因此使用这些方法对经常拆分单词的语言进行去偏更加困难。
结论与启示
这篇论文为 AI 公平性领域敲响了警钟。它证明了我们不能简单地将内在去偏方法“即插即用”到复杂系统中并期望它们能奏效。
对于学生和从业者来说,关键的收获是:
- 不要忽视分词器: 去偏对完整单词效果最好。如果你的模型将单词切成碎片,标准的去偏方法可能会失败。
- 方法要与架构匹配: 线性去偏方法 (如 LEACE) 属于网络末端;几何投影方法 (如 Hard-Debiasing) 通常在开始时效果更好。
- 一种尺寸无法适合所有语言: 一种在德语中修正偏见的方法可能会因为形态差异而在俄语中失效。
归根结底,内在去偏是一个很有前途的工具,但它需要仔细的调整和系统感知的整合,才能在现实世界中成功减轻偏见。未来的工作必须超越嵌入层,考虑从分词器到最终输出层的整个管道。
](https://deep-paper.org/en/paper/2406.00787/images/cover.png)