性别包容性语言会困扰 AI 吗？探索 Lou 数据集

语言是一个鲜活的、会呼吸的实体。它随着每一代人的更迭而变化，以反映使用者的价值观和身份认同。近年来，最重要的语言演变之一——尤其是在像德语这样具有语法性别的语言中——就是性别公平语言 (Gender-Fair Language, GFL) 的兴起。

在德语中，传统的“阳性泛指” (使用阳性复数形式指代混合群体) 正日益被明确包含女性和非二元性别个体的形式所取代。你可能会看到 Studenten (学生，阳性) 变成了 Studentinnen und Studenten (女学生和男学生) 或 Student*innen (使用“性别星号”来包含所有人) 。

虽然这种转变促进了社会包容性，但它提出了一个引人入胜的技术问题: 我们当前的 AI 模型如何处理这种变化?

大多数大型语言模型 (LMs) 是基于过去十年甚至更久以前从互联网上抓取的海量数据集训练的。这些数据集由较旧的、传统的语言模式主导。因此，当现代德语使用者使用性别包容性形式时，AI 会出错吗？它会误解情感吗？它会仅仅因为一个中性句子使用了新的语法结构就将其标记为有毒内容吗？

为了回答这些问题，来自达姆施塔特工业大学 (TU Darmstadt) 及合作机构的研究人员创建了 Lou , 这是一个开创性的数据集，旨在针对性别公平语言对德语文本分类模型进行压力测试。

德语性别的挑战

要理解这个问题，我们首先需要看看德语中特有的语言障碍。与名词大多是性别中立的英语不同 (无论性别如何，“baker”都是面包师) ，德语具有强烈的性别属性。

Der Bäcker (男面包师)
Die Bäckerin (女面包师)

很长一段时间以来，复数形式 die Bäcker 被用来指代所有面包师。性别公平语言试图打破这种默认规则。研究人员确定了目前正在使用的六种不同策略，范围从明确的二元包容到完全的中性化。

图 1: Lou 数据集中的一个德语立场检测实例。我们将阳性表述 Konsumenten (消费者) 根据六种包容性或中性策略进行了重写，以黄色高亮显示。翻译: 消费者必须得到良好的支持。

如图 1 所示，像“消费者必须得到良好的支持”这样一个简单的句子可以用截然不同的方式重写:

Doppelnennung (双重称呼/二元包容) : 明确点名两者 (Konsumentinnen und Konsumenten) 。
GenderStern / Gap / Doppelpunkt (性别星号/下划线/冒号) : 在单词内部使用 *、_ 或 : 等字符 (Konsument*innen) 。这旨在视觉上代表性别认同的谱系。
Neutralization (中性化) : 使用分词或抽象名词 (konsumierende Zielgruppe - “消费目标群体”) 。
De-e (新系统) : 一个提议的系统，引入全新的代词和后缀来自然地去除性别标记 (Konsumenterne) 。

研究人员想知道: 如果我们取一个被标记为“负面情感”或“有毒”的句子，并使用这些策略重写它，AI 还能识别出这个标签吗？

构建 Lou: 人类 vs. 机器

有人可能认为创建一个这样的数据集很容易——只要让 ChatGPT 重写句子不就行了吗？作者发现事情并没有那么简单。

他们的目标是创建高质量的平行数据。他们选取了现有的德语数据集，涵盖的任务包括 立场检测 (Stance Detection) (作者是支持还是反对某个话题？) 、毒性检测 (Toxicity Detection) 和 仇恨言论检测 (Hate Speech Detection) 。然后，他们着手重写其中包含性别术语的具体实例。

“业余者”问题

研究人员进行了一项研究，对比了“业余”标注者 (具有中等 GFL 使用经验的母语人士) 与专业语言学家。结果发人深省。业余者在保持语言规则一致性方面表现得非常吃力。

按数据集和策略划分的重写错误图 9: 分析业余标注者错误时的分类频率详细概览，按数据集 (行) 和策略 (行) 划分。

如图 9 所示，业余者的错误率很高，尤其是在处理像 GenderStern (星号) 这样复杂的策略时。这些错误不仅仅是拼写错误；它们包括:

数 (Numerus) 错误: 搞混单数与复数的一致性。
代词错误: 忘记调整代词 (例如，将“他的”改为中性形式) 。
过度复杂化: 在试图中性化时创造出晦涩难懂的句子。

这一发现对该领域至关重要: 众包性别公平数据是不可靠的。 为了构建 Lou，研究人员不得不依赖一个包含专业校对的多阶段流程，以确保数据在语言学上是合理的。最终成果就是 Lou 数据集 : 包含涵盖七个分类任务的 3,600 个重写实例。

表 1: Lou 中七个德语分类任务的示例及其翻译。性别公平重写策略 (下标) 以黄色高亮显示，阳性表述为橙色。

实验: 对模型进行压力测试

手握数据集，研究人员评估了 16 种不同的语言模型。其中包括:

德语专用模型: 如 GBERT 和 GELECTRA，专门在德语文本上训练。
多语言巨头: 如 XLM-R 和 mBERT。
英语模型: 如 RoBERTa (用作基准，观察模型是否仅关注表面 Token) 。
指令微调的大型语言模型 (LLMs) : 如 Llama-3 和 GPT-4 等现代生成式模型。

他们通过两种方式测试模型: 微调 (Fine-Tuning) (在任务上训练模型) 和 上下文学习 (In-Context Learning) (通过提示词要求模型在不训练的情况下完成任务) 。

关键发现: GFL 会让模型崩溃吗？

结果揭示了一个复杂的图景。情况并不像“GFL 会让性能变差”那么简单。事实上，这种影响因使用的策略和任务的难度而异。

1. 性能悖论

令人惊讶的是，使用性别公平语言并不总是会损害性能。在某些情况下，它实际上提高了 F1 Macro 分数 (精确率和召回率的衡量标准) 。

$图 3: 原始实例与重写实例在策略、模型类型和任务上的平均 \$F _ { 1 }\$ macro 差异 (左) 。气泡大小和颜色表示差异，蓝色为正 (提升) ，红色为负 (下降) 。右侧堆叠显示了每个 LM 和种子或提示模板在不同模型类型和策略下的平均差异。$

观察图 3 , 蓝色气泡代表性能提升，而红色气泡代表性能下降。

“星号”效应: 像 GenderStern (使用 *) 这样的策略通常会带来轻微的提升 (蓝色气泡) 。
中立的代价: 需要大量重写的策略，如 Neutral (中性化) 或 De-e 系统，往往会损害性能 (红色气泡) 。

为什么？研究人员推测，包容性策略 (如星号) 通常保留了单词的词根。模型可以在“Student*innen”中识别出“Student”这个词。然而，中性策略通常完全替换单词 (例如，将“医生”改为“医疗专业人员”) ，这改变了语义上下文，足以让模型感到困惑。

2. “标签翻转”现象

虽然平均分数看起来可能很稳定，但查看单个预测却揭示了一个更可怕的故事。研究人员测量了 标签翻转 (Label Flips) ——即模型仅仅因为性别表述改变而改变其答案的频率。

想象一下 AI 正在审查一条评论是否存在毒性。

原文: “那些医生很无能。” -> 模型判定: 有毒。
重写后: “那些医生*innen 很无能。” -> 模型判定: 无毒。

这就是一次“翻转”，而且发生得惊人地频繁。

图 4: 按策略、模型类型和任务划分的标签翻转比例。大小表示性别公平语言下的标签翻转比例，颜色表示对综合性能的正向 (蓝) 或负向 (红) 影响。

图 4 强调，在某些任务中，高达 10.9% 的预测发生了翻转 。这意义重大。这意味着内容审核系统可能会仅仅因为作者使用了性别包容性的词尾，就让仇恨言论漏网，或者标记无辜的评论。

至关重要的是, Detox 任务 (检测毒性和仇恨言论) 是最不稳定的。这些任务对模型来说本来就很难，而 GFL 增加的复杂性似乎成了压垮骆驼的稻草。

3. 为什么模型会翻转？ (不确定性和注意力)

为了理解这些翻转发生的原因，研究人员深入探究了模型的“内部机制”。他们发现 GFL 改变了模型关注单词的方式，并降低了它的置信度。

当模型遇到重写后的句子时，会发生两件事:

确定性下降: 模型对自己的预测不太确定了。
注意力激增: 模型的“注意力机制” (它如何关注不同的单词) 变得不稳定。它会更用力地盯着那些不熟悉的 Token (如 *innen) ，从而失去了对更广泛上下文的把握。

$图 7: 实例属性与标签翻转比例的分布具有统计学显著性 \$( p < 0 . 0 5 )\$ 。$

图 7 将这种关系可视化。 预测确定性 (Prediction Certainty) 图表 (右上) 显示，确定性较低的实例发生翻转的可能性要大得多 (右侧较高的条形) 。本质上，如果模型在某个决定上已经处于临界状态，那么性别公平语法的引入就是“压死骆驼的最后一根稻草”，导致它恐慌并切换标签。

4. 句法障碍

研究人员还分析了“嵌入 (embeddings) ”——即模型内部单词的数学表示。他们发现 GFL 的影响在模型的 底层 (lower layers) 最为明显。

在深度学习中，底层通常处理句法和语法，而高层处理意义和语义。GFL 扰乱底层的事实表明，模型主要将其视为一种 句法违规 。它们被卡在 * 或 : 的语法上，而不是理解其背后的包容性含义。

$图 10: 使用 t-SNE 对 GBERT-base 的所有六种策略和 13 个层 (x 轴，包括嵌入层 0) 的重写嵌入 \$r\$ 与原始嵌入的向量差进行的 1D 投影。$

图 10 可视化了不同策略在模型各层中的可区分程度。在早期层 (x 轴左侧) ，线条是分散的——模型将“Studenten”和“Student*innen”视为非常不同的数学对象。随着数据移动到更高层 (右侧) ，线条趋于收敛。模型最终弄清楚了它们的意思大致相同，但最初的句法困惑在最终预测上留下了痕迹。

启示: 评估标准失效了吗？

有了所有这些翻转和波动，你可能会想，我们目前的德语 AI 基准测试是否无效。如果模型 A 在标准德语上击败了模型 B，它在性别公平德语上还能获胜吗？

好消息是是的。研究人员发现模型的排名保持一致。一个足够聪明、能很好地处理标准德语的模型，通常也比较弱的模型能更稳健地处理 GFL。我们不需要抛弃所有以前的排行榜，但我们需要意识到 GFL 引入的“噪音”。

结论

Lou 数据集 提供了第一个系统的视角，以此观察向性别包容性语言的转变如何影响德语 AI。结论既有警告也有乐观:

语言的发展速度快于 AI: 基于历史数据训练的模型在应对性别公平形式的句法新颖性时表现挣扎。
“蝴蝶效应”是真实的: 一个微小的变化，比如在单词中加入冒号，就能翻转毒性预测。这对于现实世界的部署来说是一个安全隐患。
专业化很重要: 德语专用模型在处理这些细微差别时通常比广泛的多语言模型表现更好，但即使是它们也不能免疫。

随着社会继续采用更具包容性的语言，我们的 NLP 流水线必须适应。我们不能将性别公平语言视为“噪音”或“错误”。它是新的规范。像 Lou 这样的数据集是教导我们的机器不仅理解过去的语法，而且理解现在的价值观的第一步。

德语性别的挑战#

构建 Lou: 人类 vs. 机器#

“业余者”问题#

实验: 对模型进行压力测试#

关键发现: GFL 会让模型崩溃吗？#

1. 性能悖论#

2. “标签翻转”现象#

3. 为什么模型会翻转？ (不确定性和注意力)#

4. 句法障碍#

启示: 评估标准失效了吗？#

结论#