近年来,大语言模型 (LLM) 的能力呈爆炸式增长。这些模型可以编写代码、创作诗歌并总结复杂文档。然而,由于它们是在海量的互联网数据上训练的,它们也吸收了数据中存在的偏见、刻板印象和歧视态度。这种被称为社会偏见的现象不仅是一个理论问题;它体现在下游任务中,可能导致自动化系统根据性别、宗教、残疾或国籍不公平地对待个体。
对于 NLP 领域的学生和研究人员来说,衡量这种偏见是一个关键挑战。历史上,我们依赖于将偏见视为二元问题 (在刻板印象和反刻板印象之间做选择) 的基准测试。但偏见真的那么简单吗?
在这篇文章中,我们将深入探讨一篇名为 “Social Bias Probing: Fairness Benchmarking for Language Models” (社会偏见探测: 语言模型的公平性基准测试) 的论文。研究人员提出了一个新的框架和一个名为 SOFA (SOcial FAirness,社会公平) 的大规模数据集。他们的方法超越了简单的二元选择,通过分析“差异化对待” (disparate treatment) ——即模型如何在广泛的身份范围内改变其行为——来衡量偏见。
当前基准测试的问题
在了解解决方案之前,我们必须了解当前标准的局限性。像 CrowS-Pairs 和 StereoSet 这样的流行基准测试具有开创性,但它们基于一个特定的前提: 测试模型是否更倾向于刻板印象句子而非反刻板印象句子。
例如,一个基准测试可能会向模型展示两个句子:
- “医生给自己 (男性) 买了个贝果。” (刻板印象: 医生是男性)
- “医生给自己 (女性) 买了个贝果。” (反刻板印象: 医生是女性)
如果模型赋予第一个句子更高的概率,它就会受到惩罚。虽然有用,但这种方法有缺陷:
- 二元限制: 它假设存在单一的“基本事实”,并且通常只比较两个群体 (例如,男性与女性) ,忽略了非二元身份或复杂的文化群体。
- 阈值设定: 这些基准测试通常使用 50% 的阈值。如果模型有 51% 的时间选择了刻板印象,它就是“有偏见的”;否则,它就是“公平的”。这造成了一种错误的二分法,掩盖了偏见的严重程度或微妙之处。
该论文的作者认为,社会偏见过于复杂,无法通过二元测试来衡量。我们需要衡量差异化对待 : 即当人口统计群体发生变化时,模型预测文本的变化程度,这涵盖了更广泛的身份范围。
解决方案: 社会偏见探测框架
研究人员引入了社会偏见探测框架 (Social Bias Probing Framework) 。 其核心思想是让 LLM 接受一组标准化的“探测 (probes) ”,并测量模型对与有害刻板印象相关的不同身份感到多么“惊讶”。
如下图所示,该过程涉及两个主要阶段: 探测生成和探测评估 。

1. 探测生成与 SOFA 数据集
为了支持这一框架,作者策划了 SOFA , 这是一个大规模基准,旨在解决以前尝试中数据稀缺的问题。
他们从社会偏见推断语料库 (SBIC) 开始,该语料库包含有偏见的社交媒体帖子。他们从这些句子中剥离了特定的主语,创建了一个“刻板印象模板”列表 (例如,“……都是恐怖分子”) 。
接下来,他们选取了一个涵盖四个类别的身份词典:
- 宗教 (例如,天主教徒、佛教徒、无神论者)
- 性别 (例如,男人、女人、跨性别男性)
- 残疾 (例如,截肢者、认知障碍人士)
- 国籍 (例如,美国人、尼日利亚人、中国人)
通过计算这些身份和刻板印象的笛卡尔积,他们生成了超过 149 万个探测语句 。 这种规模使得统计分析比以前的数据集 (通常只包含几千个示例) 更加稳健。

如上表所示,SOFA 在身份数量和探测总数方面都让现有的基准测试 (如 StereoSet 和 CrowS-Pairs) 相形见绌,从而提供了更高分辨率的模型行为图景。
核心方法: 用困惑度衡量偏见
我们如何利用这些探测语句从数学上衡量模型是否存在偏见?作者依赖于困惑度 (Perplexity, PPL) 。
简单来说,困惑度衡量的是概率模型预测样本的好坏程度。低困惑度表示模型对单词序列并不感到惊讶 (它认为该序列是“可能的”) ,而高困惑度表示模型认为该序列不太可能出现。
标记化序列 \(X\) 的困惑度公式为:

如果模型存在社会偏见,对于符合其习得刻板印象的句子,它将具有较低的困惑度 (较高的可能性) 。例如,如果一个模型编码了伊斯兰恐惧症偏见,那么相比“佛教徒是恐怖分子”,“穆斯林是恐怖分子”这一句子的困惑度会更低。
归一化
然而,我们不能简单地比较原始困惑度分数。有些词本身就比其他词更罕见。例如,“佛教徒”一词在训练数据中出现的频率可能低于“男人”,这本质上会影响困惑度。
为了解决这个问题,作者计算了归一化困惑度 (\(PPL^*\)) 。 他们将完整句子 (身份 + 刻板印象) 的困惑度除以身份本身的困惑度。

这分离了模型在特定群体和刻板印象之间的关联,消除了由群体名称本身频率引起的“噪音”。
指标: 方差即不公平
该论文的核心论点基于不变性 (invariance) 。 在一个完全公平的模型中,无论 X 是谁,陈述“X 都是恐怖分子”的不可能性应该是一样的。
因此,为了衡量偏见,研究人员计算了一个类别中所有身份的归一化困惑度分数的方差 。

如果方差很高,这意味着模型对待不同群体的方式差异很大 (高度差异化对待) 。如果方差很低 (接近于零) ,则意味着模型在该刻板印象方面对待所有群体大致相同。
Delta 差异分数 (DDS)
除了方差之外,他们还引入了 Delta 差异分数 (DDS) 。 这个简单的指标关注特定刻板印象的最坏情况: 即一个类别中最大和最小困惑度分数之间的差值。

高 DDS 表明,对于特定的刻板陈述,最受青睐和最不受青睐的群体之间存在巨大差距。
实验与主要结果
作者测试了五个主要的语言模型系列: BLOOM, GPT-2, XLNet, BART 和 LLaMA-2 。 他们分析了每个模型的两种不同尺寸,以观察模型大小是否影响偏见。
1. 模型排名
当作者根据 SOFA 分数 (平均方差) 对模型进行排名时,他们发现结果与之前的基准测试存在显著分歧。

注意“Rank” (排名) 列。像 LLAMA2 这样的模型,在 CrowS-Pairs 上排名很高 (即较公平,排名 1 和 2) ,但在 SOFA 上排名要低得多 (排名 5 和 6) 。
这表明 SOFA 捕捉到了二元关联测试所遗漏的偏见维度。StereoSet 和 CrowS-Pairs 之间的高度一致性 (Kendall’s Tau 系数为 0.911) 与它们和 SOFA 之间的不一致形成了鲜明对比,这表明直到现在我们只看到了问题的一个侧面。
2. 哪些类别偏见最重?
最令人惊讶的发现之一来自按社会类别细分的偏见。在 NLP 社区中,人们投入了大量精力来减轻性别和种族偏见。但是宗教呢?

如表 2 所示,在几乎所有模型中, 宗教始终产生最高的 SOFA 分数 (最高的方差) 。例如,BLOOM-560m 在宗教方面的方差为 3.216 , 而在国籍方面仅为 1.292 。
这表明当前的安全训练中存在“盲点”。虽然模型已经过微调以避免性别和种族歧视,但宗教偏见仍然被深度编码。
我们可以通过下面的堆叠条形图将这种综合评分可视化。“宗教”列中代表特定模型的大色块凸显了与其相比,“国籍”列中的变异性是多么小。

3. 识别目标和有害刻板印象
该框架还允许我们对谁成为了目标进行细粒度观察。通过查看哪些身份产生的困惑度最低 (即模型认为刻板印象最适合他们) ,研究人员发现了令人担忧的模式。

在左上角的图表 (宗教) 中,像穆斯林和犹太人这样的特定群体经常是与负面刻板印象关联最强的身份。在性别类别 (左下角) 中, 跨性别男性/女性经常触发与刻板印象的高度关联。
研究人员还查看了哪些特定的刻板印象产生了最低的 DDS (意味着模型一致地在所有群体中应用这些刻板印象,或者说这些偏见最被模型权重所“认同”) 。

这里的内容虽然严酷但发人深省。对于性别,模型反映了关于性暴力的现实问题。对于残疾,模型编码了关于外表和能力的评判。这证实了 LLM 就像一面镜子,反映了训练数据中边缘化群体在现实生活中面临的逆境和偏见。
结论与启示
“社会偏见探测”这篇论文从根本上挑战了我们对公平性进行基准测试的方式。通过从二元的“有偏/无偏”检查转变为基于方差的方法,作者揭示了我们的模型比我们想象的更具偏见,特别是在宗教方面。
关键要点:
- 复杂性: 偏见不是一个开关。它是跨越许多身份的概率的复杂分布。
- 宗教差距: 迫切需要解决 LLM 中的宗教偏见问题,该问题似乎落后于性别和种族公平性方面的工作。
- 现实世界的反映: 模型忠实地再现了社会中存在的特定类型的伤害 (例如,能力歧视、厌女症) ,这需要超越简单过滤的主动缓解策略。
SOFA 的引入为社区提供了一个强大的新工具 (包含 150 万个探测语句) 来诊断这些问题。随着我们继续在招聘、医疗保健和教育等敏感领域部署 LLM,使用像这样细粒度、高分辨率的基准测试对于确保人工智能公平地为每个人服务至关重要。
](https://deep-paper.org/en/paper/2311.09090/images/cover.png)