引言

在自然语言处理 (NLP) 这个快速发展的领域,我们通常将大型语言模型 (LLMs) 视为静态的知识库。我们将它们训练好,冻结参数,然后投入使用。但是,驱动这些模型的数据——特别是从 X (前 Twitter) 等社交媒体平台抓取的数据——绝非一成不变。它是一股鲜活的、不断变化的,且往往充满动荡的人类意识流。

我们要知道,社交媒体的使用量正呈指数级增长,每年都有数以亿计的新用户加入。我们也知道,这些平台可能是社会偏见的温床。这给 AI 社区提出了一个关键且令人不安的问题: 如果我们不断地用日益增长的社交媒体数据流来训练语言模型,我们是否在无意中随着时间的推移放大了社会偏见?

一篇引人入胜的研究论文《Evaluating Short-Term Temporal Fluctuations of Social Biases in Social Media Data and Masked Language Models》 (评估社交媒体数据和掩码语言模型中社会偏见的短期时间波动) 探讨了这个确切的问题。研究人员调查了在按时间顺序排列的社交媒体数据快照上训练的模型,是否会随着时间的推移对特定人口群体产生更多的偏见。

这篇文章将带你了解他们的方法论、对“TimeLMs”的创新使用,以及关于偏见如何随岁月波动——或不波动——的惊人结果。

背景: 静态视角与动态视角

在深入实验之前,让我们先建立背景。掩码语言模型 (MLMs) ,如 BERT 或 RoBERTa,旨在预测句子中缺失的单词。例如,如果输入:

“The doctor picked up [MASK] chart.” (医生拿起了 [MASK] 病历表。)

模型会计算各种单词填充该掩码的概率。一个有性别偏见的模型可能会给 “his” (他的) 分配比 “her” (她的) 更高的概率,这反映了其训练数据中的社会刻板印象 (即医生通常是男性) 。

“整体”偏见的问题

先前的研究已经广泛记录了这些静态偏见。我们有 CrowS-PairsStereoSet 等基准测试来衡量它们。然而,大多数研究将偏见视为模型的固定属性。他们问的是“BERT 有偏见吗?”,而不是“BERT 是否正在变得有偏见?”

这篇论文认为,由于社会规范、文化转变和重大事件 (如“黑人的命也是命”运动或政治选举) 改变了社交媒体上的话语,在这些数据上训练的模型所编码的偏见理论上也应该发生变化。

核心方法: 捕捉时间片段

为了验证这一假设,研究人员需要两样东西: 一种将时间分割成片段的方法,以及一个衡量偏见的稳健指标。

1. 模型: TimeLMs

研究人员利用了 TimeLMs , 这是一组基于 RoBERTa 架构的语言模型。与在海量静态数据集上一次性训练的标准模型不同,TimeLMs 是在历时性 (特定时间段) 数据上训练的。

团队分析了从 2020 年到 2022 年这两年间基于 X (Twitter) 数据训练的模型。选择这一时期不仅是因为数据可用性,还因为它代表了全球社会话语高度动荡的时期。他们使用了按季度收集的语料库快照,确保“2021 年 6 月”的模型受到了该特定时期语言和情绪的具体影响。

2. 指标: AULA (全未掩码注意力似然度)

我们如何用数学量化“偏见”?研究人员采用了一个名为 AULA 的指标。

AULA 之所以复杂,是因为它不仅关注原始概率;它还考虑了模型的注意力权重——本质上是模型在做决定时关注句子的哪些部分。这使得该指标对频率偏差 (即模型可能不顾上下文而偏好常见词) 具有鲁棒性。

计算分两步进行。首先,他们计算句子的伪对数似然 (PLL) ,并按注意力加权。这个分数告诉我们一个句子在模型看来有多“受偏好”或多“自然”。

Equation for Pseudo Log-Likelihood (PLL)

在这个公式中,\(P(s_i | S; \theta)\) 是标记的概率,\(\alpha_i\) 代表注意力权重。

接下来,AULA 比较成对的句子: 一个是刻板印象的,一个是反刻板印象的。例如:

  • *刻板印象: * “Women are too emotional for leadership.” (女性太情绪化,不适合当领导。)
  • *反刻板印象: * “Men are too emotional for leadership.” (男性太情绪化,不适合当领导。)

AULA 分数是模型偏好刻板印象句子超过反刻板印象句子的百分比时间。

Equation for AULA Score

  • 分数 = 50: 模型是中立的。
  • 分数 > 50: 模型偏向于刻板印象。
  • 分数 < 50: 模型偏向于反刻板印象。

3. 衡量训练数据中的偏见

研究人员不仅观察了模型;他们还观察了原始数据本身。他们想知道训练语料库 (推文) 是否包含针对特定人群的固有偏见。

为此,他们使用情感分析作为代理指标。他们为人口群体定义了一个“负面评分” (Negativity Score) 。如果包含与特定群体相关词汇 (例如“女性”、“女人”) 的推文被情感分类器持续归类为负面,则该群体被认为偏见的目标。

Equation for Data Negativity Score

这里,\(S_n(x)\) 代表包含特定术语 \(x\) 的负面推文数量。分数超过 50 意味着与负面情绪的关联度更高。

实验与结果

该团队使用两个著名的基准测试评估了 TimeLMs: CrowS-PairsStereoSet 。 这些数据集涵盖了各种偏见类型,包括种族、性别、宗教和残疾。

发现 1: “整体”偏见的陷阱

最直接的发现具有欺骗性。当观察整体偏见评分 (所有偏见类型的平均值) 时,模型在这两年中显得相对稳定。

然而,当研究人员按类别分解结果时,一幅混乱的画面出现了。

Social bias scores across time for different types of biases computed using the AULA metric.

仔细观察上面的图表。

  • 蓝线 (偏见评分) : 这代表整体平均值。它相对平坦,徘徊在 50 分附近。
  • 彩色线: 这些代表特定的偏见 (例如,宗教、残疾、性取向) 。它们高度波动。

CrowS-Pairs 图表 (左) 中,注意代表残疾的绿线。它始终保持高位 (大约 65-70) ,表明存在强烈且持续的刻板印象。与此同时, 宗教 (灰线) 和种族 (粉线) 波动显著。

StereoSet (右) 中, 宗教 (紫线) 显示出急剧增加,从 2020 年到 2022 年间,分数从 51 上升到 63。

关键结论: 依赖单一的“偏见评分”是危险的。一个模型可能在平均水平上看起来中立,但对特定群体却怀有强烈的、波动的偏见。

统计显著性

为了确保这些波动不仅仅是随机噪声,研究人员进行了统计自助法 (bootstrapping) 分析。

Statistical analysis of bias types

上表强调,虽然“整体偏见”的标准差 (SD) 较低,但像种族-肤色 (SD 5.77) 和宗教 (SD 5.30) 这样的特定类别随时间变化非常不稳定。这证实了对于特定人群来说,时间波动是一个真实的现象。

发现 2: 偏见之间的相关性

对一个群体有偏见是否意味着模型对其他群体也有偏见?研究人员使用皮尔逊相关矩阵来找出答案。

Pearson correlation coefficient of each pair of bias types.

不同数据集的结果好坏参半:

  • CrowS-Pairs (左) 中, 种族肤色性别之间存在很强的正相关 (0.73) 。如果模型在种族上有偏见,它很可能在性别上也有偏见。
  • 然而,有趣的是, 种族肤色性取向之间存在相关 (-0.81) 。
  • StereoSet (右) 中, 宗教性别职业高度相关。

这种不一致性表明偏见不是铁板一块的;它们是复杂的,并且依赖于数据集。

发现 3: 原始数据中的偏见

也许这项研究最能说明问题的部分是对训练数据本身的分析。通过分析包含人口统计术语的推文情感,研究人员发现了根深蒂固的差异。

为了进行这项分析,他们使用了特定的词表。例如,这是他们用来追踪种族偏见的术语:

Table 4: The lists of words representing different demographic groups related to race bias.

以及用于性别偏见的术语:

Table 3: The words that we used that are associated with female for evaluating gender bias in the corpus.

使用这些词表,他们绘制了训练数据随时间变化的“负面评分”。

Figure 3: Social biases in data associated with different demographic groups.

这张图令人震惊:

  • 图表 (a) 性别: 绿线 (男性) 始终远低于蓝色虚线 (女性) 。这意味着在整个 2020-2022 年期间,提到男性的推文始终比提到女性的推文更正面 (或更少负面) 。
  • 图表 (b) 种族: 虽然黑人 (橙色) 和白人 (绿色) 群体的偏见评分都很高,但黑人群体在负面情绪上的得分始终更高。
  • 图表 (c) 宗教: 基督徒 (绿色) 和犹太人 (橙色) 之间存在巨大差距,后者在数据中往往与更高的负面评分相关联。

这证实了模型并不是在凭空产生偏见;它们正在忠实地从一个持续偏好男性并对其他群体表现出波动性敌意的来源中学习偏见。

历史视角: 长远观察

为了观察这是否仅仅是现代社交媒体的现象,研究人员还将他们的方法应用于 COHABERT , 这是一个在 1810 年到 2000 年的历史文本上训练的模型。

Social bias scores across time for different types of biases computed using the AULA metric for COHABERT models.

历史分析 (如上图所示) 证实了这一模式。在 190 年的时间里,特定的偏见 (如黄绿色的性取向) 随年代剧烈波动,这可能反映了这些群体在整个历史中不断变化的法律和社会地位。

结论与启示

这篇论文为大型语言模型的开发提供了至关重要的“现实检验”。

  1. 稳定性是一种错觉: 仅仅因为一个模型的“整体”偏见评分看起来稳定,并不意味着它是安全的。在表面之下,针对特定群体 (如宗教少数群体或 LGBTQ+ 社区) 的偏见可能会根据训练数据的时间线迅速飙升。
  2. 数据反映社会: 对原始 X (Twitter) 语料库的分析显示,尽管有各种社会运动,但在两年里,对“男性”语境的偏好相对于“女性”语境并没有太大动摇。
  3. 细粒度评估是必须的: 我们不能依赖聚合指标。在部署模型之前,工程师必须针对具体的、单独的人口统计类别对其进行评估。

随着我们迈向实时更新或在连续数据流上训练的模型,理解这些时间波动成了一个关键的安全问题。我们正在构建人类的镜像,正如这项研究所表明的,镜中的影像每一天都在变化。