引言

“名字意味着什么?”这个问题几个世纪以来一直在文学作品中回响。在人类互动的语境中,名字往往承载着关于性别、种族和族裔的信号——人类有时会潜意识地使用这些信号来对名字背后的人做出假设。随着大型语言模型 (LLM) 日益融入社会计算任务,一个关键问题随之产生: 这些模型在解读这些信号时,是否会反映出我们社会的偏见?

在马里兰大学一项题为 “On the Influence of Gender and Race in Romantic Relationship Prediction from Large Language Models” (论大型语言模型浪漫关系预测中性别与种族的影响) 的有趣研究中,研究人员探索了这一问题。他们调查了流行的 LLM (如 Llama2 和 Mistral) 在分析对话时,是否表现出异性恋规范偏见或对跨种族关系的偏见。

核心问题简单而深刻: 如果你给 LLM 一个电影剧本,其中两个角色正在调情,模型会将其识别为“浪漫关系”吗?还是说,这种预测完全取决于角色的名字是叫“罗密欧与朱丽叶 (Romeo and Juliet) ”还是“罗密欧与胡里奥 (Romeo and Julio) ”?

图 1: 来自 DDRel (Jia et al., 2021) 数据集的对话样本,以及当角色名字被替换为异性或同性名字时 Llama2-7B 预测的关系。尽管对话内容相同,LLM 倾向于做出不同的预测。

图 1 所示,研究人员发现,仅仅替换对话中的名字——而在其他单词完全保持不变的情况下——就能彻底改变模型对关系的看法。一段原本被解读为一男一女之间“爱人 (Lovers) ”关系的对话,在替换为两个女性名字后,可能被重新分类为“兄弟姐妹 (Siblings) ”。但这篇博客文章将剖析他们的方法论、关于亚裔名字的惊人发现,以及这些偏见背后的机制。

背景: 关系预测任务

要理解偏见,我们首先需要理解这项任务。关系预测是自然语言理解 (NLU) 的一个子领域,模型通过分析对话来确定说话者之间的关系。他们是朋友?同事?还是配偶?

研究人员使用了 DDRel 数据集 , 该数据集包含标注了 13 种关系类型的电影剧本。本研究的关注点是二元的: 浪漫关系 (爱人、配偶、求爱) 与 非浪漫关系 (兄弟姐妹、朋友、同事等) 。

假设是 LLM 存在两种特定类型的社会偏见:

  1. 异性恋规范 (Heteronormativity) : 假设浪漫关系仅仅是或默认为异性恋配对。
  2. 跨种族偏见 (Interracial Prejudice) : 对不同种族或族裔背景个体之间的浪漫关系持有偏见。

核心方法: 受控名字替换

这项研究的精妙之处在于其实验设计。为了分离名字的影响,作者采用了一种受控名字替换策略

其工作原理如下:

  1. 筛选: 他们从数据集中选择了 327 个测试实例,这些实例的真实关系已知为“浪漫”,且原始角色的性别不同 (例如,一男一女) 。
  2. 去敏: 他们手动过滤了这些对话,以确保文本中不保留显性的性别线索 (如“先生”、“女士”或“父亲”) 。这确保模型依赖于名字语音内容,而不是显性的标签。
  3. 替换: 他们系统地将原始名字替换为与特定人口群体相关的新名字。

变量

研究人员整理了与四个种族/族裔群体密切相关的名字列表: 亚裔 (Asian) 、非裔 (Black) 、拉美裔 (Hispanic) 和白人 (White)

至关重要的是,他们还使用美国社会保障数据按性别关联度对这些名字进行了分类。他们不只是挑选“男性”和“女性”名字;而是根据出生时被指定为女性的人口比例对名字进行分箱。这使他们能够测试:

  • 强男性名字 (0-2% 女性)
  • 中性名字 (约 50% 女性)
  • 强女性名字 (98-100% 女性)

通过将完全相同的浪漫对话输入 LLM,但交换名字 (例如,将“John 和 Mary”改为“John 和 David”或“Min-jun 和 Wei”) ,他们可以测量模型“召回 (recall) ”该关系为浪漫关系的频率。如果模型是公平的,无论使用什么名字,召回率应该大致相同。

实验与结果

结果提供了强有力的证据,表明 LLM 并非人类关系的公正观察者。

1. 性别配对的影响

第一个主要发现涉及异性恋规范。研究人员测试了 Llama2-7B 在预测同性与异性配对中的浪漫关系时的表现。

图 2: Llama2-7B 对原始角色性别不同的数据集子集预测浪漫关系的召回率。横轴和纵轴表示替换对话中原始女性和男性角色名字的女性百分比 (% female) 。上三角 (下三角) 显示了在替换名字时保留 (交换) 原始对话中角色性别的情况下的得分。

如何解读图 2: 这个热图可视化了“召回率 (Recall) ”——本质上是模型正确识别对话为浪漫关系的频率。

  • 坐标轴: 两个轴都代表所用名字的性别概率 (从 0% 女性/男性 到 100% 女性) 。
  • 象限:
  • 右上角和左下角 (对比性别) : 这些区域代表异性配对 (例如,男-女) 。颜色较浅 (黄色/浅绿色) ,表示较高的召回率
  • 左上角和右下角 (同性) : 这些区域代表男-男和女-女配对。颜色为深绿色,表示较低的召回率

结论: 如果角色的名字与相同性别相关联,模型预测浪漫关系的可能性会显著降低。例如,看“White (白人) ”的热图,注意右上角 (男-女配对) 明亮的黄色斑点与左上角 (男-男配对) 的深绿色斑点。这证实了模型反映了社会中存在的异性恋规范偏见的假设。

有趣的是,针对男-男情侣的偏见似乎比女-女情侣更强。研究人员认为,这可能是因为小说中的女性名字通常更多地与浪漫故事情节相关联,或者可能源于社会对男性间亲密关系更强的偏见。

2. 种族的影响与“亚裔名字”异常

第二组实验考察了种族配对。研究人员想看看模型是否歧视跨种族情侣。

图 3: Llama2-7B 对原始角色性别不同的数据集子集预测浪漫关系的召回率,名字被替换为与不同种族/族裔相关的名字。

图 3 显示了不同种族配对的召回率。行代表女性角色的种族,列代表男性角色的种族。

发现:

  1. 跨种族 vs. 同种族: 令人惊讶的是,与非亚裔血统的同种族情侣相比,模型在跨种族情侣上的表现并没有出现巨大的下降。 (例如,白人-非裔配对的表现与白人-白人配对相似) 。
  2. 亚裔异常值: 图 3 中最引人注目的模式是第一行和第一列。无论何时在配对中引入一个亚裔名字——无论伴侣是亚裔、非裔、拉美裔还是白人——召回率都会显著下降 (由深绿色单元格表示) 。

两个角色都有亚裔名字时,召回率最低 (0.68) 。为什么模型在浪漫预测的背景下特别难以处理亚裔名字?

为什么会这样?嵌入分析

为了了解亚裔名字表现不佳的根本原因,作者深入研究了模型的内部表示,即嵌入 (embeddings)

嵌入是 LLM 将单词表示为数字向量的方式。如果 LLM 理解与名字相关的“性别”概念,该信息应该被编码在名字的向量中。

研究人员在这些嵌入上训练了一个简单的分类器 (逻辑回归) ,以查看是否可以仅从 Llama2-7B 内部的向量表示中预测名字的性别。

表 1: 根据 Llama2-7B 上下文嵌入预测与名字相关的人口统计属性的逻辑回归分类准确率 (%)。

表 1 提供了论文的“顿悟”时刻:

  • 非亚裔名字: 模型以高准确率 (80% - 99%) 从非裔、拉美裔和白人名字中提取性别。
  • 亚裔名字: 从亚裔名字嵌入中预测性别的准确率仅为 53.3% 。 由于二元分类的随机概率是 50%,这意味着模型实际上无法分辨亚裔名字的性别。

结论: 亚裔配对召回率低的原因可能不是因为对亚裔浪漫关系本身有特定的偏见,而是一种技术故障。由于模型难以识别亚裔名字的性别,它无法应用其“异性恋规范脚本”。它不知道这对伴侣是男-女、男-男还是女-女,因此它自信地预测“浪漫” (它强烈将其与男-女配对联系在一起) 的能力就崩溃了。

合理性检查: 名字真的重要吗?

怀疑论者可能会问: “也许模型只是依赖对话上下文而完全忽略了名字?”

为了反驳这一点,研究人员运行了一个基准实验,用匿名占位符如“X”和“Y”替换名字。

表 2: 研究中不同模型在匿名名字替换 (角色替换为“X”或“Y”) 下的评估分数。这些结果描绘了模型仅基于上下文的表现。

表 2 所示,当名字被剥离 (替换为 X/Y) 时,Llama2-7B 的召回率大约为 0.6887

将其与名字替换结果进行比较:

  • 当名字显示为异性恋伴侣时 (例如,白人男性 + 白人女性) ,召回率跃升 (通常 > 0.80) 。
  • 当名字显示为同性伴侣时,召回率下降。

这种偏离“匿名”基准的现象证明,模型确实利用了嵌入在名字中的人口统计信息来做出最终决定。

结论与社会影响

这篇论文揭示了大型语言模型中一个微妙但重要的问题。虽然我们经常担心模型生成仇恨言论,但这项研究强调了代表性伤害——即对特定身份的抹除。

如果使用 LLM 来分析社会数据、撰写故事或定向投放广告,这些偏见可能会产生现实世界的后果:

  • 不可见性: 同性关系可能被错误归类为柏拉图式关系,导致在自动化系统中可见度较低。
  • 资源分配: 如果算法根据社交媒体互动将住房贷款或家庭保险的目标锁定为“夫妇”,那么同性伴侣或拥有亚裔名字的伴侣可能会被系统性地排除在外,因为模型将他们的互动解读为“像兄弟姐妹”或“友好”,而不是浪漫关系。

作者最后强调了包容性技术的必要性。随着模型成为信息和机会的守门人,确保它们能够识别和尊重多样化的关系动态——无论名字是“John 和 Jane”还是“Seung 和 Min-jun”——不仅是一项技术挑战,也是一种道德当务之急。