引言

语言很少是中立的。当我们谈论或书写不同的社会群体时——无论是按国籍、种族还是性别定义——我们往往依赖于微妙的联想来构建对这些群体的认知。这些联想就是我们所说的社会刻板印象。

多年来,自然语言处理 (NLP) 研究人员一直试图量化这些偏见。早期的尝试虽然具有开创性,但略显生硬,通常依赖静态词嵌入来展示诸如“男人”之于“计算机程序员”相当于“女人”之于“家庭主妇”这样的关系。虽然这对于识别广泛的社会偏见很有用,但这些方法缺乏细微差别。像“加拿大人”或“中国人”这样的社会群体并不是在每种语境下都被以完全相同的方式刻板化。政治讨论中应用的刻板印象与体育或经济讨论中的截然不同。

此外,传统方法还存在“身份”问题。如果你试图分析像“俄罗斯”这样的词周围的语境,“俄罗斯”这个词本身的语义意义如此强烈,往往会掩盖周围句子中微妙的框架效应。

在这篇深度文章中,我们将探讨研究论文 “ADAPTIVE AXES: A Pipeline for In-domain Social Stereotype Analysis” (自适应轴: 一种用于域内社会刻板印象分析的管道) 。 该论文提出了一种先进的新管道,结合了最先进的文本嵌入模型与大语言模型 (LLM) ,以捕捉这些难以捉摸的、特定领域的刻板印象。通过掩盖目标身份并专注于上下文,研究人员找到了一种方法,不仅能衡量我们对社会群体说了什么,还能衡量句子的结构本身是如何构建这些群体的。

背景: 偏见检测的演变

要理解为什么“Adaptive Axes” (自适应轴) 是向前迈出的重要一步,我们需要先看看研究人员传统上是如何衡量偏见的。

词嵌入时代

最常见的方法是在词嵌入空间 (如 Word2Vec 或 GloVe) 中使用 语义轴 (Semantic Axes) 。 想象一个 3D 空间,每个词都是一个点。含义相似的词彼此靠近。

为了发现偏见,研究人员通过选取两个对立的极点来定义“语义轴”,例如 vs. 和平 vs. 暴力。然后,他们将社会群体的向量 (例如“X国”的点) 投影到这条线上。如果该点落在更靠近“暴力”的一侧,模型就捕捉到了刻板印象。

问题: 语境与身份

虽然这种方法很优雅,但它有两个主要缺陷:

  1. 静态表示: 它假设群体的刻板印象是恒定的。它没有考虑领域。一个群体可能在艺术领域被正面评价,但在政治领域被负面评价。
  2. 身份陷阱: 当使用现代上下文模型 (如 BERT) 时,像“法国人”这样的 Token 的嵌入在很大程度上受到“法国人”这个词本身的影响。研究人员指出,单词的身份主导了其上下文表示。这使得很难看清周围的文本实际上是如何进行框架构建的。

“Adaptive Axes”管道通过将焦点从单词转移到 掩码上下文 (masked context) , 并利用 LLM 创建更清晰、更具体的语义轴,从而解决了这些问题。

核心方法: ADAPTIVE AXES

该论文提出的管道是一个多步骤过程,旨在优化我们衡量刻板印象的方式。它不再分析单个单词,而是分析围绕实体对话的“形状”。

如下图架构所示,该管道包含三个主要阶段: 优化语义轴、利用 LLM 增强轴,以及最后嵌入掩码上下文。

图 1: ADAPTIVE AXES 管道。我们使用文本嵌入模型作为社会刻板印象分析的核心机制,将目标群体被掩盖的纯上下文嵌入投影到语义轴上。我们还开发了剪枝方法来优化语义轴种子集,并利用 LLM 生成新的特定领域轴。

让我们详细拆解这些不同的组件。

1. 增强语义轴

语义轴的好坏取决于定义它的词汇。如果你用“美丽”与“丑陋”来定义“美”轴,这只是个开始。但如果你依赖像 WordNet 这样的旧数据库,你可能会发现“丑陋”的同义词列表中包含不相关或罕见的词,如“psychogenic” (心理性的) 或“noetic” (智性的) ,这些词出现在 WordNet 的身体美反义词中。这些“脏”列表会给测量增加噪音。

利用 LLM 进行剪枝: 研究人员利用 LLM (如 GPT-4) 来“修剪”这些轴。他们向 LLM 提供原始的同义词和反义词列表,并要求它移除不符合核心语义对比的词。

图 3: 用于修剪现有语义轴的提示词模板。

通过使用上述提示词,系统确保轴的极点 (例如,左极 vs. 右极) 在语义上是紧凑且相关的。

利用特定领域的轴进行增强:善-恶 这样的标准轴对于经济学或政治学等特定领域来说太笼统了。为了捕捉域内刻板印象,该管道会生成新的轴。例如,在“军事”领域,相关的轴可能是 和平抗议 vs. 军事干预。在“政治”领域,可能是 透明 vs. 不透明

图 4: 用于生成特定领域语义轴的提示词模板。

这种生成步骤使得分析可以扩展到任何主题,为任何对话创建定制的衡量标准。

2. 文本嵌入模型的力量

过去,研究人员将嵌入投影到轴上。本文主张使用 文本嵌入模型 (句子编码器,如 UAE-large-v1 或基于 Mistral-7B 的嵌入) 。这些模型经过训练可以理解完整句子或短语的含义,这使得它们在捕捉上下文“氛围”方面远胜于单个词向量。

3. 掩码: 句子中的“幽灵”

这可以说是该管道中最具创新性的部分。为了解决前面提到的“身份陷阱”,研究人员对目标实体进行了 掩码 (Masking) 处理。

如果句子是:

“The Russian military initiated a blockade.” ( 俄罗斯军队发起了封锁。)

模型看到的则是:

“The [MASK] military initiated a blockade.” ( **[MASK]**军队发起了封锁。)

管道对这个掩码后的句子进行嵌入。然后,它将这个“上下文嵌入”与语义轴进行比较。如果上下文嵌入与 侵略 轴紧密对齐,我们就知道这句话将主语框架为具有侵略性,无论填空的是哪个国家。通过聚合数千个“俄罗斯”曾经出现过的掩码上下文,模型揭示了与该群体相关的累积刻板印象,而这仅仅通过它们出现的上下文来体现。

实验与验证

这真的比以前的方法更好吗?研究人员进行了广泛的验证,证明文本嵌入模型能更好地处理语义轴,并且得出的刻板印象符合人类直觉。

验证轴

首先,他们检查了现代文本嵌入模型是否比旧模型 (如 GloVe 或标准 BERT) 能更好地从语义轴的两个极点中进行区分。

他们使用了一个“一致性指标” (\(C\)) 。简而言之,他们从语义极点中取出一个词,看模型是将其放置在更靠近其原始组的位置,还是对立组的位置。

表 1: 上图: 不同模型的一致性 C 和一致语义轴的数量。

如上表所示,像 SFR-Embedding-MistralUAE-large-v1 这样的现代模型相比 GloVe 或标准 BERT,获得了一致性得分更高,且一致轴的数量更多。这证实了这些模型能有效地理解诸如“民主”与“威权”等概念之间的语义对比。

验证领域特异性

该论文的主要主张之一是,特定领域的轴是必要的,因为通用轴抓不住重点。为了证明这一点,他们查看了嵌入在不同轴上的 方差 (variance)

逻辑很简单: 如果一个轴对特定领域有意义,数据点应该沿着它分散开来 (高方差) 。如果轴不相关,所有数据点将聚集在中间 (低方差) 。

\[ \cos ( \theta ) = { \frac { \mathbf { E } _ { \mathrm { d o m a i n } } \cdot \mathbf { A } _ { \mathrm { s / g } } } { \| \mathbf { E } _ { \mathrm { d o m a i n } } \| \| \mathbf { A } _ { \mathrm { s / g } } \| } } \]

利用上面的余弦相似度公式,他们测量了领域嵌入 (\(E\)) 与轴 (\(A\)) 的对齐程度。

\[ \operatorname { V a r } ( X ) = E \left[ ( X - \mu ) ^ { 2 } \right] = E [ X ^ { 2 } ] - ( E [ X ] ) ^ { 2 } \]

然后他们计算了方差 (Var) 。结果令人信服:

表 2: 平均方差排名通过平均方差衡量了域内平均百分位排名。

该表显示,生成的特定领域轴 (如经济学中的 贸易壁垒) 在方差排名中始终位于前 10%。这意味着这些轴捕捉到了该领域中实体描述方式的真实、显著差异。

人工评估

最后是终极测试: 人类是否同意模型的判断?研究人员设立了一项研究,让人类标注者对三种方法的输出进行排名:

  1. 随机基线
  2. 基于Token的嵌入 (旧的 BERT 方法)
  3. ADAPTIVE AXES (新的掩码上下文方法)

标注者阅读关于国家 (如中国或加拿大) 的句子,并判断哪一组关键词最能描述句子的“社会印象”。

表 3: 三种类型管道的人工评估排名。

数字越低越好 (排名第 1 最好) 。Adaptive Axes 获得了 1.675 的平均排名,显着优于基于 Token 的方法 (1.925) 和随机基线。这表明,观察 掩码上下文 比仅观察单词 Token 更符合人类对框架的感知。

案例研究: 美国新闻中的国家刻板印象

研究人员将他们的管道应用于一个庞大的数据集: “网络新闻” (NOW) 语料库,重点关注 2010 年至 2023 年的美国新闻文章。他们分析了四个国家——中国、俄罗斯、德国和加拿大——在三个领域( 政治经济文化 )中是如何被构建框架的。

数据分布非常显著,确保了结果具有统计稳健性:

表 8: 我们数据的描述性统计

一般刻板印象

下表总结的结果揭示了每个国家独特的域内特征。

表 4: 每个领域中与不同国家关联度最高的语义轴。

注意这里的细微差别:

  • 中国:经济 领域,上下文与“海外”、“勤劳”和“工厂制造”相关联。然而,在 政治 领域,关联性急剧转变为“威权”和“社会化”。
  • 德国:经济 领域,它与“反垄断”和“市场经济”相关联,反映了其作为受监管的欧洲经济强国的地位。
  • 加拿大:文化 领域,它与“多元文化主义”相关联,与其他地方发现的“民族主义”框架形成对比。

这些描述符不是随机的;它们与地缘政治现实和媒体叙事相一致。该管道成功地将经济上的“中国” (贸易伙伴) 与政治上的“中国” (竞争对手) 区分开来,而单一的向量表示会将两者混为一谈。

追踪随时间变化的刻板印象: 中美贸易战

由于该管道依赖于文本上下文,它可以追踪这些上下文如何随时间变化。作者对涉及中国的美国新闻进行了时间序列分析,特别关注中美贸易战开始前后 (2018 年左右) 的时期。

他们利用了两个与冲突相关的 LLM 生成轴:

  1. 贸易壁垒 vs. 自由贸易
  2. 市场经济 vs. 计划经济

图 2: 两个 LLM 策划的语义轴的余弦相似度得分变化。

上面的图表讲述了一个清晰的故事。

  • 左图: 红线代表与“贸易壁垒”的关联。注意 2018 年开始的急剧飙升。这与美国宣布的 301 条款制裁完美对应。
  • 右图: 绿线代表与“市场经济”的关联。它在 2018/2019 年左右显着下降,这意味着在紧张局势最严重的时候,新闻报道开始较少将中国框架为市场参与者,而更多地将其框架为国家控制 (计划经济) 的实体。

这表明 ADAPTIVE AXES 不仅仅是一个静态快照工具;它还是一个社会晴雨表,能够在现实世界事件发生时检测媒体框架的转变。

结论与启示

“ADAPTIVE AXES”论文为重新思考我们如何在 NLP 中衡量偏见提出了令人信服的论据。通过摒弃静态单词 Token 并拥抱 上下文 的复杂性,研究人员提供了一种反映人类语言复杂性的工具。

以下是关键要点:

  1. 上下文为王: 掩盖目标实体使我们能够衡量 框架 而不是 身份
  2. LLM 作为助手: 利用 LLM 修剪和生成语义轴可以清理数据,并允许进行通用数据库 (如 WordNet) 无法支持的高度具体、特定领域的分析。
  3. 句子编码器: 现代文本嵌入模型在捕捉语义对比方面优于词级模型。

需要牢记的局限性 虽然功能强大,但作者指出该管道衡量的是 共现 , 不一定是因果关系。例如,加拿大与“北方”轴紧密相关。这不是刻板印象;这是一个地理事实。区分描述性关联 (如地理) 和有偏见的刻板印象 (如“好战”) 仍然是一个挑战,需要对轴进行仔细解读。

最终,这项工作为社会学家、政治学家和媒体分析师打开了一扇大门,使他们能够即时量化数百万份文档的“情绪”。它让我们从问“这篇文本有偏见吗?”转变为问“这个特定群体在这个特定领域的框架是如何演变的?”——对于一个复杂的世界来说,这是一个更丰富的问题。