超越善恶：利用自适应轴揭示细微的社会刻板印象

引言

语言很少是中立的。当我们谈论或书写不同的社会群体时——无论是按国籍、种族还是性别定义——我们往往依赖于微妙的联想来构建对这些群体的认知。这些联想就是我们所说的社会刻板印象。

多年来，自然语言处理 (NLP) 研究人员一直试图量化这些偏见。早期的尝试虽然具有开创性，但略显生硬，通常依赖静态词嵌入来展示诸如“男人”之于“计算机程序员”相当于“女人”之于“家庭主妇”这样的关系。虽然这对于识别广泛的社会偏见很有用，但这些方法缺乏细微差别。像“加拿大人”或“中国人”这样的社会群体并不是在每种语境下都被以完全相同的方式刻板化。政治讨论中应用的刻板印象与体育或经济讨论中的截然不同。

此外，传统方法还存在“身份”问题。如果你试图分析像“俄罗斯”这样的词周围的语境，“俄罗斯”这个词本身的语义意义如此强烈，往往会掩盖周围句子中微妙的框架效应。

在这篇深度文章中，我们将探讨研究论文 “ADAPTIVE AXES: A Pipeline for In-domain Social Stereotype Analysis” (自适应轴: 一种用于域内社会刻板印象分析的管道) 。该论文提出了一种先进的新管道，结合了最先进的文本嵌入模型与大语言模型 (LLM) ，以捕捉这些难以捉摸的、特定领域的刻板印象。通过掩盖目标身份并专注于上下文，研究人员找到了一种方法，不仅能衡量我们对社会群体说了什么，还能衡量句子的结构本身是如何构建这些群体的。

背景: 偏见检测的演变

要理解为什么“Adaptive Axes” (自适应轴) 是向前迈出的重要一步，我们需要先看看研究人员传统上是如何衡量偏见的。

词嵌入时代

最常见的方法是在词嵌入空间 (如 Word2Vec 或 GloVe) 中使用 语义轴 (Semantic Axes) 。想象一个 3D 空间，每个词都是一个点。含义相似的词彼此靠近。

为了发现偏见，研究人员通过选取两个对立的极点来定义“语义轴”，例如善 vs. 恶或和平 vs. 暴力。然后，他们将社会群体的向量 (例如“X国”的点) 投影到这条线上。如果该点落在更靠近“暴力”的一侧，模型就捕捉到了刻板印象。

问题: 语境与身份

虽然这种方法很优雅，但它有两个主要缺陷:

静态表示: 它假设群体的刻板印象是恒定的。它没有考虑领域。一个群体可能在艺术领域被正面评价，但在政治领域被负面评价。
身份陷阱: 当使用现代上下文模型 (如 BERT) 时，像“法国人”这样的 Token 的嵌入在很大程度上受到“法国人”这个词本身的影响。研究人员指出，单词的身份主导了其上下文表示。这使得很难看清周围的文本实际上是如何进行框架构建的。

“Adaptive Axes”管道通过将焦点从单词转移到 掩码上下文 (masked context) , 并利用 LLM 创建更清晰、更具体的语义轴，从而解决了这些问题。

核心方法: ADAPTIVE AXES

该论文提出的管道是一个多步骤过程，旨在优化我们衡量刻板印象的方式。它不再分析单个单词，而是分析围绕实体对话的“形状”。

如下图架构所示，该管道包含三个主要阶段: 优化语义轴、利用 LLM 增强轴，以及最后嵌入掩码上下文。

图 1: ADAPTIVE AXES 管道。我们使用文本嵌入模型作为社会刻板印象分析的核心机制，将目标群体被掩盖的纯上下文嵌入投影到语义轴上。我们还开发了剪枝方法来优化语义轴种子集，并利用 LLM 生成新的特定领域轴。

让我们详细拆解这些不同的组件。

1. 增强语义轴

语义轴的好坏取决于定义它的词汇。如果你用“美丽”与“丑陋”来定义“美”轴，这只是个开始。但如果你依赖像 WordNet 这样的旧数据库，你可能会发现“丑陋”的同义词列表中包含不相关或罕见的词，如“psychogenic” (心理性的) 或“noetic” (智性的) ，这些词出现在 WordNet 的身体美反义词中。这些“脏”列表会给测量增加噪音。

利用 LLM 进行剪枝: 研究人员利用 LLM (如 GPT-4) 来“修剪”这些轴。他们向 LLM 提供原始的同义词和反义词列表，并要求它移除不符合核心语义对比的词。

图 3: 用于修剪现有语义轴的提示词模板。

通过使用上述提示词，系统确保轴的极点 (例如，左极 vs. 右极) 在语义上是紧凑且相关的。

利用特定领域的轴进行增强: 像 善-恶 这样的标准轴对于经济学或政治学等特定领域来说太笼统了。为了捕捉域内刻板印象，该管道会生成新的轴。例如，在“军事”领域，相关的轴可能是 和平抗议 vs. 军事干预。在“政治”领域，可能是透明 vs. 不透明。

图 4: 用于生成特定领域语义轴的提示词模板。

这种生成步骤使得分析可以扩展到任何主题，为任何对话创建定制的衡量标准。

2. 文本嵌入模型的力量

过去，研究人员将词嵌入投影到轴上。本文主张使用 文本嵌入模型 (句子编码器，如 UAE-large-v1 或基于 Mistral-7B 的嵌入) 。这些模型经过训练可以理解完整句子或短语的含义，这使得它们在捕捉上下文“氛围”方面远胜于单个词向量。

3. 掩码: 句子中的“幽灵”

这可以说是该管道中最具创新性的部分。为了解决前面提到的“身份陷阱”，研究人员对目标实体进行了 掩码 (Masking) 处理。

如果句子是:

“The Russian military initiated a blockade.” ( 俄罗斯军队发起了封锁。)

模型看到的则是:

“The [MASK] military initiated a blockade.” ( **[MASK]**军队发起了封锁。)

管道对这个掩码后的句子进行嵌入。然后，它将这个“上下文嵌入”与语义轴进行比较。如果上下文嵌入与侵略轴紧密对齐，我们就知道这句话将主语框架为具有侵略性，无论填空的是哪个国家。通过聚合数千个“俄罗斯”曾经出现过的掩码上下文，模型揭示了与该群体相关的累积刻板印象，而这仅仅通过它们出现的上下文来体现。

实验与验证

这真的比以前的方法更好吗？研究人员进行了广泛的验证，证明文本嵌入模型能更好地处理语义轴，并且得出的刻板印象符合人类直觉。

验证轴

首先，他们检查了现代文本嵌入模型是否比旧模型 (如 GloVe 或标准 BERT) 能更好地从语义轴的两个极点中进行区分。

他们使用了一个“一致性指标” (\(C\)) 。简而言之，他们从语义极点中取出一个词，看模型是将其放置在更靠近其原始组的位置，还是对立组的位置。

表 1: 上图: 不同模型的一致性 C 和一致语义轴的数量。

如上表所示，像 SFR-Embedding-Mistral 和 UAE-large-v1 这样的现代模型相比 GloVe 或标准 BERT，获得了一致性得分更高，且一致轴的数量更多。这证实了这些模型能有效地理解诸如“民主”与“威权”等概念之间的语义对比。

验证领域特异性

该论文的主要主张之一是，特定领域的轴是必要的，因为通用轴抓不住重点。为了证明这一点，他们查看了嵌入在不同轴上的 方差 (variance) 。

逻辑很简单: 如果一个轴对特定领域有意义，数据点应该沿着它分散开来 (高方差) 。如果轴不相关，所有数据点将聚集在中间 (低方差) 。

\[ \cos ( \theta ) = { \frac { \mathbf { E } _ { \mathrm { d o m a i n } } \cdot \mathbf { A } _ { \mathrm { s / g } } } { \| \mathbf { E } _ { \mathrm { d o m a i n } } \| \| \mathbf { A } _ { \mathrm { s / g } } \| } } \]

利用上面的余弦相似度公式，他们测量了领域嵌入 (\(E\)) 与轴 (\(A\)) 的对齐程度。

\[ \operatorname { V a r } ( X ) = E \left[ ( X - \mu ) ^ { 2 } \right] = E [ X ^ { 2 } ] - ( E [ X ] ) ^ { 2 } \]

然后他们计算了方差 (Var) 。结果令人信服:

表 2: 平均方差排名通过平均方差衡量了域内平均百分位排名。

该表显示，生成的特定领域轴 (如经济学中的 贸易壁垒) 在方差排名中始终位于前 10%。这意味着这些轴捕捉到了该领域中实体描述方式的真实、显著差异。

人工评估

最后是终极测试: 人类是否同意模型的判断？研究人员设立了一项研究，让人类标注者对三种方法的输出进行排名:

随机基线
基于Token的嵌入 (旧的 BERT 方法)
ADAPTIVE AXES (新的掩码上下文方法)

标注者阅读关于国家 (如中国或加拿大) 的句子，并判断哪一组关键词最能描述句子的“社会印象”。

表 3: 三种类型管道的人工评估排名。

数字越低越好 (排名第 1 最好) 。Adaptive Axes 获得了 1.675 的平均排名，显着优于基于 Token 的方法 (1.925) 和随机基线。这表明，观察 掩码上下文 比仅观察单词 Token 更符合人类对框架的感知。

案例研究: 美国新闻中的国家刻板印象

研究人员将他们的管道应用于一个庞大的数据集: “网络新闻” (NOW) 语料库，重点关注 2010 年至 2023 年的美国新闻文章。他们分析了四个国家——中国、俄罗斯、德国和加拿大——在三个领域( 政治、经济和文化 )中是如何被构建框架的。

数据分布非常显著，确保了结果具有统计稳健性:

表 8: 我们数据的描述性统计

一般刻板印象

下表总结的结果揭示了每个国家独特的域内特征。

表 4: 每个领域中与不同国家关联度最高的语义轴。

注意这里的细微差别:

中国: 在经济领域，上下文与“海外”、“勤劳”和“工厂制造”相关联。然而，在政治领域，关联性急剧转变为“威权”和“社会化”。
德国: 在经济领域，它与“反垄断”和“市场经济”相关联，反映了其作为受监管的欧洲经济强国的地位。
加拿大: 在文化领域，它与“多元文化主义”相关联，与其他地方发现的“民族主义”框架形成对比。

这些描述符不是随机的；它们与地缘政治现实和媒体叙事相一致。该管道成功地将经济上的“中国” (贸易伙伴) 与政治上的“中国” (竞争对手) 区分开来，而单一的向量表示会将两者混为一谈。

追踪随时间变化的刻板印象: 中美贸易战

由于该管道依赖于文本上下文，它可以追踪这些上下文如何随时间变化。作者对涉及中国的美国新闻进行了时间序列分析，特别关注中美贸易战开始前后 (2018 年左右) 的时期。

他们利用了两个与冲突相关的 LLM 生成轴:

贸易壁垒 vs. 自由贸易
市场经济 vs. 计划经济

图 2: 两个 LLM 策划的语义轴的余弦相似度得分变化。

上面的图表讲述了一个清晰的故事。

左图: 红线代表与“贸易壁垒”的关联。注意 2018 年开始的急剧飙升。这与美国宣布的 301 条款制裁完美对应。
右图: 绿线代表与“市场经济”的关联。它在 2018/2019 年左右显着下降，这意味着在紧张局势最严重的时候，新闻报道开始较少将中国框架为市场参与者，而更多地将其框架为国家控制 (计划经济) 的实体。

这表明 ADAPTIVE AXES 不仅仅是一个静态快照工具；它还是一个社会晴雨表，能够在现实世界事件发生时检测媒体框架的转变。

结论与启示

“ADAPTIVE AXES”论文为重新思考我们如何在 NLP 中衡量偏见提出了令人信服的论据。通过摒弃静态单词 Token 并拥抱 上下文 的复杂性，研究人员提供了一种反映人类语言复杂性的工具。

以下是关键要点:

上下文为王: 掩盖目标实体使我们能够衡量框架而不是身份。
LLM 作为助手: 利用 LLM 修剪和生成语义轴可以清理数据，并允许进行通用数据库 (如 WordNet) 无法支持的高度具体、特定领域的分析。
句子编码器: 现代文本嵌入模型在捕捉语义对比方面优于词级模型。

需要牢记的局限性 虽然功能强大，但作者指出该管道衡量的是共现 , 不一定是因果关系。例如，加拿大与“北方”轴紧密相关。这不是刻板印象；这是一个地理事实。区分描述性关联 (如地理) 和有偏见的刻板印象 (如“好战”) 仍然是一个挑战，需要对轴进行仔细解读。

最终，这项工作为社会学家、政治学家和媒体分析师打开了一扇大门，使他们能够即时量化数百万份文档的“情绪”。它让我们从问“这篇文本有偏见吗？”转变为问“这个特定群体在这个特定领域的框架是如何演变的？”——对于一个复杂的世界来说，这是一个更丰富的问题。

引言#

背景: 偏见检测的演变#

词嵌入时代#

问题: 语境与身份#

核心方法: ADAPTIVE AXES#

1. 增强语义轴#

2. 文本嵌入模型的力量#

3. 掩码: 句子中的“幽灵”#

实验与验证#

验证轴#

验证领域特异性#

人工评估#

案例研究: 美国新闻中的国家刻板印象#

一般刻板印象#

追踪随时间变化的刻板印象: 中美贸易战#

结论与启示#

引言