引言

在人工智能飞速发展的版图中,视觉语言模型 (Vision-Language Models, VLMs) 已然成为超级明星。像 CLIP 或 GLIP 这样的模型可以看图说话,或者阅读文字描述并在图片中找到对应的物体。它们是强大的工具,是在互联网上抓取的海量图像-文本对数据集上预训练出来的。

然而,这种能力伴随着一个显著的隐患: 社会偏见 。 因为这些模型从人类生成的数据中学习,它们往往继承了我们的刻板印象。例如,无论图片中实际上是谁,模型可能更倾向于将“厨房”与女性联系起来,或者将“车间”与男性联系起来。

传统上,研究人员试图通过将模型视为“黑盒”来测量这种偏见。他们调整输入 (例如,将标题中的“男人”改为“女人”) ,然后观察输出概率如何变化。虽然这告诉我们偏见确实存在,但它无法解释偏见是如何在何处于神经网络内部产生的。

这就引出了一篇引人入胜的论文: “Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective” (图片胜于言语: 从因果中介视角理解和缓解视觉语言模型中的偏见) 。 这项研究的研究人员不只是想测量输出;他们想揭开引擎盖一探究竟。他们提出了一个利用因果中介分析 (Causal Mediation Analysis) 来绘制偏见生成路径的框架。

他们的发现令人惊讶: 与人们可能预期的以文本为主导的偏见相反, 图像特征对模型偏见的贡献远大于文本特征。在这篇文章中,我们将拆解他们的方法论,探索偏见的内部机制,并看看他们提出的缓解方案。

背景: 黑盒偏见检测的问题

在深入新方法之前,我们需要了解现状。目前大多数 VLM 的偏见评估方法都源自自然语言处理 (NLP) 。

例如,一种常见的技术是“反事实测试”。如果当文本说“他”时,模型以 90% 的置信度预测某人是“医生”,但当文本说“她”时,置信度下降到 60%,我们就识别出了性别偏见。

虽然有用,但这种方法有两个主要局限性:

  1. 缺乏因果关系: 它显示了输入和输出之间的相关性,但没有解释因果机制。
  2. 内部流程不透明: 它没有告诉我们模型的哪个部分在起作用。是图像编码器?文本编码器?还是它们混合的融合层?

如果不知道偏见存在于何处,修复它就如同猜谜游戏。这篇论文的作者认为,要有效地缓解偏见,我们需要首先了解特定模型组件的因果作用。

核心方法: 因果中介分析

这篇论文的核心是将因果中介分析应用于视觉语言模型。这是一个统计框架,用于理解自变量 (处理) 如何通过中间变量 (中介) 影响因变量 (结果) 。

直觉

为了理解这一点,让我们看看作者提供的一个现实世界的类比。

图 1: 因果中介分析示例。在这个例子中,力量训练作为处理手段,旨在提高运动表现,而肌肉放松作为中介,间接影响运动表现。在我们的研究中,输入模块中的干预直接影响模型预测中的性别偏见,而诸如特定层或神经元等模型组件可以调节这种效应。

图 1 所示,想象一名运动员进行力量训练 (处理 \(X\)) 以提高运动表现 (结果 \(Y\)) 。

  • 直接效应: 训练直接提高了表现。
  • 间接效应 (通过中介) : 训练需要肌肉放松 (中介 \(Z\)) 来恢复,这反过来又影响了表现。

研究人员将这一逻辑应用于 VLM:

  • 处理 (\(X\)): 改变输入中的性别信息 (例如,遮挡图像中的人物或交换文本中的性别词汇) 。
  • 中介 (\(Z\)): AI 模型内部的特定组件,例如注意力头或特定层。
  • 结果 (\(Y\)): 模型性别偏见分数的变化。

定义偏见度量

在测量因果效应之前,作者需要一种具体的方法来量化偏见。他们定义了一个名为 \(BIAS_{VL}\) (视觉语言偏见) 的指标。

BIAS_VL 定义公式

这个公式测量了物体 (如“炉子”或“摩托车”) 与不同性别之间相关性的差异。具体来说,他们使用了假阳性率 (FPR) 。 如果模型在图片中有女性时错误检测出“吹风机”的频率比图片中有男性时更高,那么这种差异就会计入 \(BIAS_{VL}\) 分数。

实验设置: GLIP

研究人员使用 GLIP (Grounded Language-Image Pre-training) 模型进行实验。GLIP 是一个目标检测模型,接受两个输入:

  1. 一张图像。
  2. 一段文本提示 (以逗号分隔的物体类别列表) 。

图 3: GLIP 目标检测流程。GLIP 模型的输入由图像和标题组成,标题包含以逗号分隔的可能类别列表。

图 3 所示,模型在“深度融合 (Deep Fusion) ”模块 (紫色框) 合并之前,分别处理图像 (绿色框) 和文本 (红色框) 。这种架构非常适合这项研究,因为它具有独特的视觉和语言模块,允许研究人员隔离偏见的来源。

测量直接效应与间接效应

这是该方法论最巧妙的地方。作者使用了三种类型的干预:

  1. 空 (Null) : 原始图像和文本。
  2. 替换性别 (Replace-gender) : 将文本中的“男人”替换为“人” (或类似词汇) 。
  3. 遮挡性别 (Mask-gender) : 将图像中对应人物的像素涂黑。

通过在改变输入的同时冻结模型的特定部分 (中介) ,他们可以在数学上分离直接效应 (输入变化直接影响输出的程度) 与间接效应 (输入变化通过特定内部组件影响输出的程度) 。

图 2: 利用因果中介分析理解偏见。图中 z 代表中介,各种 y 值代表不同干预下模型输出的偏见值。

图 2 可视化了这一流程。

  • (c) 直接效应: 我们改变输入,但强制内部组件 (\(z\)) 表现得就像输入没有改变一样。
  • (d) 间接效应: 我们保持输入不变,但强制内部组件 (\(z\)) 表现得就像输入已经改变了一样。

这使得研究人员能够提出这样的问题: “偏见是来自原始输入数据,还是被图像编码器层特异性地放大和传播了?”

实验与结果

团队在两个主要数据集上测试了该框架: MSCOCOPASCAL-SENTENCE 。 他们关注了 66 个经常与人类一起出现的物体。

1. 确认偏见存在

首先,他们建立了一个基线。GLIP 模型真的表现出性别偏见吗?答案是肯定的。

图 4: PASCAL-SENTENCE 数据集中各种物体的假阳性率 (FPR)。

图 4 显示了 PASCAL-SENTENCE 数据集的假阳性率。

  • 蓝色条 (女性) : 注意“餐桌 (dining table) ”和“椅子 (chair) ”的峰值。模型仅仅因为有女性在场,就更频繁地产生这些物体的幻觉。
  • 橙色条 (男性) : 注意“摩托车 (motorbike) ”、“公共汽车 (bus) ”和“汽车 (car) ”的峰值。模型将男性与车辆联系在一起。

这证实了模型将女性与室内物体/宠物相关联,将男性与室外物体/车辆相关联。

2. 结论: 图片是主要罪魁祸首

这是论文最重要的发现。当他们进行因果中介分析时,比较了图像编码器文本编码器的影响。

图 5: COCO 和 PASCAL-S 数据集上偏见的因果中介分析。

让我们仔细观察图 5 , 特别是面板 (a) 和 (b)。

  • 面板 (a) - 图像模块: 当研究人员对图像模块进行干预 (遮挡性别) 时,直接效应 (DE) 显著下降,而随着他们包含更多层,间接效应 (IE) 上升。这意味着图像编码器层正在积极地调节大部分偏见。
  • 面板 (b) - 文本模块: 这里的效应要小得多 (注意 Y 轴的比例) 。

量化差异: 在 MSCOCO 数据集上,图像特征贡献了大约 33% 的偏见,而文本特征仅贡献了 13%

为什么? 作者认为,由于目标检测中的文本输入通常只是一个单词列表 (例如,“泰迪熊 . 手提包 . 叉子”) ,语义结构很简单。然而,图像包含丰富、复杂的像素数据,其中性别线索与物体线索深深地纠缠在一起。

3. 深度融合模块

研究人员还分析了图像和文本特征交互的深度融合编码器 。 他们发现,即使该模块不直接从原始输入中提取特征,交互过程也会产生大量的偏见——约占编码器中发现的贡献的 56%。

4. 视觉和语言是否一致?

多模态学习中的一个关键问题是,模型的视觉部分和语言部分是在相互对抗还是相互强化。

图 6: 在视觉 (V) 和语言模块 (L) 干预下跨模态偏见减少的比较。

图 6 显示了对语言 (L)、视觉 (V) 以及两者同时 (L+V) 进行干预的结果。

  • 红线 (L+V) 在固定层时显示出最高的偏见分数 (意味着没有干预) ,而在应用干预时下降幅度最大。
  • 结合两者比单独任何一个都能更多地减少偏见,这一事实表明偏见是一致的 。 文本和图像编码器正在“合谋”强化同样的性别刻板印象。

缓解: 修复源头

由于因果分析证明图像编码器是偏见的最大贡献者,作者提出了一种有针对性的缓解策略,称为 ImageFair

策略: “模糊”性别

他们没有重新训练整个模型 (这很昂贵) ,也没有仅仅改变文本提示 (这很无效) ,而是修改了图像编码器流程:

  1. 人脸检测: 他们集成了一个轻量级网络 (MTCNN) 来在输入图像中查找人脸。
  2. 性别分类: 他们使用 MobileNet 对人脸的性别进行分类。
  3. 交换: 如果检测到男性人脸,他们将其与“反事实”的女性人脸混合 (反之亦然) 。

这个过程在模型形成偏见关联之前,“模糊”了图像表示中的性别特征。

有效吗?

结果令人印象深刻。

表 2: 不同方法的性能比较。在图像编码器中进行干预比在文本编码器中更有效地降低了偏见分数,且没有显著的性能损失。

表 2 所示:

  • GLIP (原始) : MSCOCO 上的偏见分数为 1.434。
  • GLIP_TextFair: 偏见减少了约 7.8%。
  • GLIP_ImageFair: 偏见减少了 ~22.03%

至关重要的是,请看 AP (平均精度) 列。性能下降非常轻微 (从 46.6 降至 46.2) 。这表明模型在变得更加公平的同时,并没有失去准确检测物体的能力。

结论与启示

这篇研究论文为负责任的 AI 迈出了关键的一步。通过超越“黑盒”测试并使用因果中介分析 , 作者证明了在视觉语言模型的偏见问题上, 图片确实胜于言语

主要收获:

  • 可追溯性至关重要: 我们可以从数学上追踪哪些层和模态正在产生偏见。
  • 视觉主导: 在目标检测任务中,视觉特征承载了大部分的性别/物体相关性。
  • 针对性缓解: 因为我们要知道偏见在哪里 (图像编码器) ,我们可以有效地修复它 (模糊性别面孔) ,而不会破坏模型的其他部分。

该框架不仅限于性别偏见。作者指出,只要我们有正确的数据,它就可以适用于年龄、种族或其他社会偏见。随着我们将多模态 AI 融入社会,像这样的工具对于确保这些系统的公平和公正将是必不可少的。