引言
在人工智能飞速发展的版图中,视觉语言模型 (Vision-Language Models, VLMs) 已然成为超级明星。像 CLIP 或 GLIP 这样的模型可以看图说话,或者阅读文字描述并在图片中找到对应的物体。它们是强大的工具,是在互联网上抓取的海量图像-文本对数据集上预训练出来的。
然而,这种能力伴随着一个显著的隐患: 社会偏见 。 因为这些模型从人类生成的数据中学习,它们往往继承了我们的刻板印象。例如,无论图片中实际上是谁,模型可能更倾向于将“厨房”与女性联系起来,或者将“车间”与男性联系起来。
传统上,研究人员试图通过将模型视为“黑盒”来测量这种偏见。他们调整输入 (例如,将标题中的“男人”改为“女人”) ,然后观察输出概率如何变化。虽然这告诉我们偏见确实存在,但它无法解释偏见是如何或在何处于神经网络内部产生的。
这就引出了一篇引人入胜的论文: “Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective” (图片胜于言语: 从因果中介视角理解和缓解视觉语言模型中的偏见) 。 这项研究的研究人员不只是想测量输出;他们想揭开引擎盖一探究竟。他们提出了一个利用因果中介分析 (Causal Mediation Analysis) 来绘制偏见生成路径的框架。
他们的发现令人惊讶: 与人们可能预期的以文本为主导的偏见相反, 图像特征对模型偏见的贡献远大于文本特征。在这篇文章中,我们将拆解他们的方法论,探索偏见的内部机制,并看看他们提出的缓解方案。
背景: 黑盒偏见检测的问题
在深入新方法之前,我们需要了解现状。目前大多数 VLM 的偏见评估方法都源自自然语言处理 (NLP) 。
例如,一种常见的技术是“反事实测试”。如果当文本说“他”时,模型以 90% 的置信度预测某人是“医生”,但当文本说“她”时,置信度下降到 60%,我们就识别出了性别偏见。
虽然有用,但这种方法有两个主要局限性:
- 缺乏因果关系: 它显示了输入和输出之间的相关性,但没有解释因果机制。
- 内部流程不透明: 它没有告诉我们模型的哪个部分在起作用。是图像编码器?文本编码器?还是它们混合的融合层?
如果不知道偏见存在于何处,修复它就如同猜谜游戏。这篇论文的作者认为,要有效地缓解偏见,我们需要首先了解特定模型组件的因果作用。
核心方法: 因果中介分析
这篇论文的核心是将因果中介分析应用于视觉语言模型。这是一个统计框架,用于理解自变量 (处理) 如何通过中间变量 (中介) 影响因变量 (结果) 。
直觉
为了理解这一点,让我们看看作者提供的一个现实世界的类比。

如图 1 所示,想象一名运动员进行力量训练 (处理 \(X\)) 以提高运动表现 (结果 \(Y\)) 。
- 直接效应: 训练直接提高了表现。
- 间接效应 (通过中介) : 训练需要肌肉放松 (中介 \(Z\)) 来恢复,这反过来又影响了表现。
研究人员将这一逻辑应用于 VLM:
- 处理 (\(X\)): 改变输入中的性别信息 (例如,遮挡图像中的人物或交换文本中的性别词汇) 。
- 中介 (\(Z\)): AI 模型内部的特定组件,例如注意力头或特定层。
- 结果 (\(Y\)): 模型性别偏见分数的变化。
定义偏见度量
在测量因果效应之前,作者需要一种具体的方法来量化偏见。他们定义了一个名为 \(BIAS_{VL}\) (视觉语言偏见) 的指标。

这个公式测量了物体 (如“炉子”或“摩托车”) 与不同性别之间相关性的差异。具体来说,他们使用了假阳性率 (FPR) 。 如果模型在图片中有女性时错误检测出“吹风机”的频率比图片中有男性时更高,那么这种差异就会计入 \(BIAS_{VL}\) 分数。
实验设置: GLIP
研究人员使用 GLIP (Grounded Language-Image Pre-training) 模型进行实验。GLIP 是一个目标检测模型,接受两个输入:
- 一张图像。
- 一段文本提示 (以逗号分隔的物体类别列表) 。

如图 3 所示,模型在“深度融合 (Deep Fusion) ”模块 (紫色框) 合并之前,分别处理图像 (绿色框) 和文本 (红色框) 。这种架构非常适合这项研究,因为它具有独特的视觉和语言模块,允许研究人员隔离偏见的来源。
测量直接效应与间接效应
这是该方法论最巧妙的地方。作者使用了三种类型的干预:
- 空 (Null) : 原始图像和文本。
- 替换性别 (Replace-gender) : 将文本中的“男人”替换为“人” (或类似词汇) 。
- 遮挡性别 (Mask-gender) : 将图像中对应人物的像素涂黑。
通过在改变输入的同时冻结模型的特定部分 (中介) ,他们可以在数学上分离直接效应 (输入变化直接影响输出的程度) 与间接效应 (输入变化通过特定内部组件影响输出的程度) 。

图 2 可视化了这一流程。
- (c) 直接效应: 我们改变输入,但强制内部组件 (\(z\)) 表现得就像输入没有改变一样。
- (d) 间接效应: 我们保持输入不变,但强制内部组件 (\(z\)) 表现得就像输入已经改变了一样。
这使得研究人员能够提出这样的问题: “偏见是来自原始输入数据,还是被图像编码器层特异性地放大和传播了?”
实验与结果
团队在两个主要数据集上测试了该框架: MSCOCO 和 PASCAL-SENTENCE 。 他们关注了 66 个经常与人类一起出现的物体。
1. 确认偏见存在
首先,他们建立了一个基线。GLIP 模型真的表现出性别偏见吗?答案是肯定的。

图 4 显示了 PASCAL-SENTENCE 数据集的假阳性率。
- 蓝色条 (女性) : 注意“餐桌 (dining table) ”和“椅子 (chair) ”的峰值。模型仅仅因为有女性在场,就更频繁地产生这些物体的幻觉。
- 橙色条 (男性) : 注意“摩托车 (motorbike) ”、“公共汽车 (bus) ”和“汽车 (car) ”的峰值。模型将男性与车辆联系在一起。
这证实了模型将女性与室内物体/宠物相关联,将男性与室外物体/车辆相关联。
2. 结论: 图片是主要罪魁祸首
这是论文最重要的发现。当他们进行因果中介分析时,比较了图像编码器与文本编码器的影响。

让我们仔细观察图 5 , 特别是面板 (a) 和 (b)。
- 面板 (a) - 图像模块: 当研究人员对图像模块进行干预 (遮挡性别) 时,直接效应 (DE) 显著下降,而随着他们包含更多层,间接效应 (IE) 上升。这意味着图像编码器层正在积极地调节大部分偏见。
- 面板 (b) - 文本模块: 这里的效应要小得多 (注意 Y 轴的比例) 。
量化差异: 在 MSCOCO 数据集上,图像特征贡献了大约 33% 的偏见,而文本特征仅贡献了 13% 。
为什么? 作者认为,由于目标检测中的文本输入通常只是一个单词列表 (例如,“泰迪熊 . 手提包 . 叉子”) ,语义结构很简单。然而,图像包含丰富、复杂的像素数据,其中性别线索与物体线索深深地纠缠在一起。
3. 深度融合模块
研究人员还分析了图像和文本特征交互的深度融合编码器 。 他们发现,即使该模块不直接从原始输入中提取特征,交互过程也会产生大量的偏见——约占编码器中发现的贡献的 56%。
4. 视觉和语言是否一致?
多模态学习中的一个关键问题是,模型的视觉部分和语言部分是在相互对抗还是相互强化。

图 6 显示了对语言 (L)、视觉 (V) 以及两者同时 (L+V) 进行干预的结果。
- 红线 (L+V) 在固定层时显示出最高的偏见分数 (意味着没有干预) ,而在应用干预时下降幅度最大。
- 结合两者比单独任何一个都能更多地减少偏见,这一事实表明偏见是一致的 。 文本和图像编码器正在“合谋”强化同样的性别刻板印象。
缓解: 修复源头
由于因果分析证明图像编码器是偏见的最大贡献者,作者提出了一种有针对性的缓解策略,称为 ImageFair 。
策略: “模糊”性别
他们没有重新训练整个模型 (这很昂贵) ,也没有仅仅改变文本提示 (这很无效) ,而是修改了图像编码器流程:
- 人脸检测: 他们集成了一个轻量级网络 (MTCNN) 来在输入图像中查找人脸。
- 性别分类: 他们使用 MobileNet 对人脸的性别进行分类。
- 交换: 如果检测到男性人脸,他们将其与“反事实”的女性人脸混合 (反之亦然) 。
这个过程在模型形成偏见关联之前,“模糊”了图像表示中的性别特征。
有效吗?
结果令人印象深刻。

如表 2 所示:
- GLIP (原始) : MSCOCO 上的偏见分数为 1.434。
- GLIP_TextFair: 偏见减少了约 7.8%。
- GLIP_ImageFair: 偏见减少了 ~22.03% 。
至关重要的是,请看 AP (平均精度) 列。性能下降非常轻微 (从 46.6 降至 46.2) 。这表明模型在变得更加公平的同时,并没有失去准确检测物体的能力。
结论与启示
这篇研究论文为负责任的 AI 迈出了关键的一步。通过超越“黑盒”测试并使用因果中介分析 , 作者证明了在视觉语言模型的偏见问题上, 图片确实胜于言语 。
主要收获:
- 可追溯性至关重要: 我们可以从数学上追踪哪些层和模态正在产生偏见。
- 视觉主导: 在目标检测任务中,视觉特征承载了大部分的性别/物体相关性。
- 针对性缓解: 因为我们要知道偏见在哪里 (图像编码器) ,我们可以有效地修复它 (模糊性别面孔) ,而不会破坏模型的其他部分。
该框架不仅限于性别偏见。作者指出,只要我们有正确的数据,它就可以适用于年龄、种族或其他社会偏见。随着我们将多模态 AI 融入社会,像这样的工具对于确保这些系统的公平和公正将是必不可少的。
](https://deep-paper.org/en/paper/2407.02814/images/cover.png)