引言: 摩托车难题

想象一下,向一个 AI 模型展示一张有人骑摩托车的照片。你要求模型描述它看到了什么。它回答道: “一个男人骑着摩托车。”

现在,想象一下骑手实际上是一个女人。为什么 AI 会搞错?

答案在于虚假相关性 (Spurious Correlations) 。 在用于训练这些模型的海量数据集中,摩托车与男性同时出现的频率远高于与女性同时出现的频率。模型不再关注人本身,而是开始依赖上下文: 如果有摩托车,模型就赌那是一个男人。

这是机器学习中社会偏见的一个典型例子。虽然研究人员多年来一直试图通过重新平衡数据集 (一种称为重采样,resampling 的技术) 来解决这个问题,但一篇名为 “Resampled Datasets Are Not Enough: Mitigating Societal Bias Beyond Single Attributes” (重采样数据集还不够: 缓解单一属性之外的社会偏见) 的新论文指出,传统方法正遭遇瓶颈。它们之所以失败,是因为它们只关注已标记的属性 (如“摩托车”) ,而忽略了成千上万个模型用来“作弊”的细微且未标记的线索——如背景颜色、空间位置或服装风格。

在这篇文章中,我们将探讨研究人员如何利用生成式 AI (具体来说是文本引导的图像修复技术,text-guided inpainting) 来创建“反事实”的合成数据集。我们将拆解他们的新颖流程,解释为什么混合真实数据和虚假数据会适得其反,并看看这种方法如何为每个人创造更公平的模型。


重采样的局限性

在深入研究解决方案之前,我们需要了解为什么当前的标准做法——重采样 (Resampling) ——是不够的。

在一个典型的数据集中,你可能会遇到不平衡的情况。例如:

  • 90% 带有“厨房”标签的图片中是女性。
  • 10% 带有“厨房”标签的图片中是男性。

在这个数据集上训练的模型会学到 厨房 = 女性。为了修正这一点,研究人员使用重采样 : 他们会对少数类进行过采样 (多次展示“男性在厨房”的图片) 或对多数类进行欠采样 (减少展示“女性在厨房”的图片) 。

目标是使属性 (厨房) 的概率独立于受保护群体 (性别) 。

“隐藏属性”陷阱

如果你对所有事物都有标签,重采样效果很好。但是那些你没有标记的属性呢?

考虑颜色 。 也许在数据集中,女性的图片倾向于使用更暖的色调,而男性的图片则使用更冷的色调。即使你完美地平衡了“厨房”这个标签,模型可能只是转而利用颜色统计数据来猜测性别。因为“色调”在数据集中不是一个已标记的类别,所以你无法基于它进行重采样。

这就是研究人员要解决的核心问题: 我们如何消除受保护群体与所有属性的相关性,甚至是那些我们不知道的属性?


解决方案: 文本引导的图像修复 (Text-Guided Inpainting)

研究人员提出了一种方法,从整理现有数据转向生成新数据 。 如果现实世界没有提供足够多的男性处于通常与女性相关的场景 (反之亦然) 的照片,我们可以使用现代扩散模型来创建它们。

核心思想是文本引导的图像修复 (Text-Guided Inpainting)

  1. 选取一张带有人物的图片。
  2. 对人物进行“掩码” (Masking,即擦除) 。
  3. 使用文本提示词用特定的人口统计特征填充空白区域 (例如,“一个男人……”或“一个女人……”) 。

通过对数据集中的每张图片执行此操作,理论上你可以确保背景上下文 (厨房、摩托车、颜色) 保持完全一致,而性别发生改变。这打破了上下文与群体之间的相关性。

流程概览

研究人员开发了一套完整的流程来实施这一想法。

展示输入图像、修复、过滤和数据集创建的流程概览。

如上图 Figure 2 所示,该过程如下:

  1. 输入: 原始图像 \(x\)。
  2. 修复 (Inpainting) : 系统使用不同的提示词 (例如 \(t_{man}\) 和 \(t_{woman}\)) 生成人物的多个变体。
  3. 过滤与排序: 生成模型并不完美。它们有时会生成怪物或忽略指令。系统生成 \(m\) 个候选图像并进行过滤以找到最好的那些。
  4. 数据集创建: 最好的合成图像被汇编成一个新的训练集。

质量控制: 三个过滤器

这篇论文的主要贡献之一是承认不能盲目信任扩散模型。如果你要求它生成“一个骑摩托车的女人”,它可能会生成一个女人,但意外地移除了摩托车,或者光线改变得太剧烈,以至于图像看起来很假。

为了解决这个问题,作者引入了一个基于三个特定方程的严格排序系统。

1. 提示词遵循度 (Prompt Adherence)

首先,我们必须确保生成的图像实际上符合文本描述 (例如,它真的生成了一个女人吗?) 。他们使用 CLIPScore , 该指标衡量图像与文本之间的语义相似度。

使用 CLIP 嵌入的提示词遵循度方程。

这里,\(\phi\) 是图像编码器,\(\psi\) 是文本编码器。分数越高,意味着图像越能反映“一个骑摩托车的女人”这一提示词。

2. 物体一致性 (Object Consistency)

其次,我们需要确保模型没有幻觉出新物体或删除现有物体。如果原始图像有一个冲浪板,合成图像也必须有一个冲浪板。他们使用预训练的物体检测器来比较合成图像 (\(x_{synthetic}\)) 与原始图像 (\(x_{original}\)) 中发现的物体。

使用 F1 分数的物体一致性方程。

他们计算两幅图像中检测到的物体的 F1 分数 。 如果分数很高,说明场景的语义内容得到了保留。

3. 色彩保真度 (Color Fidelity)

最后,生成模型通常会引入其自身的色彩偏见 (例如,让女性的图片更亮或更柔和) 。为了防止模型学习这些新的基于颜色的偏见,研究人员比较了原始图像和合成图像的颜色统计数据。

使用弗罗贝尼乌斯范数的色彩保真度方程。

他们将图像下采样到 \(14 \times 14\) 像素 (以关注整体色调而非细节) ,并使用弗罗贝尼乌斯范数 (Frobenius norm) 计算差异。我们要使差异最小化 (或使逆分数最大化) 。

过滤器实战

为什么这些过滤器是必要的?下图展示了当修复出错与正确时的对比。

不同过滤标准下最佳与最差修复图像的比较。

Figure 4 中,请看“Object Consistency” (物体一致性) 一栏。“最差 (Worst) ”的图像完全丢失了人物手中的物体。如果我们用那样的数据进行训练,模型可能会学到“当女性出现时,物体 X 会消失”,从而引入新的偏见。通过过滤器选出的“最佳 (Best) ”一行,则准确地保留了姿势、物体和光照。


构建数据集: 合成 vs. 增强

一旦图像生成并过滤完毕,我们该如何使用它们?论文探讨了两种策略。

策略 1: 增强 (\(S_{\text{augment}}\))

直观的方法是保留真实数据,并添加合成数据来平衡它。 结合真实数据和合成数据的 S_augment 方程。 在这里,数据集包括原始真实图像 \(\mathcal{D}\) 加上针对未出现群体的合成反事实图像。

策略 2: 纯合成 (\(S_{\text{synthetic}}\))

激进的方法是完全丢弃真实的人物图像。 仅使用合成数据的 S_synthetic 方程。 在这个策略中,用于训练的每张图像都是合成生成的 (源自真实图像) 。如果你有一张男人骑自行车的照片,你会生成一张合成男人骑自行车和一张合成女人骑自行车的照片,并用这些进行训练。你使用原始照片。

为什么要丢弃真实数据? 继续阅读以寻找答案——这是论文中最令人惊讶的发现。


实验与结果

研究人员在两个主要任务上测试了他们的方法: 多标签分类 (识别场景中的物体) 和图像描述 (描述场景) 。他们使用了 COCO 数据集,这是计算机视觉领域的标准基准。

视觉结果

首先,让我们看看定性的差异。

基线模型与所提出方法的预测对比。

Figure 1 中:

  • Image 1 (长椅): 基线模型看到一个女人并预测有“手提包 (Handbag) ”,即使实际上并没有。这是一种幻觉偏见。所提出的方法正确地只看到了人和长椅。
  • Image 3 (飞盘): 基线模型看到一个人在跳跃,并预测是“滑板 (Skateboarding) ”,这在数据集中是与男性高度相关的运动。所提出的方法正确地识别出了“飞盘 (Frisbee) ”。

定量结果

下表详细列出了分类任务的表现。他们测量了 mAP (准确率) 和两个偏见指标: Ratio (比率) (预测向特定性别倾斜的程度,理想值为 1) 和 Leakage (泄露) (模型泄露了多少不该泄露的受保护群体信息) 。

展示分类性能和偏见分数的 Table 1。

从 Table 1 中得出的关键结论:

  1. 原始数据 (Original): 高偏见。Ratio 为 6.3,意味着严重倾斜。
  2. 过采样 (Over-sampling, 传统方法): 稍微改善了偏见 (Ratio 3.8),但损害了准确率 (mAP 从 66.4 降至 62.6)。
  3. \(S_{\text{synthetic}}\) (我们的方法): 这是赢家。Ratio 降至 1.1 (几乎完美的公平性) ,且 mAP 保持在 66.0 的高位。

纯合成数据集在没有破坏模型实用性的情况下,实现了最先进的偏见减少效果。


“合成伪影”陷阱

你可能已经在 Table 1 中注意到,\(S_{\text{augment}}\) (混合真实和虚假数据) 在偏见指标上的表现比 \(S_{\text{synthetic}}\) 差。为什么?

这是使用生成式 AI 的一个重要教训。

即使有很好的过滤器,合成图像也有细微的“伪影 (artifacts) ”——微小的像素级瑕疵或平滑度,使它们区别于真实照片。

如果你创建一个包含以下内容的数据集:

  • 真实的男性骑摩托车照片
  • 合成的女性骑摩托车照片

AI 模型很聪明 (也很懒) 。它会意识到: “我不需要寻找女人。我只需要寻找合成像素伪影。如果图像看起来是假的,就预测‘女人’。如果看起来是真的,就预测‘男人’。”

研究人员通过在特殊测试集上测试模型证明了这一假设。

原始与修复后的测试图像显示不一致的预测。

Figure 3 中,请看 \(S_{\text{augment}}\) 下的预测。

  • 对于 原始 (Original) 图像 (左) ,它预测“一个男人”。
  • 对于同一张图像修复 (Inpainted) 版本 (右) ,它预测“一个女人”,即使视觉内容暗示是一个男人。

在混合数据 (\(S_{\text{augment}}\)) 上训练的模型学会了将“修复后的外观”与少数群体联系起来。

解决方案: 通过使用 \(S_{\text{synthetic}}\),所有图像——无论是男性还是女性——都具有相同的合成伪影。模型再也无法利用“虚假感”作为猜测性别的捷径。这创造了一个公平的竞争环境。


结论与启示

这篇论文展示了我们对“数据清洗”思考方式的重大转变。我们不再仅仅是重新加权现有的数据,而是正在进入一个可以通过制造所需数据来反映我们想要的公平性的时代。

给学生的关键启示:

  1. 标签是不够的: 仅仅平衡标签无法修复偏见,因为偏见隐藏在未标记的特征 (背景、颜色) 中。
  2. 生成式 AI 是实现公平的工具: Inpainting 允许我们在改变特定属性的同时冻结上下文,有效地隔离我们想要去偏见的变量。
  3. 警惕伪影: 混合真实和合成数据是危险的。它会产生一种新的虚假相关性,即“合成特征”成为少数类的代理。
  4. 过滤器是强制性的: 你不能信任原始的生成输出。严格的数学过滤 (如 CLIPScore 等) 对于保证数据质量至关重要。

随着生成模型的进步,这种“合成数据”方法很可能成为机器学习流程的标准组成部分,使我们要训练出的模型不仅准确,而且具有社会责任感。