人工智能存在偏见问题。如果你让一个标准的文生图 (Text-to-Image, T2I) 模型生成一张“CEO”的照片,它很可能会向你展示一位穿着西装的白人男性。如果你要求生成“护士”,它很可能会展示一位女性。为了打破这些刻板印象,开发者引入了“多样性干预措施 (diversity interventions) ”——这是一种隐藏指令,提示模型在输出中注入性别和种族的多样性。

但是,当我们把这些现代的多样性标准应用到特定的历史事件时,会发生什么呢?

试想一下,要求 AI 描绘“美国开国元勋”。一张符合历史事实的图像应该描绘一群白人男性。然而,一个在全面多样性干预下运行的模型可能会生成一张包含女性和有色人种签署《独立宣言》的图像。虽然初衷是好的,但这种输出在历史上是不符合事实的。

这种现象正是加州大学洛杉矶分校 (UCLA) 的研究人员所称的 “事实性税” (Factuality Tax) 。 在他们最近发表的论文 The Factuality Tax of Diversity-Intervened Text-to-Image Generation 中,他们探讨了促进社会多样性与保持历史准确性之间的权衡。他们引入了一个新的基准 DoFaiR 来衡量这个问题,并提出了一种新的方法 事实增强干预 (Fact-Augmented Intervention, FAI) 来解决它。

在本文中,我们将深入探讨多样性提示词如何扭曲历史现实,研究人员如何衡量这种扭曲,以及他们提出的巧妙的检索增强解决方案是如何修复这一问题的。


核心问题: 多样性 vs. 事实性

这种张力存在于两个理想的目标之间: 代表性准确性

像 DALL-E 3 和 Stable Diffusion 这样的文生图模型是在海量的互联网数据集上训练出来的,这些数据包含了根深蒂固的社会偏见。如果不加干预,这些模型会强化刻板印象。行业标准的解决方案是在后台将“多样性提示词”附加到用户的查询中——比如“确保不同种族和性别的代表性”这样的指令。

然而,这些干预往往是“盲目”的。它们对“一群现代工程师”的提示词和对“19 世纪荷兰殖民军队”的提示词应用了相同的逻辑。

正如 图 1 所示,这导致了一个两难境地。

图 1: 示例展示了 DALL-E 3 在接收符合历史人口统计的提示词但经过干预修改后,如何输出不符合事实的结果。

在上方的例子中,默认模型生成了开国元勋的符合历史事实 (factual) 的描绘。在下方的例子中,多样性干预 (“无论他们的肤色或种族如何”) 导致模型生成了一张不符合事实的图像。研究人员提出了一个关键问题: 实现多样性是否需要我们要支付事实性的税?


打造衡量标准: DoFaiR 基准

为了定量地回答这个问题,研究人员需要一个数据集。他们不能仅仅依赖轶事证据;他们需要一个严格的基准,其中包含人口统计特征为已知事实的历史事件。

他们创建了 DoFaiR (DemOgraphic FActualIty Representation,人口统计事实性表征) ,这是一个包含 756 个精心制作条目的基准。每个条目包含一个历史事件、一个参与者类别 (例如“开国元勋”) 以及基准事实 (ground-truth) 的人口统计分布。

数据构建流程

手动创建这个数据集将极其缓慢。相反,作者设计了一个复杂的自动化流程,涉及大型语言模型 (LLM) 和网络检索。

图 3: DoFaiR 的数据构建流程。我们采用迭代循环,首先从种子信息生成历史事件和参与者,然后创建查询以检索事实信息,最后利用事实知识来标注参与者的基准事实人口统计分布。

该流程分三个阶段运行:

  1. 事件与参与者生成: 一个 LLM 生成不同时期 (从 1700 年代至今) 和不同文化背景 (非洲、亚洲、欧洲、美洲) 的历史事件列表。
  2. 事实检索: 系统生成搜索查询,以查找这些事件参与者的人口构成。它从维基百科检索文档以确保可靠性。
  3. 事实标注: 另一个 LLM 阅读检索到的文档,以确定 主导 (Dominant) 群体 (例如: 白人、男性) 和 相关 (Involved) 群体 (例如: 白人、黑人、男性) 。

这一过程确保了数据集在不同地区和时期之间的平衡,防止基准本身对西方历史产生偏见。

图 4: DoFaiR 中的性别和种族分布。

图 4 所示,生成的数据集涵盖了广泛的种族和性别分布,确保评估不仅测试模型处理多样化 输出 的能力,还能测试其处理多样化 事实 的能力。为了复核质量,人类专家验证了部分数据,发现自动标注的准确率很高 (>92%) 。

表 1: 人工验证确认了数据集的高质量。


评估流程

有了数据集,研究人员需要一种方法来为 T2I 模型打分。如何衡量一张图像的“事实性”?

评估过程如 图 2 所示,包括为特定历史事件生成图像,然后使用计算机视觉分析该图像中的人脸。

图 2: DoFaiR 评估流程。

流程如下:

  1. 提示词 (Prompt) : 输入历史事件 (如“美国建国”) 和参与者类别。
  2. 生成 (Generation) : T2I 模型 (如 DALL-E 3) 生成图像。
  3. 人脸检测 (Face Detection) : 系统识别图像中的所有人脸。
  4. 人口统计分类 (Demographic Classification) : FairFace 分类器分析每张脸以预测其种族 (白人、黑人、印度人、东亚人等) 和性别。
  5. 对比 (Comparison) : 将预测的分布与 DoFaiR 数据集中的基准事实进行比较。

指标: 计算“税”

为了量化“税”,作者定义了四个特定的数学指标。这些公式有助于将视觉错误转化为确凿的数字。

1. 主导人口统计准确率 (Dominant Demographic Accuracy, DDA): 这衡量模型是否正确识别了多数群体。对于开国元勋,如果图像显示的大多是白人男性,则 DDA 很高。

DDA 公式

2. 相关人口统计准确率 (Involved Demographic Accuracy, IDA): 这更为严格。它问的是: 模型是否包含了 所有 在场的群体,并排除了那些不在场的群体?

IDA 公式

3. 相关人口统计 F-1 分数 (Involved Demographic F-1 Score, IDF): 这是一个平衡分数,既考虑了精确率 (不生成错误的群体) ,也考虑了召回率 (不遗漏正确的群体) 。

IDF 公式

4. 事实多样性偏离度 (Factual Diversity Divergence, FDD): 这是本研究独有的指标。它衡量图像中的多样性与现实中的多样性之间的 差异。FDD 分数高意味着模型在历史上不存在多样性的地方“强行”加入了多样性。

FDD 公式


结果: 干预的代价

研究人员测试了两个主要模型: Stable Diffusion v2.0DALL-E 3 。 他们将基线 (无干预) 与专门设计用于提升多样性的提示词 (例如“无论肤色”) 进行了比较。

定量结果令人震惊。

表 2: 定量实验结果。每个模型在每个人口统计维度上的最佳事实性表现以粗体显示。

数据中的关键结论:

  1. “税”是真实存在的: 观察表格,当应用多样性干预时 (标记为 “Diversity Intervention” 的行) ,与基线相比, DDA (准确率) 显著下降。对于 DALL-E 3 的种族数据,准确率从大约 77% 下降到了 72%。
  2. 多样性激增: FDD (偏离度) 分数飙升。这证实了模型插入了历史上并不存在的人口群体。
  3. 种族比性别更难处理: 模型在种族事实性方面比性别事实性方面更吃力。种族分布的错误率始终较高。

定性分析 (查看实际图像) 强化了这些数字。在 图 5 中,图表显示在许多多样性增加的案例中,正确性下降了。

图 5: 应用多样性干预后 DALL-E 3 事实性变化的定性分析。

图 6 提供了这些失败案例的直观例子。在左下角,“卡拉波波战役 (Battle of Carabobo) ”主要涉及黑人参与者,但多样性干预插入了白人和其他非黑人士兵,实际上 稀释 了该事件的历史多样性。这是一个至关重要的讽刺: 盲目的多样性干预有时会抹杀真正的历史多样性。

图 6: 多样性干预提示词如何提升 DALL-E 3 生成内容中的种族和性别多样性,但以牺牲人口统计事实性为代价的定性示例。


解决方案: 事实增强干预 (FAI)

简单地关闭多样性干预并不是一个好的解决方案,因为我们仍然希望避免在非历史或一般背景下的偏见。研究人员提出了一种更明智的方法: 事实增强干预 (Fact-Augmented Intervention, FAI)

这个想法是在模型绘图之前给它上一堂“历史课”。

为什么“一步步思考”失败了

首先,他们尝试了一种名为“思维链” (Chain-of-Thought, CoT) 的标准技术,提示模型“一步步思考”人口统计问题。如 图 7 (第二列) 所示,这失败了。模型可能会正确推断出一个群体全是男性,但强烈的多样性指令会覆盖这一逻辑,最终还是导致了不符合事实的图像。

图 7: 示例展示了所提出的 FAI 方法如何成功地用事实知识增强干预提示词,从而提高生成内容的人口统计事实性,而 CoT 未能实现符合事实的结果。

FAI 方法

研究人员开发了两种事实增强干预的变体:

  1. FAI-VK (语言化知识) : 他们要求一个 LLM (如 GPT-4) 访问其内部训练数据,确定事实性的人口统计分布,并为图像生成器编写特定的指令。

  2. FAI-RK (检索到的知识) : 这是更稳健的版本。系统检索关于该事件的实际维基百科文档,总结人口统计事实,然后 构建图像生成器的提示词。

用于这些干预的提示词非常明确且基于证据。

表 6: 两种 FAI 方法使用的提示词。

这行得通吗?

是的。回顾 表 2 , 标记为 + FAI-RK 的行显示了最高的准确率分数,通常甚至击败了基线。

  • DALL-E 3 (种族): FAI-RK 方法实现了 69.46% 的相关人口统计准确率 (IDA),而标准多样性干预仅为 56.39%。
  • 事实多样性: 关键是, FDD (偏离度) 分数降至接近于零或非常低,这意味着图像中的多样性与实际历史的多样性相匹配。

图 8 展示了并排的改进效果。在“荷兰殖民军队”一栏中,多样性干预错误地插入了女性。FAI-RK 方法正确地识别出这是一支全男性的军队,并生成了符合历史事实的图像,同时保持了较高的视觉质量。

图 8: 定性对比。

关于模型局限性的说明

有趣的是,研究人员只能将 FAI 应用于 DALL-E 3。当他们尝试对 Stable Diffusion 使用这些长而复杂、基于事实的提示词时,模型崩溃了。如 图 9 所示,Stable Diffusion 难以处理长上下文,导致了扭曲的、噩梦般的图像。这凸显了要使“智能”干预起作用,底层的图像模型需要具备强大的语言理解能力。

图 9: 长上下文对 Stable Diffusion 质量的影响。


结论与启示

“事实性税”是 AI 对齐中“意外后果法则”的一个迷人案例研究。在我们急于修复 T2I 模型的社会偏见时——确保它们不仅仅向我们展示白人男性医生——我们无意中破坏了它们准确再现历史的能力。

这篇论文对该领域做出了三个重要贡献:

  1. DoFaiR: 一个终于允许我们系统地衡量人口统计事实性的基准。
  2. 量化: 证明了当前的多样性干预措施使历史准确性降低了超过 11%。
  3. FAI: 一种使用检索增强生成 (RAG) 原理使图像生成与历史事实保持一致的成熟方法。

更广泛的启示很明确: 上下文很重要。“一刀切”的多样性提示词对于需要驾驭复杂人类历史的模型来说过于生硬。通过将图像生成器与知识检索系统 (FAI-RK) 相结合,我们可以朝着既具有社会责任感又忠于历史的 AI 迈进。我们可以在反映现实的地方拥有多样性,在历史需要的地方拥有准确性。