在计算机视觉飞速发展的世界里,我们通常认为“越多”就意味着“越好”。更多的数据、更多的参数,以及——最近出现的——更多的文字。

多年来,图像描述 (Image Captioning) 模型主要基于像 COCO 这样的数据集进行训练,其中的描述可能仅仅是一句简单的: “一只狗坐在椅子上。” 这很准确,但也同样干瘪。随着大型语言模型 (LLMs) 和多模态模型 (如 GPT-4V) 的兴起,研究人员发现了一个新技巧: 生成式图像描述丰富化 (Generative Caption Enrichment, GCE) 。 与其使用简短的人工撰写描述,不如让 LLM 生成细节详尽、长达一段话的描述。

这个逻辑听起来很有道理: 如果模型在更丰富、更具描述性的文本上进行训练,它应该能更好地理解图像,对吧?

根据 Hirota, Hachiuma, Yang 和 Nakashima 的一篇引人入胜的新论文,答案是“是的,但代价高昂”。他们的研究题为 “From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment” (从描述丰富性到偏见: 揭示生成式图像描述丰富化的阴暗面) , 揭示了虽然这些丰富的描述覆盖了更多的视觉细节,但也带来了显著的副作用: 社会偏见幻觉

在这篇文章中,我们将拆解他们的评估框架,分析描述性与准确性之间的权衡,并揭示为什么在这些“丰富”数据上训练的模型实际上可能正在学习变得更有偏见且更不诚实。

左图: 概述展示了“LLM 丰富化”的描述 (ShareGPT4V) 虽然涵盖了比标准 COCO 更多的内容 (描述中的物体以粗体显示) ,但也表现出了幻觉 (黄色部分) 和社会偏见,包括描述图像中不存在的性别以及可能的性别刻板印象句子 (紫色部分) 。右图: 标准描述与丰富化描述在描述质量、偏见和幻觉方面的比较。

转向生成式图像描述丰富化 (GCE)

要理解这个问题,我们需要先了解这项技术。传统数据集依赖于人工标注者编写简洁的句子。然而,收集数百万条详细的人工描述既昂贵又缓慢。

生成式图像描述丰富化 (GCE) 通过使用强大的 AI 模型来重写或为现有图像生成新描述,从而解决了这个问题。该论文考察了三种主流的 GCE 方法:

  1. ShareGPT4V: 使用 GPT-4 Vision 生成高度详细的描述。
  2. FuseCap: 使用物体检测器在图像中查找物品,然后使用 LLM (ChatGPT) 将这些物品融合连成通顺的句子。
  3. CapsFusion: 获取标准模型 (BLIP) 生成的描述,并使用 ChatGPT 将其与原始的简洁描述融合。

这些方法生成的描述在语义上非常丰富。但正如作者所问: 这会有负面副作用吗?

评估框架

研究人员建立了一个严格的实验,将标准描述 (COCO) 与上述三种方法生成的丰富描述进行比较。他们从三个维度衡量了性能: 质量社会偏见幻觉

1. 衡量质量

质量不仅仅关乎语法,更关乎内容。这里的主要指标是 召回率 (Recall) 。 它衡量的是图像中实际存在的物体有多少在文本中被提及。

召回率的公式,计算描述中提到的相关物体所占的比例。

在这里,\(r_i\) 是描述中提到的相关物体的数量,\(o_i\) 是图像中物体的总数。召回率越高,意味着描述越详细。

2. 衡量社会偏见

由于性别词汇在描述中频繁出现,作者特别关注 性别偏见 。 他们使用了三种不同的指标:

  • 性别错误 (Gender Error): 描述是否将女性称为“男性” (反之亦然) ?
  • LIC (语言-图像性别关联): 这个复杂的指标将基于描述训练的分类器与基于真实标签 (ground truth) 训练的分类器进行比较。如果基于描述的分类器依据刻板印象而非视觉证据变得“过于准确”,LIC 分数就会上升。高 LIC 表明模型依赖于性别刻板印象 (例如,假设在厨房里的人就是女性) 。
  • 召回差异 (Recall Disparity): 这项指标检查模型是否会根据图像中人物的性别而不同地关注物体。例如,如果男人戴领带,模型是否比女人戴领带时更频繁地提到“领带”?

召回差异的公式,衡量男性和女性图像之间物体召回率的差异。

3. 衡量幻觉

AI 中的幻觉是指生成了不基于现实的内容。在图像描述中,这意味着描述了图片中不存在的物体。作者使用了 CHAIR (Captioning HAllucination Assessment with Image Relevance) 指标。

CHAIR\(_i\) (实例级): 描述中提到的物体有多少百分比是不存在的?

CHAIR i 的公式,计算所有提及物体中幻觉物体所占的比例。

CHAIR\(_s\) (句子级): 有多少百分比的句子包含至少一个幻觉?

CHAIR s 的公式,计算包含幻觉的描述所占的比例。

实验: 上游与下游

这是论文方法论中最关键的部分。作者不仅观察了文本本身,还观察了文本的 影响

  1. 上游分析 (Upstream Analysis): 分析数据集本身。GPT-4V 或 FuseCap 生成的描述偏见有多大?
  2. 下游分析 (Downstream Analysis): 在这些丰富的数据集上训练一个新的图像描述模型 (BLIP) 并进行测试。模型是否会习得数据集的坏习惯?

结果: 丰富的代价

结果清晰地描绘了一种权衡。当我们追求更丰富的描述时,我们不经意间引入了偏见和不准确性。

观察 1: 描述越详细 = 偏见越深

数据显示出很强的相关性: 随着描述变得更加详细 (召回率更高) ,性别偏见也随之增加。

请看下面的图表。X 轴代表召回率 (描述性) ,Y 轴代表 LIC (偏见) 。你可以看到近乎完美的线性关系 (\(R^2 = 0.99\))。标准的 COCO 描述 (蓝点) 召回率低,但偏见也接近于零。ShareGPT4V (红点) 描述最详细,但偏见得分最高。

散点图显示 LIC (偏见) 与召回率之间存在很强的相关性。随着召回率增加,偏见倾向于显著增加。

为什么会这样?LLM 是在海量的互联网文本上训练的,其中包含社会刻板印象。当 LLM“丰富”描述时,它不仅仅看像素;它还依赖其内部的统计概率。如果它看到一个厨房,即使图像不支持,它也可能在统计上推断出女性的存在,或使用带有刻板印象的女性化形容词。

召回差异进一步突显了这种偏见。下表显示了特定物体被提及的频率如何取决于图像中人物的性别。

条形图显示不同视觉对象的召回差异。ShareGPT4V 在几乎所有类别中都显示出比 COCO 明显更高的差异。

注意“手提包 (Handbag)”类别。在标准 COCO 描述 (条纹柱) 中,差异很低。在 ShareGPT4V (实心柱) 中,存在巨大的有利于男性的差异 (这意味着相对于性别而言,手提包被提及的方式存在偏差,或者模型根据性别语境产生了幻觉) 。丰富的描述会根据持有者是谁而对物体进行不同的处理。

观察 2: 描述越详细 = 幻觉越多

这一趋势在幻觉方面仍在延续。LLM 写得越多,编造内容的可能性就越大。

散点图显示 CHAIRs (幻觉) 与召回率之间的相关性。较高的召回率与更多的幻觉相关。

标准 COCO 描述很少产生幻觉 (CHAIR\(_s\) 接近 0) 。然而,ShareGPT4V 的幻觉率超过 20%。当 LLM 试图围绕图像编写“故事”时,它经常会添油加醋——添加根本不存在的颜色、情感或背景物体。

观察 3: 放大效应 (下游)

也许最令人担忧的发现是当我们在这些数据上训练新模型时会发生什么。你可能希望模型能过滤掉噪音。相反,下游模型 放大 了这些问题。

让我们看看原始数据。

表 1: 上游和下游指标的比较。注意 ShareGPT4V 在偏见和幻觉方面的高数值。

在上表中,请看 Downstream (下游) 部分。在 ShareGPT4V 上训练的模型继承了高偏见 (LIC 14.3) 和高幻觉 (CHAIR\(_s\) 21.5) 。

这种放大效应在下面的差值表中更为明显。正数 (红色) 意味着训练后问题变得更严重。

表 2: 下游和上游之间的差异。红色表示偏见放大。

在丰富描述上训练的模型将性别偏见平均放大了 30.9% , 并将幻觉增加了 59.5% 。 这表明这些模型不仅仅是在记忆数据;它们正在将偏见和幻觉作为“模式”来学习和重复。

定性示例: 直击失效模式

为了具体说明,让我们看一些丰富描述失效的例子。

在下方的 图 5 中,对比 COCO 和 ShareGPT4V,我们可以看到“丰富性”的实际表现。ShareGPT4V 的描述长达一段。然而,请看黄色高亮显示的文本。它描述了一座“灰色屋顶的建筑物”和“复杂的建筑细节”。 看一眼图像 (底部) ,那只是一个模糊的背景,几乎不支持这种描述。模型正在产生细节幻觉,以使场景听起来更“完整”。

COCO 与 ShareGPT4V 之间的定性比较。丰富后的描述幻觉出建筑物细节和背景元素。

图 6 (FuseCap) 中,失效的情况更加离奇。在上图中,FuseCap 为一个滑水的人幻觉出了一面“红墙”和一条“多彩的领带”。 在下图中,它幻觉出一个站在附近的“戴黑眼镜的男人”,而照片中根本不存在这个人。这是一个典型的案例: 模型基于概率预测餐厅场景中 通常 会出现什么,而不是坚持描述实际可见的内容。

COCO 与 FuseCap 之间的定性比较。FuseCap 幻觉出了根本不存在的整个人物和衣物。

结论: 双刃剑

这项研究为计算机视觉社区亮起了一个至关重要的“检查引擎”指示灯。我们目前正处于一个误认为使用 LLM 扩展数据集是唾手可得的胜利的时代。

作者总结道,虽然 生成式图像描述丰富化 (GCE) 确实提高了描述的丰富程度 (更高的召回率) ,但它引入了“阴暗面”:

  1. 加剧性别偏见: LLM 将刻板印象注入到图像描述中。
  2. 增加幻觉: 对细节的追求导致了捏造。
  3. 下游放大: 在此数据上训练的模型不仅复制了这些错误;还放大了它们。

我们应该怎么做?

作者建议我们不能仅仅依赖自动化丰富技术。我们需要:

  • 人在回路 (Human-in-the-loop) 系统: 用于验证和修正 LLM 的输出。
  • 更好的指标: 我们需要将偏见和幻觉作为标准实践来衡量,而不仅仅是关注召回率或准确性。
  • 平衡: 我们必须在描述的丰富性和事实的完整性之间取得平衡。

当我们构建下一代视觉语言模型时,我们必须记住: 一图胜千言,但前提是这些言语必须是真实的。