当你向 CLIP 这样的现代 AI 模型展示一张金毛寻回犬的照片,并且它正确地将其识别为“狗”时,我们很容易对它是如何做到这一点的做出假设。我们自然而然地认为模型“看到”了耷拉的耳朵、金色的皮毛和口鼻部。我们假设它将图像的视觉特征与“狗”这个词固有的视觉描述进行了匹配。

但如果我们错了呢?如果模型根本没在看那只狗,而是在寻找某种数字水印呢?或者,如果它识别出那是只狗,并非因为它的形状,而是因为它“知道”这是一种生活在北美郊区的宠物呢?

一篇题为 “If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions” (如果 CLIP 能说话: 通过首选概念描述理解视觉语言模型表征) 的引人入胜的研究论文深入探讨了这个问题。研究人员开发了一种新颖的方法来审视视觉语言模型 (VLMs) ,以此找出它们实际上关注的是什么。结果令人惊讶: 这些模型通常依赖“虚假 (spurious) ”文本 (如“点击放大”) 或非视觉事实 (如栖息地) ,而不是我们期望它们看到的物理属性。

在这篇文章中,我们将剖析他们的方法——“提取与探索 (Extract and Explore) ”,并看看当我们迫使这些黑盒模型通过描述揭示其秘密时会发生什么。

视觉语言模型的黑盒

对比学习视觉语言模型 (VLMs) ,如 CLIP、ALIGN 和 SigLIP,已经彻底改变了 AI 领域。它们是在互联网上海量的图像-文本对上训练出来的。训练目标简单而强大: 在数学上的“嵌入空间”中将图像及其对应的文本拉近,同时推开不相关的文本和图像。

然而,要理解这些模型学到了什么是非常困难的。先前的研究表明,VLMs 在需要物理世界知识的任务上表现良好,但也显示它们可能实际上并未优先考虑形状或颜色等视觉属性。如果它们不看视觉属性,那它们在看什么?

直接询问模型是不可能的,因为 VLMs 不会“说话”——它们只输出数字 (向量) 。为了弥补这一差距,研究人员引入了一个名为 EX2 (Extract and Explore,提取与探索) 的框架。

方法: 提取与探索 (EX2)

EX2 的核心思想非常精妙: 既然 VLM 不会说话,那就训练一个大型语言模型 (LLM) 来替它说话。

图 1 所示,该过程包含两个阶段:

  1. 提取 (Extract) : 使用强化学习 (RL) 来教导一个 LLM (具体使用的是 Mistral-7B) 生成 VLM “偏好”的描述。
  2. 探索 (Explore) : 分析这些生成的描述,以了解 VLM 优先考虑哪些特征。

图 1: 提取: 我们将 Mistral 与 VLM 的偏好对齐,并生成包含对 VLM 很重要的特征的描述。探索: 我们从各个方面检查这些描述,以识别有助于 VLM 表征的特征。

阶段 A: 提取偏好

研究人员不想将搜索范围限制在预定义的颜色或形状列表中。相反,他们希望 LLM 能够自由地生成描述。他们使用了 25 个多样化的问题 (例如“[概念]的照片看起来像什么?”或“写一个关于[概念]的故事”) 来提示 LLM。

这里的关键机制是 强化学习 (RL) 。 他们建立了一个反馈循环,LLM 生成描述,VLM (例如 CLIP) 对其进行评判。

图 2: 提取与探索 (EX2) 概览。A) 我们使用 RL 微调 LLM,以生成在 VLM 嵌入空间中与相应图像更接近的概念描述。B) 我们从各个方面检查这些描述。

VLM 如何评判文本?通过基于 余弦相似度 的奖励函数。如果生成的文本在 VLM 的嵌入空间中落在接近该概念实际图像的位置,LLM 就会获得高额奖励。这有效地将 LLM 与 VLM 的世界观对齐。如果 VLM 认为“点击放大”是对一朵花最好的描述,LLM 就会学会说“点击放大”。

该奖励函数的数学公式如下所示:

奖励函数公式

这里,\(R(d_c)\) 是描述的奖励。它计算描述嵌入 \(\Phi_T(d_c)\) 与图像集 \(D_c\) 的嵌入之间的平均余弦相似度。还有一个惩罚项 (KL 散度) ,以确保 LLM 不会偏离生成连贯英语的目标太远。

阶段 B: 探索结果

一旦 LLM 对齐完成,它就充当了一面镜子,反映了 VLM 的偏好。研究人员针对各种概念 (鸟类、花卉、汽车等) 生成了数千种描述并进行了分析。

为了处理海量的文本,他们使用 ChatGPT 作为自动检查员。他们设计了特定的提示词,将描述分为三类:

  1. 虚假 (Spurious) : 不提供关于概念的任何真实信息的文本 (例如,“3 张照片中的第 1 张”) 。
  2. 包含信息的-视觉 (Informative - Visual) : 描述物理外观的文本 (例如,“一种红色的鸟,喙很短”) 。
  3. 包含信息的-非视觉 (Informative - Non-Visual) : 描述照片中不可见事实的文本 (例如,“这种鸟迁徙到南美洲”) 。

表 17: ChatGPT 用于确定描述是否提供有关相应概念的额外信息的提示模板。

这有效吗?

在分析学到了什么之前,研究人员必须验证 LLM 实际上是否学到了有用的特征。他们通过使用生成的描述来对图像进行分类测试了这一点。

结果如 表 2 所示,是积极的。在大多数情况下 (42 个实验中的 33 个) ,对齐后的 LLM 生成的描述比标准的通用模板 (如“一张…的照片”) 实现了更高的分类准确率。

表 2: LLM 成功学习 VLM 偏好并提高分类准确率的实验中,信息性描述的百分比。

这证实了该方法是有效的: LLM 成功提取了帮助 VLM 识别图像的特征。现在,紧迫的问题是: 这些特征是什么?

发现 1: “虚假描述”问题

最令人震惊的发现之一是 VLM 对 虚假描述 (spurious descriptions) 的依赖。这些描述完全不包含关于概念本身的知识,但却能帮助模型识别图像。

例如,当分析 Flowers 数据集上的标准 CLIP 模型时,很大一部分“首选”描述都是虚假的。

图 3: CLIP 在 Flowers 数据集上的对齐描述细分。CLIP 显著依赖虚假或非视觉信息来表示花卉种类。

如上方的 图 3 所示,CLIP 对花卉的首选描述中,近 45% 是虚假的。

虚假文本长什么样?它通常类似于元数据、文件名或网站残留信息。下方的表 11 提供了一些具体例子。看看“曼陀罗 (thorn apple) ”这一条——模型更喜欢重复的标题结构,而不是视觉描述。对于“麦道 DC-9-30”,它更喜欢看起来像文件说明的文本。

表 11: 虚假、非视觉和视觉描述的示例。

为什么会发生这种情况? VLM 是在网络数据 (图像-文本对) 上训练的。如果某种特定的鸟类通常出现在某个总是使用“点击放大”作为说明文字的业余爱好者网站上,模型就会学会将这种鸟的图像与“点击放大”这个文本联系起来。这是一种捷径——也是 AI 界的“聪明的汉斯”时刻,即 AI 因为错误的原因得到了正确的答案。

发现 2: 非视觉的意外

即使描述包含信息的 (即非虚假的) ,它们通常也没有描述物体的外观。

研究人员发现,VLM 显著依赖 非视觉属性 。 例如,知道一种鸟“原产于北美” (栖息地) 对模型来说可能比知道它有“黄色的翅膀”更重要。

表 4 强调了这一趋势。在几个数据集中,包含视觉属性的信息性描述不到 25%。

表 4: 包含视觉属性的信息性描述的百分比。

这挑战了 VLM 正在“看”图像的直觉。相反,它们似乎是在进行上下文匹配。如果图像包含与“北美”相关的背景元素 (如特定类型的树或栅栏) ,模型可能会利用这种地理背景来识别鸟类,而不是识别鸟类本身。

发现 3: 不同的模型,不同的个性

并非所有的 VLM 都以同样的方式“思考”。研究人员比较了几种流行的模型 (CLIP, ALIGN, SigLIP 等) ,发现每种模型都有独特的偏好。

图 4 可视化了 CLIP 与 ALIGN 偏好的属性。

  • CLIP (在 Flowers 数据集上) : 优先考虑“科 (Family) ” (分类学分类) 和“大小”。
  • ALIGN (在 Flowers 数据集上) : 优先考虑“部位” (花瓣、茎) 和“颜色”。

图 4: CLIP 和 ALIGN 在 CUB 和 Flowers 数据集上最常描述的属性。不同的 VLM 优先考虑不同的属性来表示概念。

这意味着即使两个模型具有相似的准确率,它们也是通过不同的表征方式实现的。

SigLIP 的案例

SigLIP 提供了也许是最有趣 (也是最令人担忧) 的定性结果。SigLIP 是在名为 WebLI 的数据集上训练的,该数据集严重依赖 OCR (光学字符识别) 文本。结果,SigLIP 对看起来像照片来源、网站足迹甚至个人故事的文本有强烈的偏见。

表 8 中,我们可以看到为 CLIP 与 SigLIP 生成的描述的对比。

  • CLIP 将“黄嘴杜鹃”描述为一种具有深色羽毛的中型鸟类。 (视觉/事实) 。
  • SigLIP 偏好: “黄嘴杜鹃的照片。这张图片下载自美国鱼类及野生动物管理局网站……” (虚假/元数据) 。

表 8: 针对 CLIP 和 SigLIP 对四个不同查询生成的对齐描述。

在 RL 训练过程中,这些描述的演变过程也颇具启示性。 表 13 展示了 LLM 如何随着时间的推移调整其对“吉娃娃”的描述以取悦 SigLIP。

它从事实性描述开始。到了第 400 步,它漂移到了 “吉娃娃是我最喜欢的狗……”。到了第 999 步,它收敛到了一个离奇具体的个人轶事: “这是我的吉娃娃狗 Huey 的照片,它几年前在十一岁时去世了……”

表 13: 针对同一查询,CLIP 和 SigLIP 的描述在训练过程中如何变化的示例。

这表明 SigLIP 强烈地将吉娃娃与关于宠物去世的个人博客文章或社交媒体标题联系在一起,而不是狗本身的视觉特征。

为什么这很重要

这篇研究论文为我们如何解读视觉语言模型敲响了警钟。 提取与探索 (Extract and Explore) 方法表明,基准测试的高性能并不意味着模型在以我们希望的方式进行推理。

  1. 可靠性: 如果一个模型因为“点击放大”这个伪影而识别出一朵花,那么当它被部署到现实世界中且该伪影缺失时,它就会失效。
  2. 数据集卫生: 这些发现凸显了训练数据的影响。SigLIP 充满 OCR 内容的数据导致模型沉迷于网站元数据。未来的数据集整理需要考虑到这一点,以防止模型学习这些捷径。
  3. 非视觉依赖: 对栖息地和起源故事的依赖表明,VLM 正在捕捉场景上下文和相关性,而不是严格的“物体识别”。

通过迫使这些模型通过对齐的 LLM“说话”,我们终于可以透过它们的眼睛看世界——结果证明,它们阅读说明文字比看图片的成分更多。