简介

想象一下,给最先进的 AI 展示一张毛茸茸的灰白色狗狗的照片。模型立即开始运作,描述狗狗的尖耳朵、卷曲的尾巴以及毛发的质感。它甚至可能告诉你这是一种忠诚的伴侣犬。但是当你问: “这具体是什么品种?”时,模型自信地回答: “这是一只萨摩耶。”

问题出在哪里?实际上这是一只荷兰毛狮犬 (Keeshond) 。

这个场景凸显了现代人工智能的一个关键缺陷。尽管大型视觉语言模型 (LVLM) ——如 LLaVA、GPT-4V 或 Gemini——展示了令人难以置信的推理和描述能力,但它们经常在看似简单的任务上栽跟头: 细粒度物体分类 。 它们可以解释图像的语境,但无法识别其中的具体实体

在本文中,我们将深入探讨论文《African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification》 (非洲燕子还是欧洲燕子?大型视觉语言模型细粒度物体分类基准测试) 。这篇论文的研究人员认为,识别特定的动物、植物或人造物体是一项基本技能,但在当前的评估基准中却被忽视了。为了解决这个问题,他们推出了 FOCI (细粒度物体分类) ,这是一个严格的基准测试,旨在通过现有数据集构建,以揭示当前多模态模型的局限性。

“这是什么?”的问题

在理解解决方案之前,我们必须了解为什么评估大型语言模型的物体分类能力如此困难。

在传统的计算机视觉中,分类很简单: 模型有一个固定的列表,包含 1,000 个类别 (如“金毛寻回犬”、“烤面包机”、“交通信号灯”) ,并输出每个类别的概率分数。然而,LVLM 是生成式的。它们生成文本。如果你问 LVLM“这是什么?”,你会遇到两个主要问题:

  1. 同义词问题 (The Synonym Problem) : 如果模型说“Wolfspitz” (狼狮犬,即荷兰毛狮犬的别称) 而标准答案是“Keeshond”,模型实际上是正确的 (它们是同一个品种) 。但自动化评估脚本可能会将其标记为错误。
  2. 粒度问题 (The Granularity Problem) : 如果模型说“狗”,它是技术上正确的。如果它说“施皮茨犬 (Spitz) ”,也是正确的。但这两种答案都不能证明模型能够区分荷兰毛狮犬和博美犬。提示词“这是什么?”对于预期的详细程度来说太模糊了。

以前的基准测试试图通过开放式问答 (QA) 来解决这个问题,但这导致了模糊的结果。本文的研究人员提出了一种策略转变: 多项选择题。

核心方法: 构建 FOCI 基准

研究人员开发了 FOCI,旨在测试细粒度识别能力,同时避免开放式生成的歧义。然而,为 AI 创建多项选择题比听起来要难。如果选项是“A. 大象,B. 烤面包机,C. 荷兰毛狮犬,D. 月亮”,模型无需真正知道荷兰毛狮犬长什么样就能轻松猜出答案。

为了使基准测试成为真正的能力测试,干扰项 (错误答案) 必须具有难度。

利用 CLIP 挖掘困难负样本

FOCI 构建的核心创新在于它如何选择错误答案。研究人员利用 CLIP 模型 (对比语言-图像预训练) 来“挖掘”困难负样本。

CLIP 是一个经过训练能够理解图像与文本描述之间紧密程度的模型。过程如下:

  1. 输入: 特定物体的图像 (例如,一只荷兰毛狮犬) 。
  2. 比较: 系统将图像与所有可能的类别标签的大型池进行比较。
  3. 选择: 它识别出正确的标签,然后根据 CLIP 的判断,找出与图像语义最接近的三个错误标签。

通过多项选择测试 LVLM 的物体分类能力。

如图 2 所示,系统拍摄了一张荷兰毛狮犬的图像。CLIP 模型分析图像并按相似度对文本标签进行排序。它发现“萨摩耶”和“波斯猫” (可能指的是猫,或者由于毛发质感而被错误关联) 是接下来最匹配的项。这些就成了干扰项。

最后,LVLM 会收到提示: “这是什么?A. 波斯猫,B. 萨摩耶,C. 荷兰毛狮犬,D. 博美犬。” 这迫使模型做出细粒度的区分,而不是笼统的猜测。

数据集收集

FOCI 基准汇集了九个不同的数据集,确保了领域的广泛性:

  1. 标准数据集: 涵盖特定领域的五个流行现有数据集:
  • FGVC-Aircraft: 100 种飞机型号。
  • Flowers102: 102 种花卉。
  • Food101: 101 种菜肴。
  • Oxford-Pet: 37 种猫和狗的品种。
  • Stanford-Cars: 196 种汽车型号。
  1. ImageNet 子集: 为了增加难度,作者从庞大的 ImageNet-21k 数据库中构建了四个新数据集。他们利用 WordNet 层级结构确保了四个类别中的分类各不相同 (没有重叠的同义词) :
  • Animals (动物) : 1,322 个类别。
  • Plants (植物) : 957 个类别。
  • Food (食物) : 563 个类别。
  • Artifacts (人工制品/人造物体) : 2,631 个类别。

这种组合产生了一个基准,可以在数千个类别中测试识别能力,而不仅仅是常见的物体。

模型基准测试

研究人员评估了 12 个公开可用的 LVLM,包括 LLaVA、InstructBLIP 和 Qwen-VL 等流行模型。硬件限制将评估范围限制在参数约为 70 亿或更少的模型。

12 个受测的公开 LVLM 及其参数量和数据集大小。

表 1 (上图) 列出了测试的模型。注意“Pretrain” (预训练) 数据量的差异。有些模型 (如 LLaVA 1.5) 的预训练图像少于一百万张,而其他模型 (如 Qwen-VL 和 Idefics-2) 则使用了超过十亿张。正如我们将看到的,这种差异至关重要。

发现: 独特的技能集

最重要的发现之一是, FOCI 上的表现与其他著名基准测试的表现并不相关。

像 GQA 或 MMBench 这样的基准测试主要测试空间推理、OCR (读取图像中的文本) 或颜色识别。一个模型可能在这些“推理”任务上表现出色,但在命名一朵花时却一塌糊涂。例如,模型 Phi-3-Vision 在通用推理基准上表现顶尖,但在 FOCI 上表现平平。相反, Qwen-VL 在 FOCI 上占据主导地位,但在通用推理上稍显落后。

这证明了细粒度分类是一种互补技能。我们不能仅仅因为 AI 在推理方面很“聪明”,就假设它对世界上的物体也很“博学”。

CLIP 瓶颈

大多数开源 LVLM 是通过将预训练的 图像编码器 (通常是 CLIP 模型) 与 大型语言模型 (LLM) 拼接在一起构建的。图像编码器充当眼睛,LLM 充当大脑。

研究人员发现,“眼睛”通常比“大脑”聪明得多。

他们比较了完整 LVLM 的表现与作为其视觉编码器的独立 CLIP 模型的表现。由于 LVLM 依赖 CLIP 编码器来“看”东西,CLIP 模型的表现理论上应该是“上限” (最大可能得分) 。

比较 LVLM 准确率与 CLIP 零样本准确率的散点图。

图 3 揭示了一个严酷的现实。虚线代表 LVLM 完美利用其视觉编码器的理想情况。几乎每个数据点都明显低于这条线。这意味着信息在图像编码器和 LLM 之间的转换过程中丢失了。“眼睛”能看出比格犬和巴吉度猎犬的区别,但“大脑”在生成答案的过程中搞混了。

更令人担忧的是对编码器成功的依赖性。

基于 CLIP 正确性分析的三个 LVLM 在 ImageNet-1k 上的准确率。

图 4 显示,当 CLIP 编码器正确分类图像时 (蓝色条) ,LVLM 有相当大的机会答对。然而,如果 CLIP 编码器错了 (橙色条) ,LVLM 的准确率就会骤降至接近随机猜测的水平 (在 4 选项测试中约为 25%) 。这证实了当前的 LVLM 通常无法“纠正”其编码器犯下的视觉错误;它们几乎完全依赖提供给它们的视觉特征。

是什么让模型更擅长分类?

鉴于许多模型表现挣扎,研究人员进行了控制实验 (消融研究) ,以分离出究竟哪些因素能提高细粒度分类能力。他们测试了三个主要变量: LLM 规模、图像编码器质量和训练数据。

1. 大脑大小重要吗? (LLM 规模)

使用 MobileVLM v2 架构,他们训练了三个版本的模型,除了语言模型的大小 (17 亿、30 亿和 70 亿参数) 不同外,其他一切保持一致。

MobileVLM v2 在三种 LLM 规模下且训练相同的条件下的结果。

如图 5 所示,规模确实很重要。随着 LLM 变大,几乎所有数据集的性能都持续提高。更大的 LLM 可能在其参数中存储了更多的“世界知识”,帮助它们将视觉特征与特定名称联系起来 (例如,将“长耳朵”的视觉特征与“猎犬”这个词联系起来) 。

2. 更好的眼睛重要吗? (图像编码器)

研究人员随后采用标准的 LLaVA 架构并更换了图像编码器。他们比较了标准的 OpenAI CLIP (ViT-L/14) 与更高分辨率版本以及名为 SigLIP 的更强模型。

更换图像编码器后相对于基线的改进。

图 6 表明,简单地提高分辨率 (蓝色条) 产生的收益微乎其微。然而,切换到像 SigLIP 这样根本上更好的编码器 (橙色条) 会导致全面的大幅改进。原始视觉特征越好,LLM 对物体进行分类就越容易。

3. 训练数据的关键作用

也许最具可操作性的发现涉及这些模型是如何训练的。

LVLM 通常分两个阶段训练:

  1. 对齐预训练 (Alignment Pre-training) : 使用数百万个图像-标题对教 LLM 理解图像编码器的输出。
  2. 视觉指令微调 (Visual Instruction Tuning) : 针对特定任务 (QA、聊天等) 对模型进行微调。

研究人员对预训练阶段使用的数据进行了实验。他们发现 显式提及 是关键。

关于训练数据变更实验的结果。

表 3 强调了一个迷人的结果。研究人员将 ImageNet 中的图像添加到了训练数据中。

  • “Synthetic” (合成) : 他们使用了另一个 AI (BLIP) 生成的标题。这些标题具有描述性 (例如,“草地上的一只狗的照片”) ,但经常遗漏具体的物种名称。
  • “Template” (模板) : 他们使用了简单、甚至有些笨拙的模板,如“一张 [标签] 的照片。” (例如,“一张荷兰毛狮犬的照片”) 。

令人惊讶的是, Template (模板) 方法——尽管在语言学上很枯燥——导致了更好的分类性能 (在已见类别上提高了超过 5%) 。

这表明,对于细粒度分类,模型不需要华丽的描述;它需要视觉特征与特定类别名称之间建立强硬、明确的链接。如果训练数据仅将“萨摩耶”描述为“一只毛茸茸的白狗”,模型将永远学不会“萨摩耶”这个词。

结论与启示

论文《African or European Swallow?》对大型视觉语言模型的能力进行了现实检验。虽然这些模型口才极佳,但它们往往缺乏分类学、盘点或生物调查等专家级任务所需的精确、细粒度的知识。

FOCI 的创建为社区提供了一个急需的标尺来衡量这一特定技能。研究的主要结论很明确:

  1. 对齐差距: 当前模型未能充分利用其自身图像编码器的潜力。视觉信息就在那里,但 LLM 并没有清晰地接收到它。
  2. 数据质量重于数量: 你不一定需要数十亿张图像。你需要的是带有明确命名物体的标题的图像。“一只可爱的小狗”对于细粒度学习来说是无用的标题;“一只查理王小猎犬”则很有价值。
  3. 硬件依赖: 要构建更好的分类器,你需要更大的 LLM (用于世界知识) 和更强的图像编码器 (用于视觉辨别) 。

随着我们迈向能够与现实世界互动的 AI 智能体——识别机器中的零件、菜肴中的成分或野外的物种——像 FOCI 这样的基准测试对于确保我们的模型不仅是巧舌如簧的演说家,更是精准的观察者至关重要。