打破幻觉：为何 MLLM 在细粒度视觉定位上举步维艰

引言

在人工智能飞速发展的世界里，像 GPT-4V 这样的多模态大语言模型 (MLLM) 以其谈论图像的能力让我们眼花缭乱。你可以上传一张冰箱的照片，模型就能为你推荐食谱。然而，在这种流畅对话的表象之下，隐藏着一个顽疾: 视觉定位 (Visual Grounding) 。

当你要求模型精确定位“蓝色书本左边的红色杯子”的确切位置时，它往往会陷入困境。许多模型并不是真正“看到”了空间关系，而是依赖于语言概率——本质上是根据词语关联进行猜测，而非基于视觉证据。这导致了幻觉的产生，即模型自信地识别出了不存在的物体，或者误解了复杂的指令。

为了解决这个问题，我们需要超越简单物体检测的严格基准。 FineCops-Ref 应运而生，这是研究人员设计的一个新数据集和任务，旨在评估细粒度组合指代性表达理解 (Fine-Grained Compositional Referring Expression Comprehension, REC) 。这就引入了一个测试场，强迫模型不仅要理解物体是什么，还要理解它们之间是如何关联的，而且至关重要的是，要能承认某个物体根本不存在。

问题所在: 词袋陷阱

当前的视觉-语言模型 (VLM) 通常将语言视为“词袋 (bag of words) ”。如果你给它们输入短语“草地上的马”，它们会寻找马和草地。如果你把它改成“马身上的草”，许多模型仍然会输出相同的置信度分数，因为关键词没有变化。它们缺乏组合推理 (compositional reasoning) 能力——即理解属性 (如颜色) 和关系 (空间位置) 如何改变句子含义的能力。

像 RefCOCO 这样的标准基准在该领域发挥了重要作用，但它们正变得趋于饱和。模型在这些基准上表现良好，但往往并非出于正确的原因。这些数据集很少测试模型处理负样本 (negative samples) 的能力——即文本描述了一个图像中不存在的物体的情况。在现实世界的应用中，如果要求机器人“拿起红色的锤子”，而现场没有红色锤子时，它必须停下来，而不是抓起一把蓝色的。

FineCops-Ref 介绍

为了填补这些空白，作者推出了 FineCops-Ref。该数据集在两个主要方面与众不同:

可控难度: 它根据所需的推理水平对任务进行分类 (从简单的识别到多跳逻辑) 。
困难负样本 (Hard Negatives) : 它包含了经过处理的文本和图像，用于测试模型拒绝错误描述的能力。

构建流程

构建一个测试细粒度推理的数据集需要复杂的流程。作者不仅仅是抓取字幕；他们是精心设计了这些内容。

图 1: FineCops-Ref 的数据构建流程。给定一张图像，我们首先基于其场景图生成路径。然后，我们将路径填充到模板中，并通过 LLM 重写获得正样本指代性表达。同时，我们利用 LLM 生成负样本表达，并在此基础上，利用扩散模型创建经过细粒度编辑的负样本图像。

如上图 1 所示，该过程始于 GQA 数据集中的场景图 (Scene Graph) 。场景图是图像的结构化表示，映射了物体 (电视) 、属性 (大、黑色) 和关系 (在桌子上) 。

路径生成: 系统通过场景图追踪路径以创建逻辑链 (例如: 电视 -> 在…上 -> 桌子 -> 在…右边 -> 桌子) 。
表达生成: 这些路径被转换为模板句子，然后由 LLM (如 GPT-3.5) 重写，使其听起来更自然。
负样本生成: 这是该流程创新的地方。系统生成负样本文本 (将“电视”改为“收音机”) 和负样本图像 (使用扩散模型在视觉上将电视编辑成收音机) ，从而为模型制造了一个完美的“陷阱”。

理解难度等级

该论文的关键贡献之一是“难度”的分类标准，不是按句子长度，而是按找到目标所需的推理量来划分。

图 3: 不同难度等级的正样本表达。

如图 3 所示，数据集分为三个等级:

等级 1 (简单) : 目标物体在其类别中是唯一的。例如，“拿着蓝色手机的女孩” (图 3a) 。如果只有一个女孩，模型实际上不需要理解“拿着蓝色手机”也能答对。它只需要找到“女孩”。
等级 2 (中等) : 存在干扰项。在图 3b 中 (“沙发上方…坐着一个女孩”) ，可能有其他人或其他女孩。模型必须处理空间关系“沙发上方”来区分目标。
等级 3 (困难) : 这需要多跳推理。在图 3c 中，识别“位于戴蓝色项圈的狗右边的女孩”，需要首先找到狗，确认狗戴着“蓝色项圈”，然后相对于那只特定的狗找到女孩。

负样本的挑战

大多数当前的模型都是“乐观”的——它们假设用户的查询是有效的。FineCops-Ref 通过引入负样本来挑战这一点。

负样本文本

作者使用 LLM 微妙地改变了文本描述。他们采用了两种主要策略:

替换 (Replace) : 交换名词 (例如，“猫”变成“狗”) 或属性 (“白色”变成“黑色”) 。
交换 (Swap) : 交换句子中两个物体的属性 (例如，“蓝色桌子上的红色杯子”变成“红色桌子上的蓝色杯子”) 。这专门针对“词袋”弱点。

负样本图像

文本操作很有用，但在视觉上编辑图像是对视觉解析的严格测试。作者使用了由文本提示引导的修复模型 (如 PowerPaint) 来改变图像的特定部分，同时保持其余部分一致。

图 5: 不同方法生成的负样本图像。

图 5 展示了这种视觉编辑:

(b) 替换属性: 滑雪者的包从黄色变成了粉色。如果文本要求找黄色的包，模型应该什么也找不到。
(d) 交换属性: 黄色的火车变成了棕色，而站台变成了黄色。一个只寻找“黄色”和“火车”的模型通常仍然会在这里产生阳性检测结果，从而未通过测试。

实验结果

研究人员评估了广泛的模型，包括专用模型 (如 MDETR 和 GroundingDINO，专门为检测训练) 和 MLLM (如 Shikra、Ferret 和 CogVLM，通用的多模态模型) 。

正样本上的表现

第一个测试是标准的: 当物体确实存在时，模型能找到它吗？

表 3: 正样本数据的评估结果 (Precision@1)。

表 3 揭示了一个有趣的权衡:

专用模型统治等级 1: 像 MM-GDINO-T 这样的模型在等级 1 (简单检测) 上表现异常出色。由于等级 1 本质上是物体检测，这些专用架构大放异彩。
MLLM 在推理上表现出色: 随着难度增加到等级 2 和等级 3，性能差距缩小甚至反转。像 CogVLM 这样的 MLLM 表现出更强的组合推理能力，比小型专用模型能更好地处理复杂的语言逻辑。
性能下降: 无论模型架构如何，随着难度的增加，性能都会显着下降。大多数模型在等级 3 任务上难以达到 50% 的精确率，这凸显了多跳推理仍然是一个未解决的问题。

负样本上的溃败

当分析负样本时，结果变得更加鲜明。在这里，度量标准发生了变化。由于没有边界框可找，我们测量 Recall@1 。该指标检查模型是否正确地给负样本分配了比正样本更低的置信度分数。

Recall 计算公式

本质上，我们希望模型说: “我不确信我在这里看到了这个物体。”

表 4: 负样本表达的评估结果 (Recall@1)。

表 4 显示了负样本文本的结果:

全面溃败: 整体表现疲软。即使在等级 1 (仅仅替换了物体名称，例如，当只有“电视”时寻找“收音机”) ，模型也很难拒绝这个前提。
推理差距: 模型在“关系”和“属性”交换上的表现比简单的物体替换更差。它们能分辨出猫不是狗，但很难分辨出“红色杯子”不是“蓝色杯子”。

结论与启示

FineCops-Ref 论文揭示了现代人工智能的一个关键弱点: 虽然模型越来越擅长“聊天”，但它们并不一定越来越擅长看。

作者证明，虽然 MLLM 在处理复杂查询时拥有卓越的推理能力，但当面对负样本或细粒度属性时，它们 (以及专用模型) 都遭受着巨大的“定位差距”。通过发布这个包含重推理的正样本和易诱发幻觉的负样本的数据集，研究人员为下一代模型提供了路线图。

为了构建真正可靠的 AI 智能体——能够在仓库中导航的机器人或分析医学图像的助手——我们需要不仅仅是基于语言模式进行猜测的模型。我们需要能够观察、推理，并有信心说出“我在这里没看到那个东西”的模型。

引言#

问题所在: 词袋陷阱#

FineCops-Ref 介绍#

构建流程#

理解难度等级#

负样本的挑战#

负样本文本#

负样本图像#

实验结果#

正样本上的表现#

负样本上的溃败#

相关性: 准确性 vs. 拒绝能力#

结论与启示#

引言