引言
多模态大语言模型 (MLLMs) 如 GPT-4V、LLaVA 和 mPLUG-Owl 的兴起彻底改变了人工智能感知世界的方式。这些模型可以描述照片,回答有关图表的问题,甚至根据白板草图编写代码。然而,在这些基准测试成就与现实世界的实用性之间存在着巨大的鸿沟。
目前大多数基准测试都集中在单图场景上。模型被赋予一张图片并被问一个问题。然而,人类的视觉消费很少局限于单一帧。当我们浏览网站时,我们会整合来自多张产品照片和文本描述的信息。当我们观看教程时,我们会遵循一系列的时间步骤。当我们浏览社交媒体时,我们会同时处理交织在一起的文本和图像。
如果 MLLMs 要成为真正有用的助手,它们必须掌握多图理解能力。
这引出了 MIBench , 这是由中国科学院和阿里巴巴集团的研究人员提出的一个综合基准。这就论文介绍了一个严格的框架,不仅评估 MLLMs 在一眼之间能看到什么,还评估它们如何在多张图像之间进行推理、比较和学习。结果发人深省: 虽然模型在单图任务上表现出色,但面对多图输入的复杂性时,它们往往会崩溃。

背景: 评估中的差距
为了理解为什么 MIBench 是必要的,我们需要看看现有的多模态评估格局。
像 MME、MMBench 和 SEED-Bench 这样的标准基准已经设定了评估 MLLMs 的标准。它们测试识别、定位和推理能力,但几乎完全使用单图输入。
也有人尝试弥合这一差距。像 Sparkles-Eval 这样的基准关注多图对话,而 Mantis-Eval 关注多图推理。然而,这些基准通常规模有限 (仅包含几百个样本) ,或者完全依赖 GPT-4 进行评分,这可能会引入偏差。
如下面的比较表所示,MIBench 在规模和复杂性上代表了一个巨大的飞跃。它引入了跨越 13,000 个样本的 13 项不同任务 , 利用客观指标而非主观的模型评分。

核心方法: 构建多图评估体系
研究人员将多图能力分为三个不同的场景,创建了一个分类体系,帮助我们准确了解模型在哪里失败或成功。
1. 多图指令 (MII)
此场景测试同时处理多张图像以遵循指令的基本能力。仅仅识别物体是不够的;模型必须理解图像之间的关系。这个类别细分为五个子任务:
- 通用比较 (GC) : 模型能否识别两张图像是否描绘了相同的场景或属性?
- 细微差异 (SD) : 一个“找茬”任务。这对当前的 AI 来说非常困难,需要细粒度的感知能力来注意地板纹理是否改变或物体是否移动。
- 视觉指代 (VR) : 模型必须使用一张图像来理解另一张图像中的引用。例如,“图像 1 中的物体是否位于图像 2 中物体的左侧?”
- 时序推理 (TR) : 评估对顺序和时间的理解,类似于视频理解,但使用的是关键帧。
- 逻辑推理 (LR) : 分析因果关系。例如,看到一系列男孩伸出手的画面,并根据上下文确定他为什么这样做。
2. 多模态知识搜索 (MKS)
在现实世界中,视觉信息通常伴随着文本,我们同时使用两者来回答问题。此场景以交织的图像和文本 (如维基百科页面或幻灯片) 的形式为模型提供“外部知识”,并提出一个需要综合这些信息的问题。
- 细粒度视觉识别 (FVR) : 通过将查询图像与上下文中提供的一组参考图像进行比较,识别特定的品种或类型 (例如,狗、花) 。
- 富文本图像 (TRI) : 从视觉布局和文本至关重要的幻灯片或文档中提取信息。
- 视觉关联的文本知识 (VTK) : 问题是关于视觉实体的,但答案存在于随附的文本中。
- 文本关联的视觉知识 (TVK) : 相反,问题是基于文本的,但答案需要验证图像中的视觉属性。
3. 多模态上下文学习 (MIC)
上下文学习 (ICL) 是 LLM 仅通过在提示中查看几个示例 (演示) 就能学习新任务的能力,而无需更新权重。MIC 将此扩展到了视觉领域。我们可以给模型看三张“缺陷部件”的照片和三张“良品”的照片,让它正确分类一张新图像吗?
研究人员通过以下方式对此进行了评估:
- 封闭式和开放式 VQA: 根据演示中看到的模式回答问题。
- 幻觉: 测试提供事实性演示是否能减少模型编造物体的倾向。
- 基于演示的任务学习: 提供没有指令的示例 (例如,“图像: [兔子],文本: 1”) ,看模型是否能推断出计数规则。

数据构建与质量控制
创建一个这种规模的基准不仅仅是抓取图像。作者采用了一套严格的流程来确保有效性:
- 干扰项生成: 对于多项选择题,错误答案 (干扰项) 必须看似合理。研究人员使用 GPT-4 生成具有挑战性的干扰项,或从数据集标注中采样困难负例。例如,在时序推理中,干扰项可能描述相同的对象,但处于不同的错误顺序中。
- 外部知识采样: 对于 MKS 任务,他们不仅仅是随机抓取文本。他们选择了相关但需要精确推理的文本和图像,以避免给模型提供“简单”的捷径。
- 循环评估: 为了防止模型根据选项位置进行猜测 (例如,总是选择“A”) ,正确答案会在所有位置轮换,只有当模型在所有配置中都回答正确时,才会被计分。
- “盲”测: 为了确保问题实际上需要视觉能力,他们将纯文本部分输入给模型。如果模型可以在不看图像的情况下回答问题,该样本将被丢弃。这消除了 VQA 数据集中常见的“语言偏差”。
实验与结果
团队评估了广泛的模型,包括像 GPT-4V 和 GPT-4o 这样的专有巨头,以及像 LLaVA-1.5、Qwen-VL、Mantis 和 mPLUG-Owl3 这样的开源模型。
1. 性能差距
下面的结果表突显了一个严峻的现实: 闭源模型在多图任务上目前处于遥遥领先的地位。

关键观察:
- GPT-4o 的主导地位: 它在几乎所有类别中都处于领先地位,特别是在需要细节的任务中,如“细微差异” (SD) 和“视觉指代” (VR) 。
- 开源模型的挣扎: 虽然像 mPLUG-Owl3 这样的模型在通用比较上表现尚可,但在需要细粒度感知的任务上它们会崩溃。例如,在细微差异任务中,LLaVA-1.5 的准确率仅为 14.9%,而 GPT-4o 达到了 90.5%。
- “视觉指代”瓶颈: 即使是最好的模型 (GPT-4o) 在视觉指代上也举步维艰,准确率不到 50%。这表明当前的架构难以映射跨越不同图像的空间关系。
2. 定性分析: 它们为什么会失败?
数字告诉我们模型失败了,但图像告诉我们原因。在“细微差异”任务中,模型必须找出两张图像之间的微小变化。
在下面的例子中,图像 1 和图像 2 之间的区别是增加了一个蘑菇披萨或一瓶橄榄油。开源模型可能是由于处理图像分辨率较低或注意力机制较弱,当整体场景保持一致时,无法注意到这些微小的局部变化。

3. 上下文学习的失败
论文中最令人惊讶的发现之一涉及多模态上下文学习 (MIC) 。在纯文本 LLM 中,提供更多示例 (shots) 几乎总是能提高性能。在视觉语言模型中,情况并非如此。

如上图所示:
- 负扩展 (Negative Scaling) : 对于许多开源模型 (如 MMICL) ,当你添加更多演示图像时,性能实际上会下降或保持平坦 (图 a 和 c) 。
- 幻觉的顽固性: 提供示例对于治愈幻觉几乎没有作用 (图 c) 。
- 格式与推理: 虽然模型可以学习输出的格式 (例如,输出一个数字) ,但它们很难纯粹从示例中学习推理逻辑 (例如,如何数物体) (图 d) 。
4. “多图混淆”现象
研究人员确定了一个称为“多图混淆”的关键弱点。他们使用 POPE (幻觉) 数据集进行了一项消融实验。
- 设置 A: 展示 1 张图像。问: “有一只狗吗?” (正确答案: 没有) 。
- 设置 B: 展示 1 张图像 + 1 张干扰图像 (其中包含一只狗) 。针对第一张图像问: “有一只狗吗?”
结果: 当引入第二张图像时,经过单图训练的模型 (如 LLaVA-1.5) 的性能显著下降 (见下表 4) 。仅仅是相邻图像中存在一只狗,就会导致模型在目标图像中产生看到狗的幻觉。这表明存在视觉特征的“串扰/渗透”,即模型无法隔离来自不同视觉输入的信息。

结论与启示
MIBench 对多模态 AI 领域起到了现实检验的作用。它表明,虽然我们在单图字幕生成和问答方面取得了巨大进步,但在真正的多图理解方面仍处于早期阶段。
给学生的关键要点:
- 感知与推理: 模型更擅长“看” (通用比较) ,而不是“思考” (逻辑推理或时序推理) 。
- 分辨率至关重要: 无法发现细微差异凸显了对能够高效处理高分辨率输入的架构的需求。
- 上下文很难: 简单地将图像拼接到提示中是不够的。模型需要特定的训练来理解不同视觉输入之间的边界和关系,否则就会发生“混淆”。
- 基准推动进步: 通过将评估从单图转移到现实的交织序列,MIBench 为下一代能够像人类一样真正浏览网页和观看视频的助手提供了路线图。
MLLMs 的未来不仅仅是看得更清楚;它是关于看更多内容并理解各个部分之间的联系。MIBench 正是我们实现这一目标所需的衡量标准。
](https://deep-paper.org/en/paper/2407.15272/images/cover.png)