引言

我们正处于大型多模态模型 (LMMs) 的黄金时代。像 GPT-4V 和 Claude-3 这样的模型展示了惊人的能力: 它们可以描述繁忙街道的复杂照片，解释迷因图 (Meme) ，或者从模糊的照片中识别狗的品种。对于普通观察者来说，“计算机视觉”的问题似乎在很大程度上已经解决了。

然而，一个奇怪的悖论出现了。虽然这些模型可以解读复杂的自然场景，但它们经常在人类儿童都会觉得轻而易举的任务上跌跟头。如果你让一个最先进的模型读取简单模拟时钟的时间、在 2D 平面图中导航，或者解释基本图表中的逻辑流，你可能会看到令人惊讶的失败。

为什么会发生这种情况？答案在于自然图像和抽象图像之间的区别。自然图像包含模型在训练期间见过数十亿次的丰富语义 (物体、纹理、面孔) 。而抽象图像——图表、地图、布局和仪表盘——依赖于严谨的几何逻辑和空间推理。它们由线条、符号和精确的关系组成，在这里，“差不多”往往就是错的。

在这篇文章中，我们将深入探讨一篇引人入胜的论文: “Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model” (多模态自指令: 利用语言模型合成抽象图像与视觉推理指令) 。研究人员发现了这一关键的能力差距，并提出了一种新颖的、以代码为中心的解决方案来修复它。

对领先的 LMMs 在抽象图像理解方面进行基准测试。

如图 1 所示，研究人员强调了人类表现与 AI 表现之间在各种抽象任务上的鲜明对比。当人类轻松应对路线图和视觉拼图时，模型——即使是最好的模型——也难以跟上步伐。

问题所在: 抽象图像差距

要理解为什么这项研究是必要的，我们必须首先界定问题的范围。目前的 LMM 主要是在从互联网抓取的大规模图像-文本对数据集 (如 LAION) 上训练的。这些数据集以自然摄影为主。因此，模型变得非常擅长匹配自然场景中的特征模式，但未能学会视觉推理的规则。

研究人员将这些“盲点”归类为八个具体的日常场景:

图表 (Charts) : 理解数据可视化。
表格 (Tables) : 提取结构化文本数据。
路线图 (Road Maps) : 规划路线和空间导航。
仪表盘 (Dashboards) : 读取如时钟和速度计等精密仪器。
流程图 (Flowcharts) : 理解算法过程。
关系图 (Relation Graphs) : 解析层级或网络结构。
平面图 (Floor Plans) : 2D 布局内的空间推理。
视觉拼图 (Visual Puzzles) : 模式归纳和逻辑。

模型失败的抽象推理任务示例。

图 2 展示了这些具体的失败案例。注意“仪表盘”的例子。人类看着时钟能立刻看出是“10:10”。而 AI 可能会产生幻觉，给出一个完全不同的时间，因为它实际上并没有“测量”指针的角度；它是基于与训练数据的视觉相似性进行猜测的。同样，在“路线图”示例中，找到从 A 点到 B 点的路径需要一步步的算法方法，而不仅仅是视觉描述。

解决这个问题的挑战在于数据的稀缺性。收集数百万张高质量、带注释的抽象图像 (例如一张画有特定有效路径的地图，旁边还有该路径的文字解释) 是极其耗费人力的。你无法简单地从网络上抓取这些数据，因为推理过程 (即“为什么”) 很少会显式地写在图像旁边。

解决方案: 多模态自指令 (Multimodal Self-Instruct)

这篇论文的核心贡献是一种称为多模态自指令的方法。作者意识到他们不需要手动收集这些数据。相反，利用现有大型语言模型 (LLM) 的推理和编码能力，他们可以合成这些数据。

这种直觉非常巧妙: LLM 可能不擅长看抽象图像，但它们非常擅长写代码来创建这些图像。

流程管道

合成管道分三个不同阶段运行。整个过程是自动化的，只需要一个 LLM (如 GPT-4) 和一个代码执行环境。

多模态自指令管道。

第一步: 视觉创意提案

过程始于 LLM 提出一个场景。它不只是说“画一个图表”。它创建了一个具体的、富含上下文的场景。例如，它可能会提议: “创建一个分步流程图，演示如何注册学术会议。” 或者 “为市中心的送货路线设计一张路线图。”

这一步确保了多样性。通过提示 LLM 涵盖各种主题 (经济学、日常生活、科学) ，生成的数据集涵盖了广泛的语义背景分布。

第二步: 以代码为中心的图像合成

这是最关键的技术创新。在许多以前生成合成图像数据的尝试中，研究人员使用的是文本到图像扩散模型 (如 DALL-E 或 Stable Diffusion) 。虽然那些模型很有艺术感，但它们不精确。它们在文本渲染 (生成乱码) 和精确的空间关系 (绘制的折线图与数字不符) 方面存在困难。

与扩散模型不同，该管道使用代码。 LLM 生成 Python 代码 (使用 Matplotlib、Graphviz 或 Pyecharts 等库) 来渲染图像。

为什么用代码? 代码是确定性的。如果 LLM 设置变量 time='8:10'，代码将精确地在 8:10 的位置渲染时钟指针。没有任何歧义。“真值” (Ground Truth) 被硬编码在生成过程中。
模拟数据: 对于图表或地图这类事物，LLM 首先生成底层数据 (例如饼图的具体百分比) ，然后编写代码将其可视化。

第三步: 视觉指令构建

一旦通过代码渲染了图像，我们就拥有了图像以及用于创建它的元数据。然后，这些上下文信息 (创意、数据和代码) 被喂给 LLM，并要求其生成问答 (Q&A) 对。

因为 LLM 可以访问绘制图像的源代码，它不需要看图像就知道答案。它从定义上就知道答案。

问题生成: 模型创建多样化的问题，从简单的感知 (“起点的颜色是什么？”) 到复杂的推理 (“如果我从 A 旅行到 B，我会经过哪个路口？”) 。
推理依据生成: 至关重要的是，模型生成了一个“推理依据” (Rationale) ——即解释为什么答案是正确的思维链。

在这个管道结束时，研究人员在没有人工绘制一条线的情况下，创建了一个庞大的、高质量的数据集。

基准测试

利用这一策略，作者构建了一个包含 11,193 条指令的基准测试，涵盖了前面提到的八个场景。让我们看几个这种合成数据的例子。

仪表盘和仪器

LMM 最令人惊讶的弱点之一是读取仪器。该基准测试创建了合成的仪表、温度计和时钟。

仪表盘任务示例。

如图 A4 所示，数据集包含关于尺子、血压监测仪和金融拨盘的问题。这些要求模型执行“视觉数学”——在刻度线之间插值——而不仅仅是物体识别。

路线图导航

这可能是要求最高的任务。研究人员使用快速扩展随机树 (RRT) 算法来生成带有障碍物和有效路径的随机地图。

路线图导航示例。

在图 A3 中，你可以看到其复杂性。模型会收到一张地图，上面有起点 (红色) 、终点 (黄色) 和障碍物 (深色区域) 。问题要求找出一条路径。要解决这个问题，模型必须理解网格坐标、空间方向 (上、下、左、右) 和避障。合成管道会同时生成地图和正确的路径文本。

2D 平面布局

空间推理也适用于理解布局，例如平面图或软件 UI 图表。

2D 平面布局示例。

图 A8 展示了关于建筑布局的问题 (例如，“最小的卧室有洗手间吗？”) 以及火箭组件的图表。这些要求模型理解包含关系 (什么在什么里面) 和连接性 (什么连接着什么) 。

实验: 当今的模型有多聪明？

研究人员针对这一新基准广泛测试了当前最先进的模型。阵容包括像 GPT-4V、Claude-3.5-Sonnet 和 Gemini-1.5 这样的专有巨头，以及像 LLaVA 和 DeepSeek-VL 这样的开源模型。

结果 (总结在表 A1 中) 令人清醒。

基准测试结果表。

结果的关键要点:

人类与 AI 的差距巨大: 人类在这些任务上的平均表现约为 82.1% 。表现最好的 AI (Claude-3.5-Sonnet) 仅达到 64.74% 。 GPT-4o 紧随其后，约为 60% 。
简单的任务很难: 看一下上表中的“仪表盘” (Dashboard) 一栏。人类得分 85.3%。GPT-4o 仅得分 54.79%。这证实了对 AI 来说，看时钟比通过律师资格考试还难。
地图导航是一场灾难: 在“路线图” (Road Map) 任务中，像 LLaVA-1.5 这样的开源模型得分基本上是 0% 。它们根本无法规划出一条有效的路径。即使是 GPT-4V 也只有 23.3%。
闭源与开源: 差距巨大。虽然闭源模型 (GPT-4, Claude) 显示出一些推理能力，但标准的开源模型通常在这些抽象推理任务上完全失败，表现往往并不比随机猜测好多少。

缩小差距: 利用合成数据进行微调

基准测试揭示了问题，但研究人员也想证明他们的解决方案。他们采用了一个标准的开源模型 LLaVA-1.5-7B , 并使用他们的合成数据集对其进行了微调。

他们生成了一个包含 62,476 条指令的训练集，重点关注图表、表格和路线图。然后，他们将这个微调后的模型 (被称为 Llava-our-62k )与原始基准进行了比较。

微调的结果

改进是戏剧性的。

微调模型与基准模型的比较。

如表 2 所示:

图表理解: 从 10.5% 提高到 30.3% 。
表格理解: 从 15.8% 提高到 51.8% 。
路线图导航: 这是一个令人震惊的事实。模型从 0.3% 提高到了 67.7% 。

等等，再读一遍。 微调后的 7B 参数模型 (一个相对较小的模型) 在路线图上达到了 67.7% 。回顾表 A1, GPT-4o 在同一任务上的得分仅为 37.8% 。

通过在高质量、代码生成的合成数据上进行训练，一个小型的开源模型能够在特定的视觉推理任务上超越世界上最强大的专有模型。

协同效应

研究人员还探讨了学习一项任务是否有助于其他任务。

训练数据的协同效应。

表 3 揭示了一个有趣的现象。在图表和表格上的训练实际上帮助模型在路线图上表现得更好 (即使没有看到地图，也从 0.3% 提高到了大约 8.9%) 。这表明，在抽象图像上的训练有助于模型发展出一种通用的“解释线条和几何形状”的能力，这种能力可以在不同领域间迁移。

结论与启示

“Multimodal Self-Instruct” 论文为计算机视觉训练的未来提供了一个令人信服的蓝图。它强调，我们不能仅依靠自然图像来教 AI 如何观看。为了创建真正有用的 AI 智能体——能够导航软件 UI、分析业务仪表盘或规划路线——我们需要教它们抽象图像的语言。

其启示有三点:

代码是终极标注员: 我们不需要人工劳动力来标记每一个图表或地图。如果我们可以编写代码来生成数据，我们就免费获得了完美的标签。
视觉推理不同于识别: 识别“时钟”与“读取时间”是不同的。模型需要针对后者进行专门训练。
小模型可以取胜: 有了针对性的、高质量的合成数据，小模型可以实现“以小博大”，在专门的推理任务中击败通用的巨型模型。

随着 LMM 继续融入我们的日常工作流程，克服“抽象图像差距”将至关重要。多亏了像多模态自指令这样的策略，我们离不仅能看世界，还能理解我们用来解释世界的图表的 AI 又近了一步。

引言#

问题所在: 抽象图像差距#

解决方案: 多模态自指令 (Multimodal Self-Instruct)#

流程管道#

第一步: 视觉创意提案#

第二步: 以代码为中心的图像合成#

第三步: 视觉指令构建#

基准测试#

仪表盘和仪器#

路线图导航#

2D 平面布局#

实验: 当今的模型有多聪明？#

结果的关键要点:#

缩小差距: 利用合成数据进行微调#

微调的结果#

协同效应#

结论与启示#

引言