引言
想象你是一名室内设计师。你看着一个空房间和一件家具。在你的脑海中,你旋转这件家具,将其靠在后墙上,并构想光线如何照射在它上面。你并没有移动任何肌肉,但你已经完成了一项复杂的多模态推理壮举。你将视觉感知与空间逻辑结合在了一起。
现在,来看看人工智能的现状。我们知道像 GPT-4o 或 Claude 3.5 这样的大型语言模型 (LLM) 在基于文本的推理方面表现惊人。它们可以通过律师资格考试并解开复杂的谜题。我们也知道它们能“看”懂图像。但是,它们能像人类一样真正地利用这些图像进行推理吗?它们能进行那种心理旋转,或者在“脑海”中模拟物理实验吗?
一篇新的研究论文《Can MLLMs Reason in Multimodality?》 (多模态大语言模型能进行多模态推理吗?) 认为答案在很大程度上是“否”。研究人员推出了 EMMA (Enhanced MultiModal reAsoning,增强型多模态推理) ,这是一个旨在揭示模型“识别物体能力”与“推理物体能力”之间差距的基准测试。
看看下面的问题。

如图 1 所示,人类通过可视化力矢量来解决这个物理问题。我们知道同性电荷相斥,异性电荷相吸。我们在脑海中画出箭头并将它们相加。然而,模型 (GPT-4o) 却跌跟头了。它知道文本规则 (“同性电荷相斥”) ,但当它试图将该规则应用于电荷的视觉排列时,它搞错了方向。它未能弥合文本理论与视觉现实之间的鸿沟。
在这篇文章中,我们将拆解 EMMA 基准测试,探讨为什么当前的 AI 模型在这一测试中举步维艰,并看看这对多模态大语言模型 (MLLM) 的未来意味着什么。
多模态能力的幻象
要理解为什么 EMMA 是必要的,我们首先需要看看以前基准测试的缺陷。
在过去几年中,我们看到模型在 MMMU 或 MathVista 等多模态基准测试中取得了高分。这些分数表明 AI 正成为解读图表、示意图和照片的专家。然而,EMMA 的作者指出了一个关键缺陷: 冗余性。
在许多现有数据集中,图像往往只是“装饰品”。问题的文本可能包含了解决问题所需的所有信息 (例如,伴随一张通用圆形图片的“计算半径为 5 的圆的面积”) 。如果模型可以通过阅读文本并忽略图像来解决问题,我们测试的就不是多模态推理——我们要么是在重复测试文本推理。
筛选过程: 强迫模型去“看”
为了创建一个真正测试视觉推理的基准,研究人员采用了严格的“筛选”过程。

如图 4 所示,筛选过程非常无情。研究人员从现有数据集中选取问题,并应用了“蒙眼”测试:
- 他们使用模型生成图像的文本描述 (caption) 。
- 他们仅将问题和文本描述输入给 LLM。
- 如果 LLM 仅凭文本描述就能解决问题, 该问题就会被剔除。
这确保了 EMMA 中留下的每一个问题都要求模型主动处理视觉数据。模型不能通过依赖文本摘要来走捷径;它必须解释那些太复杂而无法用简单说明文字捕捉的空间关系、模式或物理模拟。
深入 EMMA: 推理的四大支柱
EMMA 不仅仅是随机收集的一些困难图片。它围绕四个特定领域构建: 数学、物理、化学和编程 。

图 2 提供了所包含任务类型的高级视图。让我们分解一下是什么让每个部分对 AI 来说如此困难。
1. 数学: 空间体操
数学部分不是关于解决教科书中的方程,而是关于视觉操控 。

看看上面的图 9。这些任务需要 2D 变换 。 模型必须在心理上旋转图案、在平面上平移形状,或想象反射效果。
- 旋转 (Rotation) : 你能想象这个网格旋转 90 度后的样子吗?
- 平移 (Translation) : 这些形状能拼在一起吗?
- 翻转 (Flipping) : 这个图像在镜子里是什么样子的?
还有涉及 3D 空间模拟的任务,例如心理折纸或立方体旋转,以及 模式推断 , 即模型必须推导出视觉规则 (比如基于位置变化的颜色序列) ,而不是数字规则。
2. 物理: 模拟世界
EMMA 中的物理问题要求模型运行物理定律的“模拟”。

考虑图 26 中的例子 (在图组中标记为错误案例样本) 。问题要求求出电荷受到的电场力的合力方向。
- 标准答案 (人类) : 人类会画一个受力分析图。我们看到 \(+Q\) 被 \(+3Q\) 排斥 (推开) 并被 \(-2Q\) 吸引 (拉近) 。最终结果是一个指向左下方的矢量。
- 模型失败: 模型试图通过思维链 (CoT) 来计算。它写下了公式 (库仑定律) 。然而,它在第一步就犯了一个灾难性的错误: 它声称 \(+3Q\) 电荷吸引 \(+Q\) 电荷。尽管在文本中“知道”物理定律,但它未能将该知识正确映射到图像中的空间排列上。
这一类别还包括 动力学 (预测台球的路径) 和 电路分析 , 其中导线的拓扑结构比元件数值更重要。
3. 化学: 电子流动的艺术
化学本质上是视觉化的。化学家使用图表来表示分子结构和反应。EMMA 通过 反应模拟 来测试这一点。

在图 32 中,我们看到了一个涉及 电子转移箭头 (arrow-pushing) 的“正确”案例。这是有机化学中的一种标准符号,用弯曲的箭头表示电子的移动方向。要解决这个问题,模型不能仅仅死记硬背化学式。它必须:
- 识别起始分子结构。
- 解读弯曲箭头作为指令 (“这些电子移动到这里,断开这个键”) 。
- 想象生成的分子结构。
虽然模型有时能做对 (如上所示) ,但当结构变得复杂,或视觉表示 (如骨架结构) 需要关于碳和氢位置的隐性知识时,它们经常失败。
4. 编程: 可视化输出
EMMA 的编程部分特别具有创新性。EMMA 不仅仅是要求“编写代码绘制图表”,而是测试代码与其视觉输出之间的一致性。

图 15 突出了这种差异。传统的基准测试依赖“MLLM 裁判”来给代码评分,这可能不可靠。EMMA 使用客观的多项选择题:
- 看图选代码 (Vis Choose Code) : “这是一个图表。以下哪四个 Python 代码片段生成了它?”
- 看代码选图 (Code Choose Vis) : “这是一个 Python 脚本。它将生成以下哪四个图表?”
- 修改 (Modification) : “这是一个图表和生成它的代码。你如何修改代码以将图表变成这个新版本?”
这测试了模型是否真正理解一行代码 (例如 plt.barh) 与屏幕上生成的像素之间的关系。
结果: AI 的现实检验
那么,最先进的模型表现如何呢?研究人员测试了十个主要模型,包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 以及像 Qwen2-VL 这样的开源模型。
结果总结在 表 2 中,令人发人深省。

以下是数据中的关键要点:
- 人类完胜: 在基准测试的平衡子集 (“EMMA-mini”) 上,人类专家的得分为 77.75% 。 表现最好的模型 (Gemini 2.0 Flash Thinking) 得分为 48.00% 。 这有着近 30 个百分点的巨大差距。
- 视觉推理很难: 大多数模型的准确率徘徊在 30-40% 左右。作为参考,在 4 选项的多项选择题中随机猜测的准确率为 25%。一些复杂的模型在特定任务上的表现几乎没有超过随机概率。
- “思考型”模型领先: 专门训练用于生成推理步骤的模型 (如 OpenAI 的 o1 和 Gemini Flash Thinking) 表现最好,特别是在编程和物理方面。
思维链悖论
论文中最引人入胜的发现之一涉及 思维链 (CoT) 提示——即要求模型“一步一步思考”的技术。
通常,CoT 能提高性能。然而,在 EMMA 中,结果喜忧参半。
- 闭源模型 (GPT-4o, Claude): CoT 通常有轻微的帮助 (+0.3% 到 +3%) 。
- 开源模型 (Llava, Qwen): CoT 经常 损害 性能。
为什么“思考”会让模型变差?研究人员假设,对于视觉任务,文本推理可能是一种干扰或产生幻觉的根源。

看看图 8 中的折纸问题。
- 任务: 一张正方形纸折叠两次,切掉一个角。模型必须预测展开后的图案。
- 直接回答: GPT-4o (不使用 CoT) 猜对了 (选项 B) 。
- 使用 CoT: 当被迫解释步骤时,GPT-4o 产生了幻觉。它试图用语言描述对称性,但在空间几何上感到困惑,导致得出了错误的结论 (选项 E) 。
这表明某些视觉任务是“不可言传的”——它们很难用语言描述。当模型试图将视觉过程强行转化为基于文本的思维链时,它会把自己搞糊涂。
我们能暴力破解吗? (测试时计算)
如果一次尝试不够,让模型尝试 16 次并投票选出最佳答案会怎样?这被称为 测试时计算扩展 (test-time compute scaling) 。

如表 3 所示,增加计算量确实有帮助,但并不能解决问题。使用“多数投票”或“锦标赛”选择 (答案之间相互竞争) 将分数提高了 4% 到 7%。然而,即使有 16 次尝试,模型仍然远远落后于人类专家。
问题不仅仅是生成一个糟糕的答案;而是模型从根本上缺乏能够持续正确模拟问题的视觉推理“引擎”。如果一个模型不理解物理学中的右手定则,问它 16 次也无法修正其底层的错误概念。
为什么模型会失败?错误分析
为了了解这些失败的根本原因,研究人员分析了 OpenAI 的 o1 模型 (最强的推理模型之一) 所犯的错误。

图 5 显示了分类细目:
- 感知错误 (30%): 模型根本没有正确看到图像 (例如,漏掉了一条线,看错了一个数字) 。
- 文本推理错误 (9%): 计算错误或逻辑错误。
- 视觉推理错误 (53%): 这是大头。模型正确地看到了图像,也知道文本理论,但未能处理视觉逻辑。
这证实了论文的中心论点: 瓶颈不在于感知 (看到像素) 或知识 (阅读教科书) 。瓶颈在于 动态处理视觉关系。
这种失败的一个经典例子是物理学中的 右手定则 。

在图 6 中,模型 (o1) 正确地识别出它需要使用右手定则来确定磁场力。它甚至在文本中描述了规则!但是因为它缺乏“空间模拟技能”——它无法在 3D 空间中真正想象一只手卷曲在一根导线周围——它错误地猜测了力的方向 (预测为 \(+y\) 而不是 \(+x\)) 。
结论: 前路漫漫
EMMA 为 AI 社区敲响了警钟。它表明,虽然 MLLM 在描述图像和解决文本问题方面已变得非常出色,但它们尚未掌握 有机的多模态推理 。
观察图表、模拟变化并得出结论的能力是人类智能的支柱。正是这种能力让我们成为了工程师、建筑师和科学家。为了让 MLLM 真正能够在这些领域提供帮助,它们需要超越简单的模式识别。
论文建议我们需要新的架构。仅仅扩展现有模型或增加更多的基于文本的训练数据可能是不够的。我们可能需要专门针对视觉想象和空间模拟的训练范式——不仅教模型去“看”,还要教它们去“构想”。
在此之前,如果你需要有人帮你判断沙发是否适合放在角落,或者磁场力指向哪个方向,你最好还是问问人类。
](https://deep-paper.org/en/paper/2325_can_mllms_reason_in_multi-1879/images/cover.png)