简介

如果你曾经上过几何课,你就会知道,如果没有旁边的图解,题目中的文字往往毫无用处。“求边 \(AC\) 的长度”这句话,如果你看不到三角形,就没有任何意义。这种对视觉辅助的依赖使得几何学成为人工智能最具挑战性的前沿领域之一。

虽然大语言模型 (LLMs) 在解决纯文本数学应用题方面已经变得非常熟练,但当需要独特的视觉推理时,它们就会碰壁。即使是最先进的多模态大语言模型 (MLLMs) ——即既能“看”图又能读懂文字的模型——在几何学方面也往往难以达到人类的表现水平。它们可能会误解图表,或者无法将视觉角度与文本中的数值联系起来。

主要的瓶颈不一定是模型架构,而是数据。现有的数据集通常要么太难 (直接取自复杂的高中课本) ,要么“未对齐” (由于糟糕的数据增强,文本描述的形状与图像不完全匹配) 。

在这篇深度文章中,我们将探讨一篇引人入胜的论文: “GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation.” 研究人员介绍了一种新颖的流程来生成高质量、“对齐”的几何问题。通过简化复杂问题并使用代码生成精确的图表,他们创建了一个数据集,显著提高了 AI 模型的几何推理能力。

当前几何 AI 的问题

要理解这篇论文的重要性,我们需要先了解 AI 数学领域的现状。

视觉鸿沟

研究表明,在解决几何问题时,如果去除视觉辅助,人类的准确率会显著下降。我们需要图表来为逻辑提供支撑。对于 AI 来说,要解决这些问题,它需要强大的“视觉感知”能力——即基于图像识别出一条线是切线或一个三角形是等腰三角形的能力。

目前像 GPT-4V 和 Gemini 这样的顶尖模型已经取得了长足进步,但开源模型 (如 LLaVA 或 ShareGPT4V) 往往落后。

数据困境

为了让这些模型变得更聪明,我们需要训练它们。然而,研究人员在可用数据方面面临着一个“两难”问题:

  1. 太难: 开源数据集通常由从考试或教科书中提取的问题组成。这需要复杂的推理链,而模型尚未掌握相关基础知识。这就像在学生学会代数之前试图教他们微积分一样。
  2. 太乱/质量太差: 为了创建更多数据,研究人员经常使用“数据增强”。一种常见的技术是提取一个问题,并要求 LLM (如 ChatGPT) 更改文本中的数字。然而,如果你在文本中将“边 A 是 5”改为“边 A 是 10”,但没有更新图像,那么图像和文本现在就是未对齐的。这会混淆模型并阻碍学习。

GeoGPT4V 的作者意识到,要提高性能,他们需要一个既更简单 (课程学习) 又完美对齐 (文本与图像匹配) 的数据集。

GeoGPT4V 方法

这篇论文的核心贡献是一个旨在生成这种“完美”训练数据的新颖流程。他们设计了一个四步自动化过程,而不是依赖人工标注或有风险的纯文本增强。

Pipeline of our geometric data generation.

如上方的 图 1 所示,该流程从现有的困难数据转向新的、简化的且视觉准确的数据。让我们分解这个工作流的每一步。

步骤 1: 问答生成 (简化)

该过程始于现有的几何问题数据集 (在图中表示为“QA Example from Geometry3K”) 。这里的目标是课程学习 (Curriculum Learning) ——即如果模型先从简单的概念开始,然后再转向复杂的概念,它们的学习效果会更好。

研究人员使用 GPT-4V 充当“老师”。他们将复杂的问题输入模型,并指示其创建一个简化版本 。 指令提示模型:

  • 创建铺垫问题 (踏脚石) 。
  • 创建子问题。
  • 将最终答案纳入问题条件中以降低复杂性。

例如,如果原始问题要求进行涉及面积和高度的复杂计算,简化版本可能只要求在已知底和高的情况下计算面积。这有助于模型掌握基本的几何概念。

步骤 2: 几何图像生成

这是流程中最具创新性的部分。一旦创建了新的简化文本问题,旧的图像就不再准确了。使用生成式图像模型 (如 DALL-E 或 Midjourney) 是有风险的,因为这些模型难以处理几何学精确的数学约束 (例如,确保特定角度正好是 30 度) 。

相反,研究人员使用了一种基于代码的方法

他们将新的简化问题输入 GPT-4,并要求其生成 Wolfram (Mathematica) 代码 。 Wolfram 是一种计算语言,非常擅长绘制数学图形和形状。

  • 通过生成代码,输出在数学上是精确的。
  • 如果代码说 Triangle[{{0,0}, {8,0}, {4, 13}}],生成的图像将在数学上对应底为 8、高为 13。

步骤 3: 执行与多样性

用 LLM 生成代码可能时好时坏。有时代码会有语法错误,或者绘制的形状超出了画布。

为了缓解这个问题,该流程生成了 \(K\) 个不同版本 的代码 (其中 \(K=3\)) 。他们执行所有这些代码片段以生成 \(K\) 个不同的候选图像。这增加其中至少有一张图像是完美的概率。

步骤 4: 打分与筛选

现在系统有了一个简化的问题和几张候选图像。哪张图像是最好的?

研究人员将 GPT-4V 请回来作为“评分员”。模型评估生成的图像与文本描述之间的对齐程度。它根据图像描绘问题的程度给出一个分数 (0 到 1) 。

  • 三角形真的是等边三角形吗?
  • 标签清晰易读吗?
  • 它与问题中的数字匹配吗?

系统会选择得分最高的图像。如果最高分低于阈值 (0.9) ,则丢弃该数据点以确保高质量。

最终结果就是 GeoGPT4V 数据集 : 一个包含 4.9K 个新生成的、简化的且完美对齐的几何问题的集合,并结合了 19K 个现有的开源问题。

分析: 数据真的变好了吗?

在训练模型之前,作者验证了他们的流程是否真正实现了目标: 让问题更简单,并确保更好的图文对齐。

The data analysis results.

图 2(a) (环形图) 证实了难度的调整。当 GPT-4V 比较原始问题和生成的问题时,它发现 41% 的生成问题更简单, 44% 的难度相当。这证实了数据集成功引入了更简单问题的“课程”。

图 2(b) (柱状图) 显示了对齐分数的关键提升。

  • G-LLaVA: 这代表了之前仅重写文本的方法。对齐分数很低 (0.6754) ,因为图像没有更新。
  • Generated Images: GeoGPT4V 方法的对齐分数大幅跃升至 0.9636

这证明了使用代码生成来创建新图像优于在修改文本的同时重复使用旧图像。

实验与结果

研究人员使用他们的新数据集训练了几个开源模型 (LLaVA-1.5、ShareGPT4V 和 InternVL) 。他们在两个主要基准测试上测试了这些模型: MathVistaMathVision

结果令人印象深刻。

Overall results of different models on the MathVista and MathVision.

表 2 提供了性能的全面概览。以下是关键结论:

  1. 持续的提升: 以此 "-G" 结尾的行 (例如 LLaVA-1.5-G) 。这些是使用 GeoGPT4V 数据集训练的模型。在几乎每一项指标中,“-G”模型的表现都优于标准版模型。
  2. 显著的收益:
  • 对于 LLaVA-1.5-7B,几何问题解决 (GPS) 分数从 20.67% 跃升至 32.69% 。 这是一个巨大的相对提升。
  • ShareGPT4V-13B 的 GPS 分数从 27.4% 上升到 43.27%
  1. 缩小差距: 使用 GeoGPT4V 训练的模型开始缩小与专有巨头模型的差距。例如,InternVL-G (40B 参数) 在 MathVista GPS 上达到了 64.42% 的分数,超过了 GPT-4V (50.5%) 和 Gemini-1.0-Ultra (56.2%)。

为何有效? (消融实验)

科学在于了解某事为什么有效。作者进行了消融实验,以分离促成这一成功的因素。

Ablation for image generation and image scoring.

表 3 回答了两个关键问题:

Q1: 生成新图像是必要的吗? “- Image Generation” 这一行显示了如果他们使用简化的文本但保留旧的原始图像会发生什么。分数从 32.69 (GeoGPT4V) 下降到 30.77 。 这证实了未对齐会损害性能,生成新图像至关重要。

Q2: 打分/筛选步骤是必要的吗? “- Image Scoring” 这一行显示了如果他们只是从生成的批次中随机选取一张图像,而不是使用 GPT-4V 进行打分,会发生什么。分数下降了,证实了质量控制步骤增加了价值。

生成的数据比开源数据更好吗?

人们可能会想,这种提升是否仅仅来自于增加了更多数据,而不管其质量如何。为了验证这一点,作者比较了混合他们的生成数据与仅使用开源数据的情况。

Dataset settings for experiments comparing open-source data and generated data. Comparison of the effects with and without using the generated datasets.

表 5 揭示了答案。

  • Base: 仅在开源数据上训练。
  • Mix: 将开源数据与 GeoGPT4V 数据混合。

“Mix” 策略产生了最高的结果 (MathVista GPS 上为 33.52 vs Base 的 29.33 )。这意味着提升不仅仅在于数据量;GeoGPT4V 数据的本质 (简单且对齐) 帮助模型学习到了仅靠开源数据无法学到的特征。

结论

“GeoGPT4V” 中展示的工作强调了多模态 LLM 开发中的一个重要教训: 数据质量为王。

通过承认现有的数据集太难且经常未对齐,作者构建了一个反映良好教学法的流程。他们扮演老师的角色简化复杂的科目,同时扮演技术插画师的角色,确保图表与描述完美匹配。

使用 Wolfram 代码生成 来弥合文本与视觉几何之间的差距尤为巧妙。它绕过了标准图像生成器的“幻觉”问题,确保如果文本说三角形的高度为 10,图像中的像素就会准确反映这一点。

对于 AI 领域的学生和研究人员来说,这篇论文作为一个概念验证,证明了我们并不总是需要更大的模型来解决难题。有时候,我们只需要更聪明地生成喂给它们的数据。GeoGPT4V 数据集以及在其上训练的模型,代表了在让 AI 能够看到和理解几何世界方面迈出的重要一步。