想象一下你身处一个陌生的城市。你打开地图应用,寻找一家正在营业、步行 10 分钟以内且评分在 4.0 以上的咖啡店。你还需要在一张布满图标和街道名称的地图上找到它的位置。对于人类来说,这是一项标准的导航任务,涉及视觉扫描、空间推理和阅读理解。
现在,想象一下要求人工智能做同样的事情。虽然大型语言模型 (LLM) 和视觉语言模型 (VLM) 在编码、创意写作和通用推理方面表现出了惊人的能力,但在导航物理世界 (通过地图呈现) 方面,它们的能力仍然是一个巨大的盲点。
在这篇文章中,我们将深入探讨 MapEval , 这是一篇全面的研究论文,旨在对基础模型的地理空间推理能力进行基准测试。研究人员在覆盖 180 个城市的 700 个复杂问题上测试了 30 个主要模型 (包括 GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro) 。结果揭示了“智能”与“空间感知”之间存在的惊人差距。
问题所在: AI 并不“懂”地理
近期 AI 的进步主要集中在自主工具的使用上。我们拥有可以浏览网页或使用计算器的智能体 (Agent) 。然而,基于地图的推理是截然不同的。它需要异构上下文处理——结合非结构化文本 (评论) 、结构化数据 (坐标) 和视觉信息 (地图上的大头针) 。
该领域之前的基准测试受到了一定的限制。它们通常依赖于:
- 基于模板的查询: 询问诸如“法国的首都是哪里?”这样的简单问题,这依赖于记忆的事实而非推理。
- 简单的 API 查找: 询问两点之间的距离,而无需进行复杂的路线规划。
- 遥感: 分析卫星图像以了解土地覆盖情况,这与阅读导航地图截然不同。
MapEval 通过测试地理空间推理改变了这一现状。这涉及理解空间关系 (在 X 的北边) 、导航 (寻路) 和旅行规划 (多站点行程) 。
MapEval 简介
MapEval 是一个多模态基准测试,旨在通过三种不同的评估模式来评估基础模型: 文本 (Textual) 、基于 API (API-based) 和视觉 (Visual) 。

如图 1 所示,该框架建立在源自 Google Maps 的真实世界数据之上。研究人员不仅仅是抓取数据;他们创建了一个复杂的流程,以确保问题反映人类实际与地图交互的方式。
三项评估任务
为了真正了解模型在何处失败,MapEval 将挑战分解为三个具体任务。
1. MapEval-Textual (文本任务)
在此任务中,模型会获得包含地点、营业时间、坐标和评论等信息的丰富文本上下文。模型必须仅根据此文本回答多项选择题 (MCQ) 。这测试了模型从冗长、复杂的描述中筛选相关信息并进行推理的能力 (例如,“根据提供的时间表,这家餐厅周一营业吗?”) 。
2. MapEval-API (API 任务)
这是一个更加动态的任务。在这里,模型充当一个智能体 。 它不会预先获得上下文。相反,它必须使用工具 (如 PlaceSearch 或 Directions) 查询数据库以找到答案。这模拟了现实世界的场景,即 AI 助手必须主动获取信息以帮助用户规划行程。
3. MapEval-Visual (视觉任务)
这可能是最具挑战性的任务。模型会获得一张数字地图的屏幕截图 (就像你在手机上看到的那样) ,并必须根据视觉线索回答问题。这涉及阅读标签、解释图标、理解道路网络以及直观地估计空间关系。
数据集的多样性和真实性
基准测试的优劣取决于其数据。MapEval 涵盖了跨越 54 个国家和 180 个城市的 700 个独特问题。这种地理多样性确保了模型不仅仅是记住了纽约或伦敦的热门地点,而是必须真正地对呈现的数据进行推理。

问题分为五种类型 (图 2) :
- 地点信息 (Place Info) : 关于特定 POI (兴趣点) 的详细信息。
- 周边 (Nearby) : 寻找特定位置周围的事物。
- 路线 (Routing) : 从 A 导航到 B。
- 行程 (Trip) : 规划复杂的时间表 (例如,“参观博物馆 2 小时,然后喝咖啡”) 。
- 无法回答 (Unanswerable) : 提供的上下文不足以回答的问题,测试模型承认无知的能力 (这是一项关键的安全功能) 。
- 计数 (Counting) : 视觉任务特有的 (例如,“可以看到多少家医院?”) 。
研究人员使用了一个名为 MapQaTor 的自定义工具来高效地标注这些数据,确保高质量的标准答案。

为了确保全球代表性,数据集从世界各地提取上下文。如下面的热图所示,文本和视觉上下文均分布广泛,防止了以西方为中心的偏见。

核心挑战: 视觉地图理解
MapEval 最独特的一个方面是视觉组件。数字地图是复杂的信息伪影。它们包含文本 (街道名称) 、符号 (医院、公园的图标) 和几何结构 (道路、河流) 。
研究人员包含了不同缩放级别的地图快照,范围从广阔的城市视图到详细的街道级别。

为什么缩放很重要?在高缩放级别 (详细视图) 下,模型必须阅读 OCR 文本并区分各个建筑物。在低缩放级别下,它必须理解更广泛的空间关系。
让我们看看这些视觉问题实际上是什么样子的。以下是要求模型对地图截图进行推理的示例。
示例 1: 地标识别 在这个例子中,模型必须识别特定旗杆附近的博物馆。

示例 2: 路线分析 在这里,模型展示了两条路线,必须确定距离。这需要读取地图界面上的微小数据标签 (“23 km”) 。

示例 3: 空间关系 这个例子询问哪个高尔夫俱乐部位于特定的十字路口。它要求模型追踪标记为 “Springfield” 和 “Houdaille Quarry” 的道路并找到交叉点。

这些视觉任务对于当前的视觉语言模型来说极其困难,因为它们需要精确的定位和符号接地 (symbol grounding) ,而不仅仅是通用的图像描述。
实验与结果: 现实检验
研究人员评估了 30 个基础模型,包括专有巨头 (Claude-3.5-Sonnet, GPT-4o, Gemini-1.5-Pro) 和开源模型 (Llama-3, Qwen, Mistral) 。
1. 文本推理结果
在文本任务中,模型以文本形式获得了所有必要的信息。你可能会期望它们得分接近 100%,因为答案就在“文本中”。

主要结论:
- 天花板很低: 最好的模型 (Claude-3.5-Sonnet) 仅达到 66.33% 的准确率。相比之下,人类的表现高达 86.67% 。
- 行程规划很难: 看看上图 16 中的“Trip”类别。性能大幅下降 (大多数低于 50%) 。规划时间表需要时间算术 (增加持续时间) 和逻辑,这正是 LLM 所纠结的。
- 无法回答的问题: 许多模型很难说“我不知道”,经常会凭空捏造答案,而不是选择“无法回答”选项。
2. 基于 API 的推理结果
当模型必须充当智能体并自行查询数据时,性能进一步下降。

如图 3 所示,在提供文本 (粉色条) 和必须自行搜索 (黄色条) 之间存在显著的性能差距。
- 为何下降? 智能体经常卡住。它们可能会查询“餐厅”,但无法解析结果,或者陷入无限循环,试图寻找不存在的参数。
- “循环”问题: 尤其是开源模型,在工具使用方面很吃力。图 19 强调了智能体因无法弄清楚下一步而达到迭代限制 (基本上是超时) 的频率。

API 任务的分类细分显示,“周边 (Nearby) ”查询对模型来说尤其残酷。

3. 视觉推理结果
视觉结果证实,阅读地图与阅读自然图像是截然不同的。

- 计数是弱点: 如“计数 (Counting) ”类别 (图 20) 所示,模型很难回答像“可见多少家医院?”这样的问题。它们经常产生幻觉,捏造图标或完全遗漏它们。
- 缩放敏感度: 有趣的是,模型性能随缩放级别波动。随着地图变得更加详细 (缩放倍数更高) ,视觉混乱增加,使得推理更加困难。

模型为何失败?“数学”问题
MapEval 论文中最有深刻见解的部分之一是错误分析。为什么模型在“行程 (Trip) ”规划或“路线 (Routing) ”方面表现如此糟糕?
事实证明,很大一部分原因归结为空间数学 。
- 基本方向: 计算点 B 是否在点 A 的“西北”方向需要理解坐标。
- 距离: 计算两个经纬度点之间的直线距离需要半正矢公式 (Haversine formula) 。众所周知,LLM 不擅长复杂的算术。
为了证明这一点,研究人员隔离了需要计算直线距离的问题。

如上图所示,准确率惨不忍睹。然而,研究人员提出了一个解决方案: 给模型一个计算器。
通过集成一个 LLM 可以调用来执行数学运算的计算器工具,准确率飙升。

图 14 显示,提供计算器将 Claude-3.5-Sonnet 在距离任务上的表现从约 51% 提高到了约 85%。这证明推理能力可能存在,但计算能力是瓶颈。在确定基本方向方面也观察到了类似的趋势。

结论与启示
MapEval 为 AI 社区提供了一个现实检验。虽然我们经常谈论“通用人工智能”,但最先进的模型无法可靠地导航地图——这是数十亿人类每天都在做的任务——凸显了时空推理方面的巨大差距。
主要结论:
- 人类仍然更胜一筹: 在所有任务中,人类基准 (80%+) 远远超过最好的 AI 模型 (~60-65%) 。
- 模态很重要: 模型在阅读文本与查看图像时的表现不同。视觉地图理解尤为不成熟。
- 智能体需要帮助: 基于 API 的智能体在参数管理和循环检测方面面临困难。
- 工具至关重要: 我们不应该期望 LLM 在它们的“脑子”里做复杂的几何运算。集成像计算器或专用路由引擎这样的工具是前进的方向。
MapEval 的发布为未来的模型提供了严格的标准。为了让 AI 真正能在物理世界中提供帮助——无论是自动驾驶、物流规划,还是仅仅帮助游客找到一家咖啡店——它需要掌握地图。
](https://deep-paper.org/en/paper/2501.00316/images/cover.png)