想象一下你身处一个陌生的城市。你打开地图应用，寻找一家正在营业、步行 10 分钟以内且评分在 4.0 以上的咖啡店。你还需要在一张布满图标和街道名称的地图上找到它的位置。对于人类来说，这是一项标准的导航任务，涉及视觉扫描、空间推理和阅读理解。

现在，想象一下要求人工智能做同样的事情。虽然大型语言模型 (LLM) 和视觉语言模型 (VLM) 在编码、创意写作和通用推理方面表现出了惊人的能力，但在导航物理世界 (通过地图呈现) 方面，它们的能力仍然是一个巨大的盲点。

在这篇文章中，我们将深入探讨 MapEval , 这是一篇全面的研究论文，旨在对基础模型的地理空间推理能力进行基准测试。研究人员在覆盖 180 个城市的 700 个复杂问题上测试了 30 个主要模型 (包括 GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro) 。结果揭示了“智能”与“空间感知”之间存在的惊人差距。

问题所在: AI 并不“懂”地理

近期 AI 的进步主要集中在自主工具的使用上。我们拥有可以浏览网页或使用计算器的智能体 (Agent) 。然而，基于地图的推理是截然不同的。它需要异构上下文处理——结合非结构化文本 (评论) 、结构化数据 (坐标) 和视觉信息 (地图上的大头针) 。

该领域之前的基准测试受到了一定的限制。它们通常依赖于:

基于模板的查询: 询问诸如“法国的首都是哪里？”这样的简单问题，这依赖于记忆的事实而非推理。
简单的 API 查找: 询问两点之间的距离，而无需进行复杂的路线规划。
遥感: 分析卫星图像以了解土地覆盖情况，这与阅读导航地图截然不同。

MapEval 通过测试地理空间推理改变了这一现状。这涉及理解空间关系 (在 X 的北边) 、导航 (寻路) 和旅行规划 (多站点行程) 。

MapEval 简介

MapEval 是一个多模态基准测试，旨在通过三种不同的评估模式来评估基础模型: 文本 (Textual) 、基于 API (API-based) 和视觉 (Visual) 。

MapEval 概览，展示了标注过程以及三个评估任务: 文本、API 和视觉。

如图 1 所示，该框架建立在源自 Google Maps 的真实世界数据之上。研究人员不仅仅是抓取数据；他们创建了一个复杂的流程，以确保问题反映人类实际与地图交互的方式。

三项评估任务

为了真正了解模型在何处失败，MapEval 将挑战分解为三个具体任务。

1. MapEval-Textual (文本任务)

在此任务中，模型会获得包含地点、营业时间、坐标和评论等信息的丰富文本上下文。模型必须仅根据此文本回答多项选择题 (MCQ) 。这测试了模型从冗长、复杂的描述中筛选相关信息并进行推理的能力 (例如，“根据提供的时间表，这家餐厅周一营业吗？”) 。

2. MapEval-API (API 任务)

这是一个更加动态的任务。在这里，模型充当一个智能体 。它不会预先获得上下文。相反，它必须使用工具 (如 PlaceSearch 或 Directions) 查询数据库以找到答案。这模拟了现实世界的场景，即 AI 助手必须主动获取信息以帮助用户规划行程。

3. MapEval-Visual (视觉任务)

这可能是最具挑战性的任务。模型会获得一张数字地图的屏幕截图 (就像你在手机上看到的那样) ，并必须根据视觉线索回答问题。这涉及阅读标签、解释图标、理解道路网络以及直观地估计空间关系。

数据集的多样性和真实性

基准测试的优劣取决于其数据。MapEval 涵盖了跨越 54 个国家和 180 个城市的 700 个独特问题。这种地理多样性确保了模型不仅仅是记住了纽约或伦敦的热门地点，而是必须真正地对呈现的数据进行推理。

图表显示 MapEval 的类别统计数据，分为视觉任务和文本/API 任务。

问题分为五种类型 (图 2) :

地点信息 (Place Info) : 关于特定 POI (兴趣点) 的详细信息。
周边 (Nearby) : 寻找特定位置周围的事物。
路线 (Routing) : 从 A 导航到 B。
行程 (Trip) : 规划复杂的时间表 (例如，“参观博物馆 2 小时，然后喝咖啡”) 。
无法回答 (Unanswerable) : 提供的上下文不足以回答的问题，测试模型承认无知的能力 (这是一项关键的安全功能) 。
计数 (Counting) : 视觉任务特有的 (例如，“可以看到多少家医院？”) 。

研究人员使用了一个名为 MapQaTor 的自定义工具来高效地标注这些数据，确保高质量的标准答案。

用于创建数据集的 MapQaTor 界面截图。

为了确保全球代表性，数据集从世界各地提取上下文。如下面的热图所示，文本和视觉上下文均分布广泛，防止了以西方为中心的偏见。

热图显示全球文本和视觉上下文的地理分布。

核心挑战: 视觉地图理解

MapEval 最独特的一个方面是视觉组件。数字地图是复杂的信息伪影。它们包含文本 (街道名称) 、符号 (医院、公园的图标) 和几何结构 (道路、河流) 。

研究人员包含了不同缩放级别的地图快照，范围从广阔的城市视图到详细的街道级别。

缩放级别 1 (全球视图) 和缩放级别 16 (街道视图) 的地图快照并排比较，以及分布图表。

为什么缩放很重要？在高缩放级别 (详细视图) 下，模型必须阅读 OCR 文本并区分各个建筑物。在低缩放级别下，它必须理解更广泛的空间关系。

让我们看看这些视觉问题实际上是什么样子的。以下是要求模型对地图截图进行推理的示例。

示例 1: 地标识别 在这个例子中，模型必须识别特定旗杆附近的博物馆。

视觉评估查询示例，询问离卡塔尔旗杆最近的博物馆。

示例 2: 路线分析 在这里，模型展示了两条路线，必须确定距离。这需要读取地图界面上的微小数据标签 (“23 km”) 。

视觉评估查询示例，询问地图上两个位置之间的驾驶距离。

示例 3: 空间关系 这个例子询问哪个高尔夫俱乐部位于特定的十字路口。它要求模型追踪标记为 “Springfield” 和 “Houdaille Quarry” 的道路并找到交叉点。

视觉评估查询示例，要求识别特定道路交叉口的高尔夫俱乐部。

这些视觉任务对于当前的视觉语言模型来说极其困难，因为它们需要精确的定位和符号接地 (symbol grounding) ，而不仅仅是通用的图像描述。

实验与结果: 现实检验

研究人员评估了 30 个基础模型，包括专有巨头 (Claude-3.5-Sonnet, GPT-4o, Gemini-1.5-Pro) 和开源模型 (Llama-3, Qwen, Mistral) 。

1. 文本推理结果

在文本任务中，模型以文本形式获得了所有必要的信息。你可能会期望它们得分接近 100%，因为答案就在“文本中”。

条形图显示 MapEval-Textual 的分类准确率。Claude-3.5-Sonnet 领先，但行程规划 (Trip) 在所有模型中得分都很低。

主要结论:

天花板很低: 最好的模型 (Claude-3.5-Sonnet) 仅达到 66.33% 的准确率。相比之下，人类的表现高达 86.67% 。
行程规划很难: 看看上图 16 中的“Trip”类别。性能大幅下降 (大多数低于 50%) 。规划时间表需要时间算术 (增加持续时间) 和逻辑，这正是 LLM 所纠结的。
无法回答的问题: 许多模型很难说“我不知道”，经常会凭空捏造答案，而不是选择“无法回答”选项。

2. 基于 API 的推理结果

当模型必须充当智能体并自行查询数据时，性能进一步下降。

条形图比较 MapEval-Textual 和 MapEval-API 之间的准确率。

如图 3 所示，在提供文本 (粉色条) 和必须自行搜索 (黄色条) 之间存在显著的性能差距。

为何下降? 智能体经常卡住。它们可能会查询“餐厅”，但无法解析结果，或者陷入无限循环，试图寻找不存在的参数。
“循环”问题: 尤其是开源模型，在工具使用方面很吃力。图 19 强调了智能体因无法弄清楚下一步而达到迭代限制 (基本上是超时) 的频率。

图表显示智能体因迭代限制而停止的次数，GPT-3.5 显示出高失败率。

API 任务的分类细分显示，“周边 (Nearby) ”查询对模型来说尤其残酷。

MapEval-API 的分类准确率。周边查询在所有模型中表现都很低。

3. 视觉推理结果

视觉结果证实，阅读地图与阅读自然图像是截然不同的。

MapEval-Visual 的分类准确率。地点信息得分较高，但计数和路线规划很困难。

计数是弱点: 如“计数 (Counting) ”类别 (图 20) 所示，模型很难回答像“可见多少家医院？”这样的问题。它们经常产生幻觉，捏造图标或完全遗漏它们。
缩放敏感度: 有趣的是，模型性能随缩放级别波动。随着地图变得更加详细 (缩放倍数更高) ，视觉混乱增加，使得推理更加困难。

图表按缩放级别显示准确率。随着缩放增加，性能变化显著。

模型为何失败？“数学”问题

MapEval 论文中最有深刻见解的部分之一是错误分析。为什么模型在“行程 (Trip) ”规划或“路线 (Routing) ”方面表现如此糟糕？

事实证明，很大一部分原因归结为空间数学 。

基本方向: 计算点 B 是否在点 A 的“西北”方向需要理解坐标。
距离: 计算两个经纬度点之间的直线距离需要半正矢公式 (Haversine formula) 。众所周知，LLM 不擅长复杂的算术。

为了证明这一点，研究人员隔离了需要计算直线距离的问题。

图表显示 LLM 在直线距离问题上的准确率。性能普遍较差 (低于 50%) 。

如上图所示，准确率惨不忍睹。然而，研究人员提出了一个解决方案: 给模型一个计算器。

通过集成一个 LLM 可以调用来执行数学运算的计算器工具，准确率飙升。

图表显示集成计算器后直线距离问题的准确率有所提高。

图 14 显示，提供计算器将 Claude-3.5-Sonnet 在距离任务上的表现从约 51% 提高到了约 85%。这证明推理能力可能存在，但计算能力是瓶颈。在确定基本方向方面也观察到了类似的趋势。

图表显示集成计算器后基本方向问题的准确率有所提高。

结论与启示

MapEval 为 AI 社区提供了一个现实检验。虽然我们经常谈论“通用人工智能”，但最先进的模型无法可靠地导航地图——这是数十亿人类每天都在做的任务——凸显了时空推理方面的巨大差距。

主要结论:

人类仍然更胜一筹: 在所有任务中，人类基准 (80%+) 远远超过最好的 AI 模型 (~60-65%) 。
模态很重要: 模型在阅读文本与查看图像时的表现不同。视觉地图理解尤为不成熟。
智能体需要帮助: 基于 API 的智能体在参数管理和循环检测方面面临困难。
工具至关重要: 我们不应该期望 LLM 在它们的“脑子”里做复杂的几何运算。集成像计算器或专用路由引擎这样的工具是前进的方向。

MapEval 的发布为未来的模型提供了严格的标准。为了让 AI 真正能在物理世界中提供帮助——无论是自动驾驶、物流规划，还是仅仅帮助游客找到一家咖啡店——它需要掌握地图。

问题所在: AI 并不“懂”地理#

MapEval 简介#

三项评估任务#

1. MapEval-Textual (文本任务)#

2. MapEval-API (API 任务)#

3. MapEval-Visual (视觉任务)#

数据集的多样性和真实性#

核心挑战: 视觉地图理解#

实验与结果: 现实检验#

1. 文本推理结果#

2. 基于 API 的推理结果#

3. 视觉推理结果#

模型为何失败？“数学”问题#

结论与启示#