Teaching Machines to ‘See’ Space: Grid-Based Spatial Intelligence for Autonomous Driving
Introduction: Beyond Linguistic Shortcuts in AI Spatial Reasoning
想象询问一辆自动驾驶汽车: “哪辆车在那辆黑色卡车的后面,它有多远?” 对人类来说,回答这个问题涉及对空间关系的直观理解,依赖于内在的心理地图和选择性注意力。我们本能地理解“在左边”“在前面”等概念以及不同的距离感,并将它们与视觉焦点结合起来。
然而,对于当前的多模态大语言模型 (Multimodal Large Language Models,MLLMs) 来说,评估视觉-空间智能 (Visual-Spatial Intelligence,VSI) 通常依赖视觉问答 (Visual Question Answering,VQA) 任务。虽然 VQA 要求模型解释图像并生成文本答案,但它常常将语言能力与真实的空间推理混为一谈。正如论文 “Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study” 所指出的,这种方法可能允许模型通过语言捷径取得成功,从而掩盖其真正缺乏几何理解的事实。
本文提出了一种新颖且更真实的空间智能表示与评估方法: 空间智能格 (Spatial Intelligence Grid,SIG) 。SIG 是一种结构化的格子化方案,显式编码对象布局、对象间关系以及基于物理的先验。它为文本之外提供了一个组合性的场景结构表示,便于 MLLM 进行推理。作者展示了如何将 SIG 用作稳健的评估格式 (并提出基于图的全新指标) ,以及如何将其作为上下文学习 (In-Context Learning,ICL) 的有效底座,显著提升 MLLM 在空间推理上的表现,尤其是在自动驾驶 (Autonomous Driving,AD) 这一高要求领域。为了支持研究,作者还发布了 SIGBench —— 一个包含 1.4K 驾驶帧并带有真值 SIG 标签与人工注视轨迹的基准数据集。
在本文中,我们将深入探讨 SIG 的动机,解析其表示形式,拆解创新的评估指标,理解 SIG 如何改善少样本学习,并审视实验揭示的当今 MLLM 在 VSI 上的能力。我们将借助论文中的图示,将这些复杂概念具体化并易于理解。
The Foundation: Why Grids and Graphs for Spatial Intelligence?
使用格网与几何构造将三维世界转译为二维表示的理念有着深厚的历史渊源。论文以一个启发性的类比开篇: 文艺复兴时期的艺术家如阿尔布雷希特·丢勒 (Albrecht Dürer) 著名地使用基于格网的“绘画机械”系统地将三维场景分解。通过将视觉观测投射到结构化格网上,他们可以精确记录和解释几何与图形关联,如图 1 所示。
Figure 1: Examples of Human VSI in Painting. Abraham Bosse illustrates systematic, grid-based methods for rendering 3D space on a 2D canvas (left) and in portrait painting (middle). The right panel shows procedures for drawing a cast with graphical priors.
这种历史性的艺术实践提供了深刻的见解: 格网思想的强大之处在于它将连续、高维的视觉数据转化为一种“结构化、可组合”的表示。不再只是原始像素,而是离散的节点和格子,便于推理、比较和与物理先验结合。
在现代自动驾驶系统中,这一思想有很强的共鸣。鸟瞰视图 (Bird’s-Eye-View,BEV) 格网与场景图广泛用于感知、规划与控制模块。然而,尽管如此,许多 VSI 基准仍通过纯文本的 VQA 问题来评估模型。这种方式常常将对象感知与定位精度与用自然语言表达关系的能力混为一谈。SIG 的目标是通过提供显式的格网与图结构表示来认真区分这些问题,并配以专门为该结构设计的评估指标。
Unpacking SIG: A Novel Representation for Spatial Intelligence
在核心层面,空间智能格 (SIG) 是一个离散的二维格网,在论文实验中通常采用 10x10 的鸟瞰 (BEV) 格。格网中的每个单元格可以显式编码对象实例,如车辆、交通标志、红绿灯以及自车 (ego vehicle) 。基于这个基本 SIG 表示,可以派生出若干关键组件:
- Spatial Relation Graph (SRG) : 这是一个有向图,其中节点表示对象实例 (例如 “黑车 1”、“标志 2”) ,而边则编码对象之间的空间关系,包括相对方向 (例如“前左”) 和在格网上的离散距离。
- Spatial Relation Paragraph (SRP) : 该组件将 SRG 中的结构化空间关系序列化为文本形式,呈现为成对关系的自然语言描述。它用于评估 MLLM 预测语言层面空间介词 (例如“在……背后”、“相邻于”) 的能力。
- Human-like SIG (类人 SIG) : 这是对基础 SIG 的扩展,加入了来自人类凝视图的注意力权重。这些凝视图最初在图像空间中记录,通过单应变换投射到格网空间。该“类人”加权允许设计优先考虑人类驾驶员关注对象的评估指标,从而更贴近人类感知重要性的评价。
图 2 提供了该流程的总体概览,展示了一张驾驶场景图像如何处理以生成 SIG,进而形成 SRG 与 SRP,并展示了人类凝视如何被整合以形成类人 SIG。
Figure 2: Overview of Human-like SIG in AD Scenario. This diagram shows how SIG represents spatial relations, which are then extracted into a Spatial Relation Graph (SRG) and a Spatial Relation Paragraph (SRP). Human gaze attention is also transformed to SIG size to create human-like SIG.
The Core Methodology: SIG Representation and Evaluation Metrics
空间智能格 (SIG) 在简洁中蕴含强大。它将图像中的实体映射到离散格坐标上,以近似它们的鸟瞰 (BEV) 位置。对于车辆,会编码类型 (轿车、卡车、面包车、公交车) 、颜色以及在图像中从左到右的顺序等属性。这种结构化表示随后允许构建捕捉精确相对方向与接近关系的 SRG。
为了用 SIG 定量评估 MLLM 的 VSI,作者提出了三项专为格网与图结构设计的评估指标:
- Multi-Level Spatial Matching (MLSM) : 严格衡量 MLLM 在 SIG 内的定位与身份关联能力。
- Spatial Relation Graph Similarity (SRGS) : 基于图编辑距离的复杂指标,用以评估预测 SRG 与真值 SRG 之间的结构与关系准确性。
- Semantic Relational Distance (SRD) : 量化 SRP 中预测介词的语义“正确性”,评估模型在文本中描述方向和距离关系的准确度。
下面逐一详解这些指标。
Multi-Level Spatial Matching (MLSM): Pinpointing Objects with Precision
MLSM 的设计目标是判断预测的 SIG 与真值 SIG 对齐的准确性,同时对属性匹配与空间容差具有良好兼容性。
其工作流程如下:
- Bipartite Matching : 首先进行二分图匹配,将预测对象与对应的真值对象 (车辆、交通标志、红绿灯) 配对,帮助实现稳健的身份关联。
- Cost Function : 对于每个候选配对,计算基于距离的代价函数。对于车辆,代价 \(c_v\) 计算为: \[ c_v = d \cdot \omega_c \cdot \omega_o \cdot \omega_t \] 对于交通标志和红绿灯,\(c_{sl}\) 为: \[ c_{sl} = d \cdot \omega_o \] 其中,\(d\) 表示对象在 SIG 上位置的欧氏距离。权重 \( \omega_c, \omega_o, \omega_t \) (分别对应颜色、顺序和类型匹配) 很关键: 当某属性不匹配时它们取值为 1,而匹配时会小于 1。也就是说,对于属性匹配的对象,允许更大的空间容差,使得当类型、顺序或颜色正确时,度量对轻微位置误差更为宽容。
- Hierarchical Matching Levels : 匹配完成后,落在距离阈值 \( \alpha \) 内且属性对齐的配对被视为真正例 (True Positives,TP) 。没有预测匹配的真值对象为假阴性 (False Negatives,FN) ,没有真值匹配的预测对象为假阳性 (False Positives,FP) 。MLSM 对车辆评估三层匹配级别 (相同类型;相同类型 + 顺序;相同类型 + 顺序 + 颜色) ,对标志/灯评估一层 (相同顺序) 。这让 MLSM 能够敏感地反映不同粒度的定位与识别精度。
最终,MLSM 给出归一化的精确率、召回率、F1 分数以及关联准确率 (AssA) ,并在多个距离阈值上取平均。二分图匹配使 MLSM 对出现类似对象被交换的情形具有稳健性。图 3 直观地展示了 MLSM 与随后的 SRGS 中涉及的步骤。
Figure 3: Illustration Examples of MLSM and SRGS. This diagram shows how objects are matched using bipartite matching for MLSM (including TP, FP, FN calculation) and SRGS (highlighting node and edge edit distances).
Spatial Relation Graph Similarity (SRGS): Evaluating Structural Relationships
与关注对象定位与识别的 MLSM 不同,SRGS 评估的是预测的空间关系图 (SRG) 中“关系”的保真度,量化预测 SRG 与真值 SRG 的相似性。
其要点如下:
- Graph Representation : SRG 被定义为有向图 \( \mathcal{G} = (V, E) \),其中 \(V\) 为节点集 (对象) ,\(E\) 为有向边集 (对象间的空间关系) 。每条边 \(e_{ij} = (v_i, v_j)\) 编码从对象 \(v_i\) 到 \(v_j\) 的空间关系 (方向 + 距离) 。
- Graph Edit Distance (GED) : SRGS 使用 GED 来量化相似性,GED 衡量将预测图变换为真值图所需的最少操作数 (插入、删除、替换) 。
- Node Edit Distance (\(D_N\)) : 该部分考虑节点的编辑代价:
- Substitution cost (\( \delta_{\mathrm{sub}}(v_i, \hat{v}_{i'}) \)) : 将预测节点 \( \hat{v}_{i'} \) 修改为真值节点 \( v_i \) 的代价,考虑位置差异与属性不匹配惩罚 \( \lambda_N \),并包含欧氏距离 (\(d^N\) ) 。
- **Deletion cost (\( \delta_{\mathrm{del}}(\hat{v}_{i'}) \)) **: 删除未匹配预测节点的代价。
- **Insertion cost (\( \delta_{\mathrm{ins}}(v_j) \)) **: 添加未匹配真值节点的代价。 节点编辑距离的总和为: \[ D_N(\mathcal{G}, \hat{\mathcal{G}}) = \sum_{(v_i, \hat{v}_{i'}) \in M} \delta_{\mathrm{sub}}(v_i, \hat{v}_{i'}) + \sum_{v_i \in \mathcal{V}} \delta_{\mathrm{del}}(v_i) + \sum_{\hat{v}_j \in \hat{\mathcal{V}}} \delta_{\mathrm{ins}}(\hat{v}_j) \]
- **Edge Edit Distance (\(D_E\)) **: 类似地,为边的替换、删除与插入定义代价,考虑空间关系 (方向) 差异以及边相关的属性不匹配惩罚 \( \lambda_E \)。
- **Total Graph Edit Distance and Similarity **: 总距离 \(D_{\mathrm{total}}\) 将节点与边编辑距离按权重 \( \gamma \) 与 \( \beta \) 组合: \[ D_{\mathrm{total}} = \gamma D_N(\mathcal{G}, \hat{\mathcal{G}}) + \beta D_E(\mathcal{G}, \hat{\mathcal{G}}) \] 该总距离随后被归一化以得到介于 0 到 1 之间的相似度分数 \(S\): \[ S = \max\left(0, \ 1 - \dfrac{D_{\mathrm{total}}}{D_{\mathrm{max}}}\right) \] 其中 \(D_{\mathrm{max}}\) 为最坏情况下的距离 (所有节点和边都不匹配) 。
SRGS 的强大之处在于它既对图的结构完整性 (缺失或多余边) 敏感,也对关系语义的正确性 (错误的方向标签) 敏感。论文还提出了类人 SRGS 变体,其中节点与边的代价会按由人类凝视得到的注意力权重缩放,确保对高度显著对象的错误给予更严厉的惩罚。
Semantic Relational Distance (SRD): Measuring Prepositional Accuracy
SRD 量化 SRP 中预测介词与真值介词之间的语义“距离”或差异,用以评估模型选择描述空间关系的词汇的准确性。
核心思想依赖于为介词构建的结构化刻度:
- **Directional Relations **: 这些关系按环形排列为 8 个位置,如图 4 所示。任意两个方向性介词之间的语义距离定义为沿环最少步数。例如,“在左后方 (back left) ”与“在前面 (front) ”之间的距离是 3 步 (而不是顺时针的 5 步) 。
Figure 4: Directional Relation Circle. This circle illustrates 8 directional prepositions, where the semantic relational distance is the smallest step count between any two prepositions.
- **Proximal Relations **: 这些按从近到远线性排序: “相邻 (adjacent to) ”、“靠近 (close to) ”、“距离一点 (at a distance from) ”、“远离 (far from) ”、“非常远 (far away from) ”。语义距离即为它们在线性尺度上索引差的绝对值。例如,“相邻”与“远离”之间的距离为 3。
基于这些定义的距离,SRD 计算预测介词的平均绝对误差 (MAE) 、均方误差 (MSE) 和准确率。类似于 SRGS,论文还提出了类人 SRD,其中距离按两个被引用对象的平均注意力进行加权,使得高度关注的关系对总误差的贡献更大。
Projecting Human Gaze into the Grid
为构建类人 SIG,作者将人类凝视或显著性预测从图像空间投射到格网表示中。这需要估计一个将图像像素坐标 \((u, v)\) 映射到格网坐标 \((X, Y)\) 的单应矩阵 \(H\)。变换方程为:
\[ X_i = \frac{h_{11} u_i + h_{12} v_i + h_{13}}{h_{31} u_i + h_{32} v_i + h_{33}} \]\[ Y_i = \frac{h_{21} u_i + h_{22} v_i + h_{23}}{h_{31} u_i + h_{32} v_i + h_{33}} \]一旦单应性建立,原始图像注意力图 \(A_{\mathrm{Image}}\) 被投影并归一化为 SIG 注意力图 \(A_{\mathrm{SIG}}\):
\[ A_{\mathrm{SIG}}(i,j) = \frac{A_{\mathrm{Image}}(\lfloor x_{ij} \rfloor, \lfloor y_{ij} \rfloor) - \min_{u,v} A_{\mathrm{Image}}(u,v)}{\max_{u,v} A_{\mathrm{Image}}(u,v) - \min_{u,v} A_{\mathrm{Image}}(u,v)}, \quad \text{s.t.}\; [x_{ij}, y_{ij}, 1]^{\top} = H^{-1}[i, j, 1]^{\top} \]该过程生成了 SIG 每个单元格上的注意力权重,随后可用于在类人 SRGS 和 SRD 中按注意力缩放节点与边的代价。这意味着对人类驾驶员通常会关注的对象所犯的错误会被更重地惩罚,使评估更贴合人类感知的重要性。图 11 直观地展示了从图像级注意力图到投影后 SIG 注意力图的转换。
Figure 11: Example of image and SIG size human gaze attention map. The left panel shows human gaze attention on a real-world driving image. The right panel shows this attention map transformed and projected onto the SIG grid.
SIG as a Powerful Prompt Format for In-Context Learning (ICL)
研究中最引人注目的方面之一是展示了 SIG 不仅仅是一个评估格式,还是一种极为有效的 In-Context Learning (ICL) 输入/输出表示。
作者提出构建这样形式的提示 (prompt) : 上下文示例为图像与其真值 SIG 的配对 (以 JSON 文件表示) 。给定一个新的查询图像 (带有车辆的边界框) ,多模态大语言模型 (MLLM) 被要求直接输出一个 SIG JSON。直观上,该过程提供了一个结构化的位置与关系“词汇表”,模型可以学习将视觉输入映射到这些结构化表示上。
该方法称为 ICL-SIG,并与更传统的 VQA 风格少样本设置 (称为 ICL-MC,多项选择) 直接比较。在 ICL-MC 中,上下文示例由与空间推理相关的多项选择问答对组成。
核心假设是 ICL-SIG 帮助 MLLM 更有效地内化空间映射规则,而不仅仅依赖通用的 VQA 模板。该结构化学习信号预计能带来更显著、更稳定且更全面的模型 VSI 改进。
Experiments: SIGBench and Unveiling MLLM Spatial Capabilities
为严格检验他们的假设,作者开发了 SIGBench 并对多种先进 MLLM 进行了大量实验。
The SIGBench Benchmark
SIGBench 是一个精心构建的基准,旨在量化 MLLM 在自动驾驶场景下的格网式与类人 VSI 能力。它包含来自真实驾驶数据集的 1,423 帧。每帧都经过精细标注,包括:
- 真值 SIG 与类人 SIG。
- 真值 SRP 与类人 SRP。
- 对应的人类凝视注意力图 (图像尺寸) 。
标注流程与任务示例在图 5 中展示。
Figure 5: Annotation pipeline and tasks (SIGC and SRPF). Panel (a) shows the process of annotating SIGBench, from raw images to ground-truth SIGs and human gaze maps. Panel (b) illustrates examples of the Spatial Intelligence Grid Creation (SIGC) and Spatial Relation Paragraph Filling (SRPF) tasks.
SIGBench 支持若干关键任务:
- **Grid-based VSI Tasks **:
- **Spatial Intelligence Grid Creation (SIGC) **: 提示 MLLM 生成一个 10x10 的 SIG (以 JSON 文件形式) ,显示车辆、交通标志、红绿灯和自车的估计位置。
- **Spatial Relation Paragraph Filling (SRPF) **: 给模型一些带空白的句子 (方向性与接近性介词位置) ,模型必须选择正确的介词索引来填空。
- **Human-like VSI Tasks **:
- **Human-like SIGC and SRPF **: 与格网任务类似,但在评估中引入了人类凝视注意力,按对象对错误加权。
- **Gaze Prediction **: 评估 MLLM 基于前帧预测当前帧的人类凝视注意力图的能力。
Key Experiment Types
研究包含若干重要实验设置:
- **Zero-shot Evaluation **: 在 SIGBench 上使用了多款顶级 MLLM (开源与专有,包括 GPT、Gemini、Claude、InternVL、Qwen-VL 系列) 进行零样本评估,使用论文提出的新指标进行衡量。
- **3-shot ICL Experiments **: 在一个更小的子集 SIGBench-tiny 上,进行 3-shot ICL 比较试验,将 ICL-SIG 与 ICL-MC (多项选择 VQA 风格) 在 GPT-4o 与 Gemini-2.5-Pro 等领先模型上对比。
- **Cross-Domain Generalizability **: 为测试 SIG 的领域无关性,作者从现有数据集构建了概念验证基准 (SIG-COCO 与 SIG-ARKitScenes) ,并在其上运行 ICL 实验。
- **Human-like VSI Tasks **: 评估凝视预测与基于注意力加权的 SRGS/SRD 指标,以了解 MLLM 模拟人类注意力的能力。
Selected Results and Insights
实验得出若干重要发现:
- **Zero-shot Performance **: 尽管一些顶级专有模型 (如 Gemini-2.5-Pro、GPT-4o) 在 SIGBench 的零样本推理上总体优于其他模型,但它们在所有指标上仍然远远低于人类水平 (见论文表 2) 。常见失误包括对小型或边缘对象的误定位,以及在拥挤场景中对象身份混淆。
- **ICL Efficacy **: ICL-SIG 的优势持续显现。在 GPT-4o 和 Gemini-2.5-Pro 上,ICL-SIG 带来了在几乎所有 VSI 指标上的更大、更稳定且更全面的提升,相较于零样本基线显著优越。关键是,ICL-SIG 通常比 ICL-MC 更好,后者的增益往往不稳定,有时甚至比零样本更差 (详见论文表 3) 。图 6 用雷达图直观总结了这些性能趋势与 ICL 对比。
Figure 6: Visualization of SIG-empowered VSI results. Radar charts show human and model performance in grid-based tasks (a), and ICL results for GPT-4o (b) and Gemini-2.5-Pro (c). ICL-SIG consistently improves VSI over zero-shot baselines and ICL-MC.
- **Cross-Domain Generalizability **: ICL-SIG 在 SIG-COCO 与 SIG-ARKitScenes 上的积极结果 (见论文表 5) 证实了 SIG 是一种基础性的、领域无关的表示,只要目标类型本体 (ontology) 被定义,它就能应用于自动驾驶之外的各种视觉任务。
- **Human-like VSI Challenges **: 模型在凝视预测任务上普遍表现不佳,常常退而求其次使用对前序注意力图的简单平均,有时该平均策略甚至优于更复杂的方法。此外,在注意力加权的 SRGS 与 SRD 下的模型排名与纯格网性能高度一致 (见论文表 6) 。这表明当前 MLLM 在复杂 AD 场景中仍难以像人类那样区分场景对象的重要性和优先级。
Visual Examples and Practical Considerations
为更深入理解模型表现,论文展示了预测 SIG 与真值 SIG 的叠加可视化 (图 9) 。这些视觉对比有效地突出了模型典型错误,例如对象位移、漏检小物体与身份互换,提供了定性见解。
Figure 9: Visualization of predicted SIG and GT SIG. This figure compares a model’s predicted Spatial Intelligence Grid (a) with the ground-truth SIG (b), showing object placements and potential discrepancies.
从实用角度,作者还分析了所提评估指标的运行效率。正如论文表 4 汇总,MLSM、SRGS 与 SRD 在标准 CPU (AMD Ryzen 5900X) 上对典型驾驶场景中不同对象数量的帧执行开销均低于毫秒级。这使得这些指标非常适合用于实时评估流水线。
图 7 (左) 给出了 SIGBench 中对象计数的直方图分布;图 7 (右) 展示了多次 ICL 随机抽样实验的误差条统计。该消融研究进一步证明 ICL-SIG 在均值与中位数上通常优于 ICL-MC,展示了其对上下文示例选择的鲁棒性。
Figure 7: (a) Data distribution (objects per sample). (b) Error bar stats for multi-run ICL. Panel (a) shows the distribution of total objects per sample in SIGBench and SIGBench-tiny. Panel (b) illustrates the variability of ICL-MC and ICL-SIG performance across multiple runs, with ICL-SIG showing more consistent improvements.
Key Takeaways and Future Directions
这项研究为采用空间智能格 (SIG) 提出了令人信服的理由,并为发展更具空间感知能力的 AI 提供了重要见解:
- **结构化表示至关重要 **: SIG 要求 MLLM 输出显式的空间地图,而不是仅依赖文本答案。这从根本上减少了语言能力与真实空间认知的混淆。
- **面向图的评估指标揭示更深层次的问题 **: 所提出的指标 —— 定位的 MLSM、关系结构的 SRGS 与语义介词误差的 SRD —— 揭示了传统 VQA 准确率无法捕捉的不同失败模式。
- **SIG 作为有效的 ICL 基底 **: 提供少量图像到 SIG 的示例能显著提升 MLLM 将带边界框的图像映射到鸟瞰 (BEV) 格网的能力,优于传统的多项选择 VQA 提示。
- **人类先验仍被低估 **: 虽然将人类凝视投影到 SIG 允许进行按注意力加权的评估,但当前 MLLM 仍难以在复杂自动驾驶场景中持续展现类人注意力的选择性。这凸显了未来研究的重要方向。
- **领域无关的泛化性 **: SIG 的有效性超越了自动驾驶,展示了它在具有定义良好对象本体的各类视觉任务中的潜力。
尽管取得了重要进展,作者也坦率地承认若干限制,为未来工作指明方向:
- **单帧聚焦 **: SIGBench 目前针对单帧设置,尚未评估动态对象跟踪或时间关系,而这些对真实场景至关重要。未来工作需将 SIG 拓展到时空格网或序列图结构。
- **学习范式的探索 **: 尽管 SIG 在上下文学习中效果显著,但基于 SIG 的微调 (fine-tuning) 与结合人类反馈的强化学习潜力仍有待深入研究。
- **更丰富的凝视预测建模 **: 凝视预测的评估显示,简单的平均基线有时优于更复杂的方法,这表明需要更精细的模型来捕捉人类注意力的时空特性。
Conclusion
空间智能格 (SIG) 代表了一个清晰、实用且影响深远的理念: 通过格网式表示将空间结构明确化,并用真正关心几何与关系结构的指标来评估模型。论文有力地证明了 SIG 不仅是更优的评估工具,还是对多模态大语言模型 (MLLMs) 强有力的学习信号,尤其是在诸如自动驾驶 (AD) 等安全关键领域。通过对场景结构化并在其上进行推理,SIG 在像素级处理与无结构语言答案之间提供了一个令人信服的中间路径。
这一方法引发了许多引人入胜的后续研究方向,包括开发时序 SIG、端到端学习 SIG 编码器,以及将基于 SIG 的损失直接集成到感知或规划模块中。对于任何从事视觉-语言系统、机器人或自动驾驶的研究者来说,SIG 提供了一个有原则的数据模式和一个实用的衡量标尺,用以推进视觉-空间智能的研究。
](https://deep-paper.org/en/paper/2510.21160/images/cover.png)