简介

想象一下你正开车行驶在繁忙的高速公路上。你看到一辆车从右侧汇入，前方一辆卡车正在刹车，还有一个行人在路口等待。你的大脑瞬间会在三维空间中映射出这些物体，为它们分配重要性，并制定计划: “为卡车减速，留意汇入的车辆。”你不会去思考原始的 GPS 坐标或像素值，而是通过物体及其相互关系来思考。

这就是自动驾驶 (AD) 系统的圣杯。近年来，多模态大型语言模型 (MLLMs) 在这一领域展现出了巨大的潜力。这些模型可以观察图像并回答诸如“自车 (ego vehicle) 应该做什么？”之类的问题。然而，这里存在一个显著的语言障碍。虽然 LLM 精通英语，但它们在表达“坐标”方面却出奇地差。

当标准模型试图描述物体位置时，它通常会输出基于文本的坐标 (例如 <1018.5, 510.8>) 。这就产生了一个“语义鸿沟”。模型被迫将视觉概念转化为复杂的数字文本格式，这往往会导致幻觉或不准确。汽车可能看到了物体，却无法正确描述其位置，从而导致危险的规划错误。

在这篇深度文章中，我们将探讨由华南理工大学和百度公司的研究人员提出的一种名为 MPDrive 的新框架。MPDrive 提出了一个巧妙的变通方案: 与其强迫 LLM 预测复杂的坐标，不如直接用视觉标记 (数字) 标注图像，然后让 LLM 预测这个数字？这听起来很简单，但其实现涉及复杂且精妙的架构选择，旨在弥合视觉感知与语言推理之间的差距。

问题所在: 空间的语言

为了理解为什么需要 MPDrive，我们首先需要看看当前的 MLLM 如何处理自动驾驶任务。这些任务对应于 AD-VQA (自动驾驶视觉问答) 。系统接收来自汽车摄像头的图像，并被问及与感知 (“行人在哪里？”) 、预测 (“那辆车会左转吗？”) 和规划 (“我应该刹车吗？”) 相关的问题。

传统方法依赖于文本回归。模型看到图像，并试图输出一串代表物体边界框或中心点的文本。

主流 MLLM 与 MPDrive 之间物体响应过程的对比。

如图 1 所示，主流方法 (红框) 尝试输出原始坐标。这对于语言模型来说在计算上是困难的，因为数字对于 LLM 来说只是 Token；它们缺乏内在的空间意义。如果模型把数字稍微搞错一点，它可能引用的就是一片空荡荡的道路，而不是那一辆车。

MPDrive 方法 (绿框) 从根本上改变了输出空间。系统不再输出坐标，而是对图像进行预处理以检测物体，并在它们上方覆盖一个视觉“标记” (带数字的标签) 。现在，LLM 的任务从“预测坐标”变成了“读取车上的数字”。这确保了语言表达的一致性 。如果模型说“物体 1”，它明确指的就是标有“1”的物体，从而弥合了语义鸿沟。

解决方案: MPDrive 架构

MPDrive 的核心理念是基于标记的提示学习 (Marker-Based Prompt Learning) 。该框架将精确定位的繁重工作委托给一个专门的检测模型 (“检测专家”) ，让 LLM 专注于推理。

该架构由两个主要创新组成，旨在处理这些标记的同时不丢失场景的视觉保真度:

标记控制网络 (MCNet)
感知增强空间提示学习 (PSPL)

让我们通过下面的系统概览图来拆解整个流程。

MPDrive 框架概览，展示了从检测到响应生成的流程。

如图 2 所示，该过程始于一个检测专家 (具体来说是一个名为 StreamPETR 的模型) 。这位专家识别交通要素 (汽车、卡车、行人) 并生成一张视觉标记图像 (\(I_m\))。这张图像本质上是原始视图，但在检测到的物体上覆盖了半透明的掩码和数字索引。

然后，系统需要同时消化原始图像 (\(I\)) 和这张新的标记图像 (\(I_m\))。这就引出了第一个主要组件。

1. 标记控制网络 (MCNet)

你可能会问: “为什么不直接把标记图像输入给 LLM？”问题在于遮挡。在汽车上覆盖一个巨大的数字“1”和彩色掩码可能会掩盖关键细节，比如汽车的刹车灯是否亮起，或者转向灯是否在闪烁。模型既需要标记的空间清晰度，也需要原始图像的视觉保真度。

为了解决这个问题，研究人员引入了 MCNet 。该模块使用了受 ControlNet 启发的双编码器结构。

冻结编码器 (\(E\)): 上方路径处理原始、干净的图像 (\(I\))。该编码器的参数 (\(\theta\)) 是冻结的，意味着它们在训练期间不会更新。这保留了基础模型预训练的视觉知识。
控制块 (\(E_c\)): 下方路径处理标记图像 (\(I_m\))。这个编码器 (\(\theta_c\)) 是原始编码器的可训练副本。它专门学习如何解释标记。
零初始化线性层 (\(Z\)): 这是一个关键技巧。控制块的输出通过一个权重和偏置都初始化为零的线性层。

这些特征的融合通过逐元素相加发生，如下列公式所述:

公式 1: 场景级特征融合。

这里，\(y_s\) 代表最终的场景级特征。因为层 \(Z\) 被初始化为零，所以在训练的最开始，模型的行为与原始冻结模型完全相同 (标记输入的影响为零) 。随着训练的进行，模型通过反向传播慢慢学会整合来自标记的空间信息。这确保了视觉标记在指导模型的同时，不会破坏原始的语义特征。

2. 感知增强空间提示学习 (PSPL)

提取出场景级特征 (\(y_s\)) 后，MPDrive 现在需要帮助 LLM 理解特定物体。拥有道路的全局视图固然好，但如果问题是“左边的车在转弯吗？”，模型需要针对该特定实例的聚焦信息。

PSPL 生成两类提示以输入 LLM:

场景级提示 (Scene-Level Prompts) : 直接源自 MCNet 输出，捕捉整个环境。
实例级提示 (Instance-Level Prompts) : 通过聚焦于特定物体得出。

为了创建实例级提示，模型利用检测专家提供的掩码。它对场景特征执行掩码平均池化 (MAP) 。本质上，它获取整个图像的特征图，并“剪切出”对应于特定物体 (如物体 \(k\)) 的特征。

公式 2: 用于实例级特征的掩码平均池化。

在这个公式中，\(r_k\) 是第 \(k\) 个物体的区域掩码。结果 \(y_i^k\) 是一个仅代表该特定车辆或行人的浓缩特征向量。

这些特征 (场景和实例) 经过多层感知机 (MLP) 处理，变成 LLM 可以理解的视觉 Token (\(T_s\) 和 \(T_i\))。

LLM 推理阶段

最后，LLM 接收:

来自用户问题的文本 Token (例如，“物体 1 在做什么？”) 。
场景级视觉提示 (\(T_s\))。
实例级视觉提示 (\(T_i\))。

LLM 处理这些输入以生成答案。关键在于，如果答案需要确定位置，LLM 会预测标记索引 (\(k\))。然后，系统从检测专家处查找标记 \(k\) 的坐标，并将其作为最终的空间输出。这减轻了 LLM 进行回归任务的负担，将空间推理视为一种分类和语言任务。

实验与结果

研究人员在两个具有挑战性的数据集上评估了 MPDrive:

DriveLM: 一个专注于多视图图像的数据集，需要进行关于感知、预测和规划的推理。
CODA-LM: 一个专注于“长尾场景 (corner cases) ”的数据集——即对 AI 来说极其困难的罕见且危险的驾驶场景。

定量分析

结果显示，MPDrive 显著优于现有的最先进方法 (SOTA) 。

表 1: DriveLM 数据集上的定量评估。

查看表 1 , 我们可以看到与 EM-VLM4AD、MiniDrive 和 InternVL-2 等模型的对比。

空间感知 (Match) : MPDrive 获得了 13.43 的分数，几乎是 InternVL-2 (7.59) 的两倍。该指标衡量模型定位物体的准确程度。显然，视觉标记发挥了作用。
语言指标 (CIDEr, METEOR) : 该模型在语言质量指标上也得分最高。这表明，通过将坐标难题卸载给视觉标记，LLM 有更多的能力来生成连贯、准确的文本描述。

定性分析: 眼见为实

数字固然重要，但在实际中表现如何？博客文章包含了视觉对比，以展示推理能力的差异。

图 3: InternVL-2 与 MPDrive 响应结果的对比。

在图 3 中，我们看到并排对比。

上方示例: 任务是识别重要物体。真值 (GT) 根据物体的运动确定了特定物体的优先级。InternVL-2 (红色) 感到困惑，识别了错误的优先级并幻觉出错误的坐标。MPDrive (绿色) 几乎完美匹配了真值，正确识别了相关标记。
下方示例: 问题询问关于与行人的潜在碰撞。InternVL-2 错误地评估了风险，声称没有碰撞路线。MPDrive 正确识别了行人的标记，分析了空间关系，并正确预测了需要考虑行人的情况 (“适度右转”) 。

模型在看哪里？

为了验证模型是否真的关注到了正确的事物，研究人员可视化了注意力图 (视觉提示) 。

图 4: 视觉提示激活示例。

在图 4 中，热力图展示了模型的关注点。

InternVL-2 (中间行) : 注意力是分散的。在左图中，它完全漏掉了卡车。在右图中，它将注意力分散在无关的道路区域。
MPDrive (底行) : 注意力敏锐且集中。它高亮了与驾驶任务相关的特定车辆。这证实了实例级提示 (\(T_i\)) 有效地引导 LLM 的注意力到了由标记定义的特定区域。

消融实验: 我们需要所有组件吗？

研究人员进行了消融实验，以证明架构的每个部分都很重要。

表 3: MPDrive 不同部分的消融实验。

表 3 揭示了每个组件的贡献:

仅使用视觉标记: 单独添加标记提高了空间匹配度 (7.59 \(\to\) 11.89) ，但略微损害了语言准确性 (82.54 \(\to\) 80.42) 。这证实了如果处理不当，标记可能会遮挡图像特征的假设。
添加 MCNet: 当添加 MCNet 后，语言指标显著提高 (BLEU-4 和 METEOR 上升) 。这证明双编码器策略成功恢复了因标记而丢失的视觉特征。
添加实例级提示: 完整模型 (最后一行) 在所有方面都取得了最佳分数。实例级特征提供了高精度所需的细粒度细节。

结论与启示

MPDrive 论文提出了一个令人信服的观点: 不要强迫大型语言模型去做它们不擅长的任务。 LLM 是概率性文本生成器，而不是坐标回归器。

通过将连续的空间坐标问题转化为离散的、基于文本的读取视觉标记的问题，MPDrive 弥合了自动驾驶 VQA 中的语义鸿沟。

MCNet 确保这些标记不会降低场景的视觉质量。
PSPL 确保模型既关注全局背景，也关注特定物体的细节。

这带来的启示是重大的。随着我们迈向端到端的自动驾驶系统——由 AI “大脑”做出驾驶决策——准确感知和描述空间关系的能力是不可妥协的。MPDrive 表明，有时提高 AI 性能的最佳方法不仅仅是更大的模型，而是一种更智能的数据表示方式。

对于该领域的学生和研究人员来说，这篇论文是提示工程和多模态融合的一个极佳案例研究。它证明了如果架构得当，视觉提示可以像文本提示一样强大。

本博客文章解读了 Zhang 等人撰写的研究论文《MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving》。

简介#

问题所在: 空间的语言#

解决方案: MPDrive 架构#

1. 标记控制网络 (MCNet)#

2. 感知增强空间提示学习 (PSPL)#

LLM 推理阶段#

实验与结果#

定量分析#

定性分析: 眼见为实#

模型在看哪里？#

消融实验: 我们需要所有组件吗？#

结论与启示#

简介