简介

想象一下你正开车行驶在繁忙的高速公路上。你看到一辆车从右侧汇入,前方一辆卡车正在刹车,还有一个行人在路口等待。你的大脑瞬间会在三维空间中映射出这些物体,为它们分配重要性,并制定计划: “为卡车减速,留意汇入的车辆。”你不会去思考原始的 GPS 坐标或像素值,而是通过物体及其相互关系来思考。

这就是自动驾驶 (AD) 系统的圣杯。近年来,多模态大型语言模型 (MLLMs) 在这一领域展现出了巨大的潜力。这些模型可以观察图像并回答诸如“自车 (ego vehicle) 应该做什么?”之类的问题。然而,这里存在一个显著的语言障碍。虽然 LLM 精通英语,但它们在表达“坐标”方面却出奇地差。

当标准模型试图描述物体位置时,它通常会输出基于文本的坐标 (例如 <1018.5, 510.8>) 。这就产生了一个“语义鸿沟”。模型被迫将视觉概念转化为复杂的数字文本格式,这往往会导致幻觉或不准确。汽车可能看到了物体,却无法正确描述其位置,从而导致危险的规划错误。

在这篇深度文章中,我们将探讨由华南理工大学和百度公司的研究人员提出的一种名为 MPDrive 的新框架。MPDrive 提出了一个巧妙的变通方案: 与其强迫 LLM 预测复杂的坐标,不如直接用视觉标记 (数字) 标注图像,然后让 LLM 预测这个数字?这听起来很简单,但其实现涉及复杂且精妙的架构选择,旨在弥合视觉感知与语言推理之间的差距。

问题所在: 空间的语言

为了理解为什么需要 MPDrive,我们首先需要看看当前的 MLLM 如何处理自动驾驶任务。这些任务对应于 AD-VQA (自动驾驶视觉问答) 。系统接收来自汽车摄像头的图像,并被问及与感知 (“行人在哪里?”) 、预测 (“那辆车会左转吗?”) 和规划 (“我应该刹车吗?”) 相关的问题。

传统方法依赖于文本回归。模型看到图像,并试图输出一串代表物体边界框或中心点的文本。

主流 MLLM 与 MPDrive 之间物体响应过程的对比。

图 1 所示,主流方法 (红框) 尝试输出原始坐标。这对于语言模型来说在计算上是困难的,因为数字对于 LLM 来说只是 Token;它们缺乏内在的空间意义。如果模型把数字稍微搞错一点,它可能引用的就是一片空荡荡的道路,而不是那一辆车。

MPDrive 方法 (绿框) 从根本上改变了输出空间。系统不再输出坐标,而是对图像进行预处理以检测物体,并在它们上方覆盖一个视觉“标记” (带数字的标签) 。现在,LLM 的任务从“预测坐标”变成了“读取车上的数字”。这确保了语言表达的一致性 。 如果模型说“物体 1”,它明确指的就是标有“1”的物体,从而弥合了语义鸿沟。

解决方案: MPDrive 架构

MPDrive 的核心理念是基于标记的提示学习 (Marker-Based Prompt Learning) 。 该框架将精确定位的繁重工作委托给一个专门的检测模型 (“检测专家”) ,让 LLM 专注于推理。

该架构由两个主要创新组成,旨在处理这些标记的同时不丢失场景的视觉保真度:

  1. 标记控制网络 (MCNet)
  2. 感知增强空间提示学习 (PSPL)

让我们通过下面的系统概览图来拆解整个流程。

MPDrive 框架概览,展示了从检测到响应生成的流程。

图 2 所示,该过程始于一个检测专家 (具体来说是一个名为 StreamPETR 的模型) 。这位专家识别交通要素 (汽车、卡车、行人) 并生成一张视觉标记图像 (\(I_m\))。这张图像本质上是原始视图,但在检测到的物体上覆盖了半透明的掩码和数字索引。

然后,系统需要同时消化原始图像 (\(I\)) 和这张新的标记图像 (\(I_m\))。这就引出了第一个主要组件。

1. 标记控制网络 (MCNet)

你可能会问: “为什么不直接把标记图像输入给 LLM?”问题在于遮挡。在汽车上覆盖一个巨大的数字“1”和彩色掩码可能会掩盖关键细节,比如汽车的刹车灯是否亮起,或者转向灯是否在闪烁。模型既需要标记的空间清晰度,也需要原始图像的视觉保真度。

为了解决这个问题,研究人员引入了 MCNet 。 该模块使用了受 ControlNet 启发的双编码器结构。

  1. 冻结编码器 (\(E\)): 上方路径处理原始、干净的图像 (\(I\))。该编码器的参数 (\(\theta\)) 是冻结的,意味着它们在训练期间不会更新。这保留了基础模型预训练的视觉知识。
  2. 控制块 (\(E_c\)): 下方路径处理标记图像 (\(I_m\))。这个编码器 (\(\theta_c\)) 是原始编码器的可训练副本。它专门学习如何解释标记。
  3. 零初始化线性层 (\(Z\)): 这是一个关键技巧。控制块的输出通过一个权重和偏置都初始化为零的线性层。

这些特征的融合通过逐元素相加发生,如下列公式所述:

公式 1: 场景级特征融合。

这里,\(y_s\) 代表最终的场景级特征。因为层 \(Z\) 被初始化为零,所以在训练的最开始,模型的行为与原始冻结模型完全相同 (标记输入的影响为零) 。随着训练的进行,模型通过反向传播慢慢学会整合来自标记的空间信息。这确保了视觉标记在指导模型的同时,不会破坏原始的语义特征。

2. 感知增强空间提示学习 (PSPL)

提取出场景级特征 (\(y_s\)) 后,MPDrive 现在需要帮助 LLM 理解特定物体。拥有道路的全局视图固然好,但如果问题是“左边的车在转弯吗?”,模型需要针对该特定实例的聚焦信息。

PSPL 生成两类提示以输入 LLM:

  1. 场景级提示 (Scene-Level Prompts) : 直接源自 MCNet 输出,捕捉整个环境。
  2. 实例级提示 (Instance-Level Prompts) : 通过聚焦于特定物体得出。

为了创建实例级提示,模型利用检测专家提供的掩码。它对场景特征执行掩码平均池化 (MAP) 。 本质上,它获取整个图像的特征图,并“剪切出”对应于特定物体 (如物体 \(k\)) 的特征。

公式 2: 用于实例级特征的掩码平均池化。

在这个公式中,\(r_k\) 是第 \(k\) 个物体的区域掩码。结果 \(y_i^k\) 是一个仅代表该特定车辆或行人的浓缩特征向量。

这些特征 (场景和实例) 经过多层感知机 (MLP) 处理,变成 LLM 可以理解的视觉 Token (\(T_s\) 和 \(T_i\))。

LLM 推理阶段

最后,LLM 接收:

  • 来自用户问题的文本 Token (例如,“物体 1 在做什么?”) 。
  • 场景级视觉提示 (\(T_s\))。
  • 实例级视觉提示 (\(T_i\))。

LLM 处理这些输入以生成答案。关键在于,如果答案需要确定位置,LLM 会预测标记索引 (\(k\))。然后,系统从检测专家处查找标记 \(k\) 的坐标,并将其作为最终的空间输出。这减轻了 LLM 进行回归任务的负担,将空间推理视为一种分类和语言任务。

实验与结果

研究人员在两个具有挑战性的数据集上评估了 MPDrive:

  1. DriveLM: 一个专注于多视图图像的数据集,需要进行关于感知、预测和规划的推理。
  2. CODA-LM: 一个专注于“长尾场景 (corner cases) ”的数据集——即对 AI 来说极其困难的罕见且危险的驾驶场景。

定量分析

结果显示,MPDrive 显著优于现有的最先进方法 (SOTA) 。

表 1: DriveLM 数据集上的定量评估。

查看表 1 , 我们可以看到与 EM-VLM4AD、MiniDrive 和 InternVL-2 等模型的对比。

  • 空间感知 (Match) : MPDrive 获得了 13.43 的分数,几乎是 InternVL-2 (7.59) 的两倍。该指标衡量模型定位物体的准确程度。显然,视觉标记发挥了作用。
  • 语言指标 (CIDEr, METEOR) : 该模型在语言质量指标上也得分最高。这表明,通过将坐标难题卸载给视觉标记,LLM 有更多的能力来生成连贯、准确的文本描述。

定性分析: 眼见为实

数字固然重要,但在实际中表现如何?博客文章包含了视觉对比,以展示推理能力的差异。

图 3: InternVL-2 与 MPDrive 响应结果的对比。

图 3 中,我们看到并排对比。

  • 上方示例: 任务是识别重要物体。真值 (GT) 根据物体的运动确定了特定物体的优先级。InternVL-2 (红色) 感到困惑,识别了错误的优先级并幻觉出错误的坐标。MPDrive (绿色) 几乎完美匹配了真值,正确识别了相关标记。
  • 下方示例: 问题询问关于与行人的潜在碰撞。InternVL-2 错误地评估了风险,声称没有碰撞路线。MPDrive 正确识别了行人的标记,分析了空间关系,并正确预测了需要考虑行人的情况 (“适度右转”) 。

模型在看哪里?

为了验证模型是否真的关注到了正确的事物,研究人员可视化了注意力图 (视觉提示) 。

图 4: 视觉提示激活示例。

图 4 中,热力图展示了模型的关注点。

  • InternVL-2 (中间行) : 注意力是分散的。在左图中,它完全漏掉了卡车。在右图中,它将注意力分散在无关的道路区域。
  • MPDrive (底行) : 注意力敏锐且集中。它高亮了与驾驶任务相关的特定车辆。这证实了实例级提示 (\(T_i\)) 有效地引导 LLM 的注意力到了由标记定义的特定区域。

消融实验: 我们需要所有组件吗?

研究人员进行了消融实验,以证明架构的每个部分都很重要。

表 3: MPDrive 不同部分的消融实验。

表 3 揭示了每个组件的贡献:

  1. 仅使用视觉标记: 单独添加标记提高了空间匹配度 (7.59 \(\to\) 11.89) ,但略微损害了语言准确性 (82.54 \(\to\) 80.42) 。这证实了如果处理不当,标记可能会遮挡图像特征的假设。
  2. 添加 MCNet: 当添加 MCNet 后,语言指标显著提高 (BLEU-4 和 METEOR 上升) 。这证明双编码器策略成功恢复了因标记而丢失的视觉特征。
  3. 添加实例级提示: 完整模型 (最后一行) 在所有方面都取得了最佳分数。实例级特征提供了高精度所需的细粒度细节。

结论与启示

MPDrive 论文提出了一个令人信服的观点: 不要强迫大型语言模型去做它们不擅长的任务。 LLM 是概率性文本生成器,而不是坐标回归器。

通过将连续的空间坐标问题转化为离散的、基于文本的读取视觉标记的问题,MPDrive 弥合了自动驾驶 VQA 中的语义鸿沟。

  • MCNet 确保这些标记不会降低场景的视觉质量。
  • PSPL 确保模型既关注全局背景,也关注特定物体的细节。

这带来的启示是重大的。随着我们迈向端到端的自动驾驶系统——由 AI “大脑”做出驾驶决策——准确感知和描述空间关系的能力是不可妥协的。MPDrive 表明,有时提高 AI 性能的最佳方法不仅仅是更大的模型,而是一种更智能的数据表示方式。

对于该领域的学生和研究人员来说,这篇论文是提示工程多模态融合的一个极佳案例研究。它证明了如果架构得当,视觉提示可以像文本提示一样强大。


本博客文章解读了 Zhang 等人撰写的研究论文《MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving》。