想象一下,你正行驶在一条繁忙的街道上。你看到一个球从两辆停着的车之间滚了出来。你看到的不仅仅是一个“球形的橙色物体”;你会立即推断出可能有一个孩子在追它,于是你会本能地减速。这就是常识推理 。
现在,考虑一下自动驾驶 (AD) 系统。大多数现代端到端 (E2E) 模型非常擅长模式匹配——它们能识别道路几何形状和其他车辆,并模仿训练数据中的轨迹。然而,它们往往缺乏驾驶决策背后的“原因”。它们可能完美地通过一个标准路口,但在“长尾”场景 (罕见、复杂的事件) 中却举步维艰,因为它们缺乏人类所拥有的底层推理能力。
这引出了一篇引人入胜的研究论文: “VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision” (VLM-AD: 通过视觉-语言模型监督实现的端到端自动驾驶) 。 研究人员提出了一种新颖的方法,即利用视觉-语言模型 (VLMs,如 GPT-4o) 作为教师,向驾驶模型注入高级推理能力。最棒的是什么?这种庞大且计算昂贵的 VLM 仅在训练期间需要,从而保持了系统在实时部署时的快速和高效。
在这篇文章中,我们将拆解 VLM-AD 的架构,探索它如何将推理能力蒸馏到驾驶策略中,并分析为什么这种“师生”方法可能是未来构建稳健自动驾驶系统的关键。
问题所在: 推理鸿沟
端到端自动驾驶已经取得了巨大的进步。像 UniAD 和 VAD 这样的系统将感知、预测和规划统一到了一个单一的网络中。下图 1(a) 展示了这种经典流程: 传感器数据输入,轨迹输出。

然而,这些模型依赖于轨迹监督 。 它们的训练目标是最小化预测路径与真值 (ground truth) 路径之间的数学距离。它们学习了汽车如何移动,但并没有被明确告知为什么要那样移动。
这就造成了“推理鸿沟”。当人类驾驶员因为救护车驶来而在绿灯前停车时,他们是在根据上下文进行推理。而一个标准的 E2E 模型可能只会看到绿灯,并对真值数据显示汽车停止感到困惑。
为了弥合这一鸿沟,我们需要一种方法将非结构化的推理 (语言) 和结构化的决策 (动作) 整合到训练过程中。
解决方案: VLM-AD
VLM-AD 的核心理念简单而强大: 使用大型视觉-语言模型 (VLM) 作为教师,用推理和动作标注驾驶视频,然后训练驾驶模型来预测这些标注。
如上图 1(b) 所示,VLM 在训练期间提供“文本标注”和“监督”。至关重要的是,在推理时 (当汽车实际在路上行驶时) ,VLM 就不再需要了。驾驶模型已经有效地内化了教师的教导。
让我们看看图 2 中的完整框架。

该框架主要包含两个阶段:
- VLM 文本标注: 生成包含推理和动作的丰富数据集。
- 辅助头 (Auxiliary Heads) : 将这些知识整合到 E2E 驾驶模型中。
让我们逐步分解这些步骤。
第一阶段: 教师 (VLM 标注)
第一个挑战是让 VLM 理解驾驶上下文。虽然像 GPT-4o 这样的 VLM 功能强大,但如果只是看静态图像或原始视频流,它们可能难以理解时序动态 (即随时间变化的运动) 。
视觉输入策略
为了在不给 VLM 加载过多视频帧的情况下提供必要的上下文,研究人员设计了一种巧妙的提示策略。他们将自车 (即车辆本身) 的未来轨迹投影到前视图图像上。

如上图 3(a) 所示,红线指示了汽车将要去的地方。这使得 VLM 能够看到驾驶员相对于场景的意图。研究人员发现,使用带有轨迹投影的单张前视图图像,比使用多个摄像头视图 (图 3b) 或未标注的连续帧序列更有效且高效。
提示词: 提出正确的问题
VLM 会收到两类不同的问题提示,以生成监督数据:
1. 自由形式推理 (\(Q_1\))
这些是旨在提取理解能力的开放式问题。
- 上下文: “描述自车当前的动作。”
- 预测: “预测未来的动作。”
- 推理: “解释这些动作背后的推理。”
标注生成过程形式化定义为:

这里,\(\mathbf{M}\) 是 VLM,\(\mathcal{P}\) 代表提示词,\(\mathcal{V}\) 是视觉输入 (图像 + 投影轨迹) 。
2. 结构化动作 (\(Q_2\))
模型还被要求将行为分类到特定的类别中:
- 控制 (Control) : {直行, 缓慢移动, 停止, 倒车}
- 转向 (Turn) : {左转, 右转, 无, 掉头}
- 车道 (Lane) : {向左变道, 向右变道, 汇入, 无}
这创建了两组标签: 复杂的文本嵌入 (\(y_1\)) 和精确的分类标签 (\(y_2\)) 。

对于自由形式的文本,他们使用 CLIP 将句子编码为特征向量。对于结构化动作,他们使用 One-Hot 编码。
第二阶段: 学生 (辅助头)
现在我们有了一个“推理标注”的数据集,我们需要训练自动驾驶模型来学习它。
研究人员采用标准的 E2E 模型 (如 UniAD 或 VAD) ,并在规划模块之后添加了辅助头 (Auxiliary Heads) 。 这些头接收内部的“自车特征” (\(f_{ego}\)) ——模型对车辆状态的压缩理解——并尝试预测 VLM 会说什么。
1. 特征对齐头
这个头试图将驾驶模型的内部特征与 VLM 的文本嵌入对齐。它使用了一种多头交叉注意力 (MHCA) 机制。
想象一下模型正在试图回答“我们要停车是为什么?”这个问题。文本查询 \(q\) 与自车特征 (\(k\) 和 \(v\)) 进行交互,以提取相关信息。

输出 \(\hat{f}_1\) 代表模型对推理文本的猜测。为了确保模型学习的是特征的分布而不仅仅是原始值,他们使用带有温度缩放 (\(\tau\)) 的 Softmax 函数对特征进行归一化:

这种“软化”概率分布的做法,使得知识蒸馏过程更加平滑和稳定。
2. 动作分类头
这个头更加直观。它试图分类汽车正在采取的具体动作 (例如,“左转”) 。它同样使用交叉注意力,但最后连接的是一个标准的分类器。

第三阶段: 损失函数
最后,使用复合损失函数对模型进行训练。总损失 \(\mathcal{L}\) 结合了对齐损失和动作损失。

对齐 (使用基于分布的交叉熵,类似 KL 散度逻辑) 和动作分类的具体计算如下所示:

通过最小化这些损失,模型被迫以一种与人类推理和具体驾驶动作相一致的方式来组织其内部特征空间 (\(f_{ego}\)) 。
实验结果
添加这种“推理监督”真的能让汽车开得更好吗?研究人员在 nuScenes 数据集 (开环) 和 CARLA 模拟器 (闭环) 上测试了 VLM-AD。
规划准确性 (开环)
在开环测试中,模型观察记录的数据并预测轨迹。关键指标是 L2 误差 (路径偏离程度) 和碰撞率 。
下表 1 显示了与 UniAD、VAD 和 SparseDrive 等最先进基线的比较。

表 1 的主要结论:
- 性能提升: VLM-AD 始终优于基线。对比第 0 行 (UniAD) 和第 5 行 (VLM-AD) 。平均 L2 误差从 1.03m 降至 0.88m。
- 碰撞减少: 碰撞率显著下降 (从 0.31% 降至 0.19%) 。
- 消融实验: 第 3 行和第 4 行显示,同时使用自由形式推理 (\(Q_1\)) 和结构化动作 (\(Q_2\)) 能产生最佳结果 (第 5 行) 。
推理的力量
自由形式的文本真的有帮助吗,还是仅仅靠动作标签就够了?表 3 分解了不同推理问题的贡献。

\(Q_{1-3}\) 列 (推理的解释) 对误差降低的贡献最大。这证实了假设: 教导模型为什么要行动,能改善它如何行动。
闭环模拟 (CARLA)
开环测试很有用,但闭环模拟测试的是汽车能否在不发生碰撞的情况下实际行驶一段时间。

在表 2 中,VLM-AD 取得了最高的驾驶得分 (DS) 和路线完成度 (RC) , 特别是在涉及复杂交互的“Town05 Long”路线上。它以明显的优势击败了 VAD-Base (DS 得分为 35.25 对比 30.31) 。
定性分析: 眼见为实
数字固然重要,但视觉效果更能说明问题。让我们看看 VLM-AD 与基线 (UniAD) 相比如何处理困难场景。
场景 1: 夜间驾驶
在图 8 中,基线 UniAD (左) 预测了一条看似不确定的“蜿蜒”轨迹。VLM-AD (右) 则生成了一条平滑、自信的路径。

场景 2: 雨天条件
雨水会产生反光并干扰传感器。在图 11 中,UniAD 错误地决定左转 (标记为 “Incorrect!”) ,这可能是被湿滑的路面或反光所迷惑。VLM-AD 正确识别了“直行”指令并规划了一条安全路径。

场景 3: 车道稳定性
在图 12 中,注意基线轨迹呈“之字形”,难以保持居中。而 VLM-AD 的轨迹在车道边界内非常稳定。

意义何在
VLM-AD 代表了我们训练自动驾驶系统方式的一个重大转变。以下是更广泛的影响:
- 效率: 我们将庞大模型 (GPT-4o) 的智能蒸馏到了一个更小、更快的模型中,使其适合部署在汽车上。
- 可扩展性: 我们不需要人类手动为数百万帧图像标注“推理”。VLM 可以自动标注海量数据集。
- 安全性: 通过学习“推理”,模型在处理长尾事件 (如雨夜场景) 时比简单的模式匹配器表现得更好。
结论
从“模仿”到“理解”的转变是 AI 机器人的下一个前沿。 VLM-AD 证明了我们可以通过使用基础模型作为教师来跨越这一鸿沟。通过利用丰富的、基于推理的文本和结构化动作来监督端到端驾驶模型,我们可以创造出不仅仅是沿着路上的线跑,而是真正理解周围世界的自动驾驶智能体。
结果显而易见: 更好的规划、更少的碰撞和更平稳的驾驶,而所有这一切都不需要在后备箱里装一台超级计算机。随着 VLMs 的不断进步,这种师生范式很可能成为训练下一代具身智能的标准。
](https://deep-paper.org/en/paper/2412.14446/images/cover.png)