简介

随着人工智能的飞速发展,自动驾驶的梦想正变得愈发触手可及。多年来,业界一直依赖模块化的流水线——即分别独立的系统来检测车道、识别行人、规划路线和控制方向盘。然而,该领域正向端到端 (end-to-end) 学习转变,即单个神经网络接收原始传感器数据并直接输出驾驶指令。

与此同时,我们见证了诸如 GPT-4 和 LLaMA 等大语言模型 (LLM) 的爆发。这些模型拥有惊人的推理能力和关于世界的丰富预训练知识。这不禁让人发问: 我们能让 LLM 坐上驾驶位吗?

虽然之前的研究尝试过这一点,但它们通常将 LLM 视为“后座司机”——分析图像并回答问题 (开环任务) ,而不是实时控制汽车。当应用于实际驾驶 (闭环任务) 时,这些模型往往难以解决“漂移”问题——即缓慢积累微小的误差,直到汽车偏离道路或发生碰撞。

DriveGPT4-V2 应运而生。在本文中,我们将深入探讨来自香港大学、清华大学和美团的研究人员如何成功利用多模态大语言模型 (MLLM) 进行端到端的车辆控制。我们将揭示他们如何使用“作弊”专家教师来解决漂移问题,如何将视觉世界进行 Token 化,以及为什么这种方法能在极具挑战性的基准测试中取得最先进的结果。

挑战: 从聊天机器人到驾驶员

要理解 DriveGPT4-V2 的重要性,我们必须首先了解开环 (open-loop)闭环 (closed-loop) 系统之间的区别。

开环设置中,模型会获得一个世界的快照,并被问到“你会怎么做?”它做出预测,测试就结束了。这就像参加笔试驾照考试。你可能答对了每一道题,但这并不能保证你能在高速公路上驾车。

闭环设置中,模型的输出会影响未来。如果模型向左微调方向,下一帧的摄像头视图就会向左偏移。如果模型在第 1 帧犯了一个微小的错误,它在第 2 帧就会处于稍微错误的位置。如果没有强大的修正机制,这些错误会通过一种被称为分布偏移 (distribution shift) 或漂移的现象不断累积。汽车最终会发现自己处于训练期间从未见过的情况 (例如,半个车身在路外) 并陷入恐慌。

DriveGPT4-V2 专为攻克这一闭环挑战而设计。

图 1. 用于闭环自动驾驶的 DriveGPT4-V2。DriveGPT4-V2 接收多视角摄像头图像和车辆状态信息作为输入,预测高级车辆决策,并以端到端的方式将其转换为低级车辆控制信号。DriveGPT4-V2 展现了出色的有效性和效率,为未来基于 LLM 的自动驾驶研究提供了一个可靠的基准方法。

如图 1 所示,该系统接收多视角摄像头图像和车辆状态,通过 LLM 处理,并输出低级控制信号 (油门、转向、刹车) 以在环境中动态导航。

架构: LLM 驾驶员的解剖

DriveGPT4-V2 是一个端到端的自动驾驶系统。这意味着它没有独立的“停车标志检测器”或“车道保持器”。它通过处理原始输入并直接产生驾驶决策来学习如何驾驶。让我们一步步拆解其架构。

图 2. DriveGPT4-V2 架构图。DriveGPT4-V2 接收多模态输入数据以生成用于端到端车辆驾驶的数值控制信号。输入包括多视角图像和车辆状态信息。图像通过多视角视觉分词器 (MV-VT) 转换为文本域。车辆的当前速度和目标点由 LLM 分词器进行 Token 化。然后 LLM 输出四个 Token。每个 Token 用于通过 MLP 决策头 (DeciHead) 预测一个车辆决策。这些预测的决策随后通过 PID 控制器转换为低级命令以操作车辆。LLM 专家模型与 DriveGPT4-V2 共享相似的结构,可以访问有关周围环境的特权信息 (显示在紫色模块中) 。专家向 DriveGPT4-V2 提供在线策略监督,以增强闭环性能。此图最好以彩色查看。

如上图 2 详细所示,该架构由三个主要阶段组成: 输入处理、LLM 骨干网络和输出决策。

1. 多视角视觉分词器 (MV-VT)

驾驶需要态势感知。单个前置摄像头是不够的;你需要看到从侧面接近的车辆或走下路缘的行人。DriveGPT4-V2 使用三个摄像头: 左前、正前和右前。

然而,LLM 理解的是 Token (文本标记) , 而不是像素。为了弥合这一差距,研究人员采用了多视角视觉分词器 (MV-VT) 。

图 3. 多视角视觉分词器 (MV-VT) 结构。输入图像由三个前视视角组成。每个图像块通过视觉编码器处理以提取特征。最后,经过训练的投影层将下采样特征映射到文本域以进行进一步处理。

如图 3 所示,该过程如下:

  1. 图像采集: 三张图像 (分辨率 \(384 \times 384\)) 捕捉全景视图。
  2. 视觉编码器: 预训练的编码器 (如 SigLIP 或 CLIP) 从这些图像中提取丰富的特征图。
  3. 投影: 投影层将这些视觉特征映射到与文本 Token 相同的嵌入空间。

这有效地将视觉上的“道路”翻译成 LLM 可以“阅读”的语言,既保留了宏观背景 (前面有转弯吗?) ,也保留了关键细节 (那个红绿灯是红色的吗?) 。

2. LLM 骨干网络

一旦图像被 Token 化,它们就会与文本输入结合。系统向 LLM 馈送:

  • 视觉 Token: 翻译后的摄像头图像。
  • 车辆状态 Token: 汽车的当前速度和导航目标 (例如,“在下一个路口右转”) 。

LLM 充当大脑。它利用其巨大的预训练知识来对场景进行推理。然而,与输出“你应该加速”这类句子的聊天机器人不同,DriveGPT4-V2 针对速度和精度进行了优化。

3. 决策头 (DeciHeads)

这是一个关键的创新。标准 LLM 从大约 30,000 个单词的词汇表中预测下一个单词。如果你想让 LLM 输出像“15.4 度”这样的转向角,逐个 Token 地进行 (生成“1”,然后是“5”,然后是“.”,然后是“4”) 既慢又不精确。

相反,DriveGPT4-V2 用决策头 (DeciHeads) 替换了标准的词汇头。LLM 输出四个特殊的 Token。这些不是单词;它们是潜向量 (latent vectors) ,被输入到简单的多层感知机 (MLP) 中,使用回归直接预测数值。

该模型预测四个关键变量:

  1. 目标速度 (Target Speed): 我应该开多快?
  2. 目标角度 (Target Angle): 我应该往哪里打方向?
  3. 路点 (Waypoints): 接下来的 4 秒内我将在哪里?
  4. 路线点 (Route Points): 沿全局路径的点。

图 4. 路点和路线点的可视化。自车由绿色矩形表示,红点表示目标点。灰线是车辆应遵循的路线。(a) 路点 (蓝点) 代表未来 4 秒内的车辆位置。(b) 路线点是从前方全局规划路线中均匀采样的。这两类点可以更好地监督 DriveGPT4-V2 的训练。

虽然模型预测路点和路线点 (如图 4 所示) 是为了帮助它“理解”道路的未来几何形状,但实际驾驶是由目标速度目标角度控制的。这两个数字被输入到标准的 PID 控制器 (一种控制回路机制) 中,以生成最终的油门、刹车和转向命令。

训练策略: 向“作弊”的专家学习

设计架构只是战斗的一半。DriveGPT4-V2 的真正魔力在于它如何学习驾驶。研究人员使用了一个包含“专家”教师的两阶段训练过程。

行为克隆的问题

训练自动驾驶汽车最简单的方法是行为克隆 (Behavior Cloning, BC) 。 你记录人类 (或完美的自动驾驶仪) 的驾驶过程,并训练模型复制他们的动作。

问题在于?专家司机是完美的。他们从不偏离车道。因此,学生模型从未见过稍微偏离中心是什么样子的。如果学生在部署过程中犯了一个微小的错误,向左漂移了 10 厘米,它就进入了训练数据中从未见过的状态。它不知道如何恢复,所以它又犯了一个错误,漂移得更远,最终撞车。

解决方案: 在线模仿学习 (DAgger)

为了解决这个问题,研究人员采用了受 DAgger (数据集聚合) 算法启发的方法。他们引入了第二个模型: 专家 LLM

专家 LLM 有一个秘密武器: 特权信息 。 当主模型 (学生) 只看到摄像头图像时,专家被允许访问模拟器的地面真值 (ground truth) 。它知道每个行人的确切坐标、每个红绿灯的状态以及周围汽车的精确速度。

因为专家拥有这种“上帝模式”的视野,它非常稳健。它不需要猜测;它确切地知道该做什么。

图 5. 两阶段训练过程图解。(a) 在第一阶段,DriveGPT4-V2 和专家 LLM 都在由基于规则的自动驾驶仪收集的数据上进行训练。(b) 在第二阶段,DriveGPT4-V2 在训练场景和路线中运行。当 DriveGPT4-V2 的预测与专家的预测之间的差异超过预定义的阈值时,使用专家的预测来控制车辆。来自这些情况的数据随后被添加到数据集中进行数据聚合。

如图 5 所示,训练分为两个阶段:

  1. 阶段 1 (行为克隆) : 学生 (DriveGPT4-V2) 和专家都在由基于规则的自动驾驶仪收集的静态数据集上进行训练。这给了它们对驾驶的基本理解。
  2. 阶段 2 (在线策略监督) : 学生尝试在模拟器中驾驶。专家在旁边默默观察。
  • 如果学生开得好,什么也不会发生。
  • 如果学生的预测与专家的预测有显著差异 (表明存在潜在错误) ,专家就会接管并记录针对该特定危险情况的正确动作。
  • 这个新数据 (学生的错误 + 专家的纠正) 被添加到数据集中,然后重新训练学生。

这不仅教会了学生如何完美驾驶,还教会了它如何从错误中恢复

损失函数

为了确保模型学习驾驶的各个方面,训练最小化了一个组合损失函数:

()\n\\mathcal { L } = \\mathcal { L } _ { T S } + \\mathcal { L } _ { T A } + \\mathcal { L } _ { W P } + \\mathcal { L } _ { R P }\n()

这个公式简单来说意味着,如果模型在四个预测中的任何一个出错,就会受到惩罚: 目标速度 (\(TS\))、目标角度 (\(TA\))、路点 (\(WP\)) 或路线点 (\(RP\))。

实验与结果

研究人员在 CARLA Longest6 基准测试上评估了 DriveGPT4-V2。这是一项残酷的测试,包含 36 条长路线,充满了复杂的城市场景、天气变化和动态代理。

指标

评估主要使用三个分数:

  • 路线完成度 (RC): 汽车是否跑完了全程?
  • 违规分数 (IS): 汽车是否遵守了规则 (无碰撞、无闯红灯) ?
  • 驾驶分数 (DS): 主要指标,计算公式为 \(RC \times IS\)。高 DS 意味着你安全地完成了路线。

下表 1 显示了违规行为受到的惩罚有多严厉。例如,撞到行人会将你的分数减半。

表 1. 违规惩罚系数。

性能对比

DriveGPT4-V2 与竞争对手相比表现如何?

表 2. CARLA Longest6 上的闭环实验性能。“Visual”表示视觉输入模态,“C”和“L”分别代表摄像头和激光雷达。粗体数字突出显示所有模型中的 SOTA 指标分数;下划线数字代表基线方法的最佳指标分数。* 表示我们要基于官方开源代码自己实现的模型。† 表示没有数据增强的模型。

表 2 揭示了一个惊人的结果。 DriveGPT4-V2 获得了 70 的驾驶分数 (DS) , 大大超过了之前的最先进技术 Transfuser++ (DS 65) 。

至关重要的是,请注意 “Visual” 一列。Transfuser++ 同时使用了摄像头 (C) 和激光雷达 (L)。DriveGPT4-V2 仅使用摄像头 (C) 就实现了卓越的性能。这证明,只要有 LLM 的推理能力和正确的训练策略,昂贵的激光雷达传感器对于这些场景中的高性能驾驶可能并不是必不可少的。

该模型在行人碰撞方面也显示了 0.00 的分数,表明其具有极高的安全意识。

效率: 大小重要吗?

对 LLM 的一个常见批评是它们速度慢且计算量大。当一辆车在你面前突然开出时,你不能有 5 秒的延迟。

研究人员分析了模型大小对性能和速度 (FPS) 的影响。

表 3. 效率分析。

表 3 显示了一个令人惊讶的发现。将模型从 5 亿参数 (Qwen-0.5B) 扩展到 80 亿参数 (LLaMA3.1-8B) 并没有提高驾驶性能 (DS 保持在 63-65 左右) 。然而,帧率 (FPS) 从 8.1 降到了 0.4。

0.4 FPS 的帧率对于汽车来说是无法使用的。但在 8.1 FPS 下, 0.5B 参数模型能够进行实时控制。这表明,具体对于驾驶而言,一个更小、高度优化的“大脑”比一个庞大、缓慢的天才更好。

消融实验: 为什么要这样设计?

研究人员进行了“消融实验”——移除系统的部分组件,看看它们是否真的重要。

1. 视觉分词器重要吗? 是的。如表 4 所示,移除高级视觉分词器并仅使用基本视觉特征,分数从 70 降至 56。LLM 需要高质量的视觉 Token 来理解道路。

表 4. DriveGPT4-V2 的消融研究。“WP”和“RP”分别代表路点和路线点。

2. 我们应该如何控制汽车? 许多以前的方法使用预测的路点来控制汽车 (即“朝点转向”) 。然而,DriveGPT4-V2 直接预测目标速度和角度。

表 5. PID 控制器的消融研究。“WP”表示利用预测的路点进行 PID 控制;而“TS&RP”表示通过预测的目标速度和路线点进行 PID 控制。

表 5 证实,通过速度/角度控制 (DriveGPT4-V2 行) 产生 63 的 DS,而跟随路点 (WP) 仅产生 53。直接控制信号噪声更小,驾驶更平稳。

3. 为什么要用决策头而不是文本? 如前所述,将数字生成为文本 Token 很慢。

表 6. 决策头的消融研究。“Additional tokens”表示使用更多输出 Token 进行预测。

表 6 显示,使用标准 Token 生成 (“Additional tokens”) 将速度降至 1.4 FPS,而决策头将其保持在 8.1 FPS。

结论

DriveGPT4-V2 代表了自动驾驶向前迈出的重要一步。它成功地架起了 LLM 的语言推理与驾驶车辆所需的实时、闭环要求之间的桥梁。

通过结合用于观察世界的多视角视觉分词器、用于做出精确决策的专用回归头以及用于学习恢复行为的专家指导训练策略 , 该系统在 CARLA 基准测试中树立了新标准。也许最重要的是,它证明了我们可以使用相对较小的 LLM 和纯摄像头设置来实现最先进的安全性和性能,为未来更易普及且更高效的自动驾驶系统铺平了道路。