想象一下,你正沿着一条狭窄的街道行驶。你看到右边停着一辆送货卡车,一个球从车后滚到了街上。你不仅仅是“检测到了一个球”;你会立即模拟未来——可能会有一个孩子追着球跑出来,于是你会本能地准备刹车。这种对场景进行推理并预判未来的能力,对人类来说是第二天性。
然而,对于自动驾驶汽车 (AV) 来说,这极其困难。大多数现代自动驾驶系统依赖于端到端 (E2E) 模仿学习 。 它们观察数百万小时的人类驾驶数据,并试图在类似的视觉输入下复制转向和踏板操作。虽然这种方法在高速公路上直线行驶时效果不错,但在“闭环”场景中——即复杂的交互环境,其中汽车的行为会改变世界的状态,哪怕一个小错误也会演变成车祸——它往往会失败。
在这篇文章中,我们将深入探讨 ReasonPlan , 这是由中国科学院和 EACON (亿可能源) 的研究人员提出的一个新框架。ReasonPlan 试图通过集成多模态大型语言模型 (MLLMs) 来解决模仿学习的脆弱性。ReasonPlan 不再盲目复制动作,而是强制车辆在做出决定之前预测未来的视觉场景并进行结构化的思维链推理。
问题所在: 模仿的局限性
在剖析解决方案之前,我们需要了解瓶颈所在。传统的端到端自动驾驶将驾驶任务视为一个巨大的回归问题: 将像素映射到轨迹点。
虽然效率很高,但这些系统存在以下问题:
- 因果混淆 (Causal Confusion) : 它们可能会学到“前方刹车灯亮”意味着“停车”,但它们并不理解前车为什么停车。
- 泛化能力差: 如果它们遇到训练数据中不存在的场景 (即“分布外”情况) ,它们往往会冻结或表现异常。
- 缺乏可解释性: 当神经网络突然转向时,我们很难知道原因。
最近,像 GPT-4V 或 LLaVA 这样的多模态大型语言模型 (MLLMs) 展现了令人难以置信的图像推理能力。然而,简单地将 LLM 塞进汽车里效果并不好。大多数尝试要么是在“开环”设置下运行 (回答关于静态图像的问题) ,要么缺乏实际安全驾驶所需的空间精度。
ReasonPlan 登场: 一种双机制方法
ReasonPlan 的作者提出了一个统一的框架,针对闭环驾驶微调 MLLM。他们的核心假设是,一个真正稳健的驾驶员需要两种特定的能力:
- 视觉预见能力: 基于当前行动想象未来世界样貌的能力。
- 显式推理能力: 用语言清晰表达世界状态、风险和决策的能力。
下面的图 2 提供了架构的高级概览。

该系统接收多视角摄像头图像和车辆遥测数据 (速度、加速度) 作为输入。这些数据通过编码器和投影仪转换为 LLM 可以理解的“Token (词元) ”。神奇之处在于两个并行分支: 下一场景预测 (NSP) 和决策思维链 (DeCoT) 。
让我们一步步分解这些内容。
1. 自监督下一场景预测 (NSP)
将 LLM 应用于机器人的最大挑战之一是“接地 (Grounding) ”——确保模型对世界的内部表征与物理现实相符。为了强制实现这一点,ReasonPlan 引入了一个名为“下一场景预测”的自监督任务。
这个想法简单而强大: 如果你理解了场景,你就应该能预测 3 秒后它是什么样子。
如图 3 所示,模型获取当前的视觉 Token 和本车状态 (速度、加速度、指令) ,并尝试预测未来帧的潜在视觉特征。

视觉编码器
首先,系统处理原始图像。作者使用了 SigLIP 视觉编码器。为了处理高分辨率细节,他们使用了“AnyRes”策略,将图像裁剪成网格 (Patch) 。
\[ \begin{array} { r } { \mathbf { Z } _ { v _ { t } } = \mathtt { S i g L I P } \big ( \mathtt { A n y R e s } ( \mathbf { X } _ { v _ { t } } ) \big ) , \mathbf { H } _ { v _ { t } } = \mathtt { M L P } \big ( \mathbf { Z } _ { v _ { t } } \big ) , } \end{array} \]简单来说,这个公式将原始像素 (\(\mathbf{X}_{v_t}\)) 转换为与语言模型嵌入空间对齐的压缩特征向量 (\(\mathbf{H}_{v_t}\)) 。
上下文编码
同时,车辆的物理状态也被编码。这至关重要,因为 3 秒后的场景很大程度上取决于你的移动速度和你是否正在转弯。
\[ \begin{array} { r } { { \bf H } _ { c _ { t } } = \tt M L P ( \pmb { v } , \pmb { a } , { \mathrm { c m d } } ) , } \end{array} \]预测损失
然后,模型尝试预测未来的视觉特征 \(\hat{\mathbf{H}}_{v_{t+3}}\)。训练目标是最小化这个预测的未来与实际的未来图像特征 (从记录的日志中获得) 之间的差异。
\[ \hat { \mathbf { H } } _ { v _ { t + 3 } } = \mathrm { L L M } ( \mathrm { C o n c a t } ( \mathbf { H } _ { c _ { t } } , \mathbf { H } _ { v _ { t } } ) ) , \mathcal { L } _ { \mathrm { i m a g e } } = \| \hat { \mathbf { H } } _ { v _ { t + 3 } } [ \cdot \mathbf { f r o n t } ] - \mathbf { H } _ { v _ { t + 3 } } [ \cdot \mathbf { f r o n t } ] \| ^ { 2 } , \]通过在潜在特征上使用均方误差 (MSE) 损失,模型无需手动标注即可学习环境的动态变化 (例如,“如果我以 10m/s 的速度前进,那辆车会变大”) 。
2. 决策思维链 (DeCoT)
虽然 NSP 赋予了模型视觉直觉,但它并没有告诉汽车如何合法或安全地驾驶。这就是决策思维链发挥作用的地方。
标准模型将输入直接映射到轨迹坐标。然而,ReasonPlan 强制 LLM 先“通盘思考”问题。这利用了 LLM 巨大的语义知识库来处理复杂场景。
该过程由四个不同的推理阶段构成:
- 场景理解: 识别车道、可行驶区域和天气。
- 交通标志识别: 发现停车标志、交通信号灯和警告标志。
- 关键对象识别: 识别哪个行人或车辆实际上构成了风险 (不仅仅是列出所有物体) 。
- 元动作 (Meta Action) : 决定高层级的操作 (例如,“向左变道”,“减速”) 。
只有在完成这四个步骤之后,模型才会输出最终的轨迹航路点 。
作者构建了一个特定的数据集来训练这种能力,我们稍后会讨论。这里的损失函数是文本 Token 上的标准交叉熵损失,用于监督模型生成正确的推理步骤。
\[ p ( \mathbf { X } _ { a } | \mathbf { X } _ { v } , \mathbf { X } _ { p } ) = \prod _ { i = 1 } ^ { L } p ( \pmb { x } _ { i } | \mathbf { X } _ { v } , \mathbf { X } _ { p , < i } , \mathbf { X } _ { a , < i } ) , \mathcal { L } _ { \mathrm { t e x t } } = - \log p ( \mathbf { X } _ { a } | \mathbf { X } _ { v } , \mathbf { X } _ { p } ) , \]统一训练
拼图的最后一块是结合这两个目标。模型的训练旨在同时最小化图像预测误差和推理文本误差:
\[ \mathcal { L } _ { \mathrm { t o t a l } } = \lambda _ { 1 } \cdot \mathcal { L } _ { \mathrm { i m a g e } } + \lambda _ { 2 } \cdot \mathcal { L } _ { \mathrm { t e x t } } \]这种双重目标确保了用于推理的视觉嵌入也富含时间性和动态信息。
燃料: PDR 数据集
模型的好坏取决于数据。现有的自动驾驶数据集通常只是带有轨迹标签的视频日志。它们缺乏“推理”部分——即为什么。
研究人员创建了面向规划的决策推理 (PDR) 数据集。他们利用 Bench2Drive 模拟器上的自动化流水线生成了 210,000 个样本。

正如上图 4 所示,数据集对场景进行了极其详细的标注。请注意它如何明确指出: *“离本车最近的障碍物是一辆车……其运动状态是动态的……推理建议谨慎行事。”*这种结构弥合了原始像素与最终数字轨迹 (底部的坐标) 之间的差距。
数据统计显示了该数据集的多样性,重点关注“本车 (ego) ”、“车道 (lane) ”和“障碍物 (obstacle) ”等关键驾驶概念。

实验与结果
那么,增加想象力 (NSP) 和推理能力 (DeCoT) 真的能让汽车开得更好吗?作者在 Bench2Drive 上对 ReasonPlan 进行了评估,这是一个具有挑战性的闭环基准测试,要求在模拟器中完成复杂的路线。
定量表现
结果总结在下面的雷达图中。ReasonPlan (紫色线) 包围了其他方法,在几乎所有指标上都显示出卓越的性能。

查看表 1 中的详细数据,ReasonPlan 取得了 64.01 的驾驶得分 (DS) , 显著高于 VAD 和 UniAD 等领先的模仿学习方法。值得注意的是,它将成功率 (SR) 提高到了 34.55%,是某些基线方法的两倍。

值得注意的是 L2 误差 (开环) 。ReasonPlan 的误差最低 (0.61m) ,这意味着其预测的轨迹与专家人类驾驶非常吻合。
对未见场景的泛化能力
真正的智能测试在于处理未知情况。研究人员在 DOS (DriveOcclusionSim) 上测试了该模型,该基准测试充满了“长尾案例 (Corner Cases) ”,如行人突然从停放的汽车后面冲出或受阻的左转弯。至关重要的是,该模型从未在这些数据上进行过训练 (零样本,Zero-Shot) 。

如表 2 所示,ReasonPlan 取得了 78.02 的平均驾驶得分,大大超过了徘徊在 57-71 左右的基线。这证明了推理能力使模型能够在没有特定训练的情况下适应新的危险情况。
定性分析
眼见为实。在图 5 中,我们看到了 ReasonPlan 与基线方法 (VAD, UniAD) 的比较。

- 左侧案例 (路口) : 基线方法在绿灯时停滞不前,可能是被复杂的视觉信号搞糊涂了。ReasonPlan 正确地推理了信号变化并继续行驶。
- 右侧案例 (行人) : 这是一个经典的“追球”场景。一名行人突然出现。VAD 和 UniAD 未能及时做出反应,导致碰撞或险些碰撞。ReasonPlan 预判了风险,提前减速,并安全停车。
为什么有效? (消融实验)
作者进行了“消融实验”,以验证 NSP 和 DeCoT 模块是否都是必要的。

- 第 2 行对比第 1 行: 仅添加下一场景预测 (NSP) 就将驾驶得分从 41.84 提高到了 52.61。这证实了理解视觉动态有助于规划。
- 第 3 行对比第 1 行: 仅添加推理 (DeCoT) 将其提高到 53.97。
- 第 4 行: 结合两者获得了最高分 (57.83) 。
这种协同效应表明,视觉预见能力和语义推理能力是自动驾驶的互补技能。
结论与未来展望
ReasonPlan 代表了端到端自动驾驶向前迈出的重要一步。通过摆脱纯粹的模仿,转向一个集成了视觉预测和结构化推理的框架,该系统在闭环环境中实现了最先进的结果。
给学生和研究人员的关键要点:
- 结构很重要: 仅仅将原始图像输入 LLM 是不够的。将输出结构化为逻辑步骤 (场景 -> 标志 -> 行动) 可以大幅提高可靠性。
- 预测即理解: 自监督的下一场景预测任务是一种强制模型在无需昂贵标注的情况下学习物理和动态特性的强大方法。
- 语言是一种控制接口: 使用自然语言作为中间表示形式,可以提高可解释性以及对零样本场景的泛化能力。
虽然 ReasonPlan 展现了巨大的潜力,但它依赖于一个 0.5B (5亿) 参数的模型。随着硬件的进步,我们可以想象一个 7B 或 70B 参数的模型——拥有更深层次的推理能力——在驾驶座上能取得什么样的成就。就目前而言,ReasonPlan 证明了教汽车在驾驶前先“思考”是一个成功的策略。
](https://deep-paper.org/en/paper/2505.20024/images/cover.png)