引言
想象一下你正在教一个学员开车。要测试他们的技能,你有两个选择。方案 A 是在高峰时段的车流中坐在副驾驶座上,让他们开车。这种方式很真实,能给你即时反馈,但既危险又压力山大。方案 B 是给他们看一段驾驶视频,然后问: “这里你会怎么做?”这种方式既安全又容易打分,但它无法告诉你如果实际上手时出现突发状况,他们是否真的能驾驭车辆。
这种两难境地反映了开发自动驾驶汽车 (AV) 时面临的主要危机。我们需要在 AI 司机上路前知道它是否安全,但目前的评估方法要么是“危险且昂贵” (真实世界测试) ,要么是“安全但不真实” (仿真) 。
在最近的一篇论文中,研究人员提出了新颖的第三种选择: 伪仿真 (Pseudo-Simulation) 。 这种新范式试图结合真实数据的真实性与仿真的稳健性检查。通过利用最先进的神经渲染技术 (特别是 3D 高斯泼溅) ,他们创造了一种无需计算繁重的交互式模拟器即可测试 AV 如何从错误中恢复的方法。
在这篇文章中,我们将拆解这篇研究论文,解释为什么目前的方法会失败,伪仿真如何工作,以及为什么它可能是自动驾驶系统基准测试的未来。
背景: 评估差距
要理解为什么伪仿真必不可少,我们必须首先了解两种主导评估范式的局限性: 闭环 (Closed-Loop) 和开环 (Open-Loop) 。
闭环评估
闭环评估就像电子游戏。AV 控制汽车,环境随之做出反应。如果 AV 向左转,汽车在下一帧中就会向左移动。
- 优点: 它测试“复合误差”。如果 AV 稍微偏离中心,我们可以看到它是修正了方向还是撞车了。它能捕捉决策的后果。
- 缺点: 准确模拟真实世界非常困难。与现实相比,大多数模拟器看起来像卡通片,这就产生了“域差异”,导致 AV 可能仅仅因为阴影看起来不对劲而失败。此外,为每一帧运行高保真物理和渲染在计算上非常昂贵且缓慢。
开环评估
开环评估使用预先录制的人类驾驶日志。我们给 AV 一张世界的快照,然后问: “我们要去哪里?”然后我们将 AV 的计划与人类专家的实际操作进行比较。
- 优点: 它使用真实的传感器数据 (完美的照片级真实感) ,并且非常快速/可扩展。
- 缺点: 它假设 AV 会遵循完美的路径。在现实中,AV 的轨迹会略微偏离人类的轨迹。在开环测试中,因为我们在每个时间戳都将汽车重置为人类的位置,所以我们从未测试过 AV 是否能从自身微小的偏差中恢复。这种对“漂移”的盲视是一个主要的安全盲点。
研究目标: 作者旨在创建一个系统,该系统使用真实数据 (像开环一样) ,但能评估从错误中恢复的能力 (像闭环一样) ,同时保持计算效率。
核心方法: 什么是伪仿真?
这篇论文的核心创新是一个两阶段的评估过程,引入了“合成”的未来。系统不是一个完全交互式的电子游戏,而是预先计算了汽车可能遇到的各种未来情况。
![图 1: 伪仿真。 (上) 从初始的真实世界观测 (a) 开始,我们要通过一种专门用于驾驶场景的 3D 高斯泼溅变体 [9] 生成合成观测 (b、c、d) 。关键在于,这些合成观测是在评估之前预先生成的,这与在评估过程中在线生成观测的传统交互式仿真不同。 (下) 伪仿真涉及两个阶段。在第一阶段,我们评估 AV 对 (a) 的轨迹输出。第二阶段涉及评估对 (b、c、d) 输出的轨迹。第二阶段的分数根据第二阶段合成观测起点与第一阶段计划终点的接近程度进行加权 \\( \\hat { w } ^ { ( i ) } \\)。聚合得分评估了对预期路径附近微小变化的鲁棒性,优先考虑最可能的未来。](/en/paper/2506.04218/images/001.jpg#center)
如图 1 所示,该过程分为两个明显的阶段:
第一阶段: 初始观测 (真实数据)
第一阶段看起来与标准的开环评估完全一样。AV 接收真实的图像 (上图中的帧 a) 和传感器数据。它规划未来 4 秒的轨迹。
- 系统使用称为 EPDMS (扩展预测驾驶员模型评分) 的指标评估此轨迹。该指标检查碰撞、舒适度和进度。
- 关键在于,系统会记录 AV 在此计划轨迹结束时到达的位置 。
第二阶段: 合成观测 (“伪”的部分)
这就是神奇之处。在传统的开环测试中,评估到此为止。在伪仿真中,研究人员引入了“假如……会怎样”的场景。
在评估之前,研究人员使用 3D 高斯泼溅 (3D Gaussian Splatting) 从专家路径周围的不同视点生成合成图像 (图 1 中的帧 b、c 和 d) 。这些代表了“扰动”状态——如果汽车稍微向左、向右、向前或向后漂移,可能会处于的位置。
- AV 接收这些合成图像 (它以前从未见过) 。
- 它为这些潜在情况中的每一个生成新的轨迹。
- 系统对这些新轨迹进行评分。
加权方案: 连接两个阶段
这种方法的精妙之处在于它如何组合分数。我们并不平等地关心每一个可能的合成未来。我们最关心的是 AV 实际计划前往 的未来。
最终分数是第一阶段分数和第二阶段分数的加权组合。第二阶段的权重取决于接近度 (proximity) 。

让我们分解上面的公式:
- \(s_{combined}\): 最终得分。
- \(s_1\): 来自真实世界帧的得分。
- \(s_2\): 来自合成帧的聚合得分。
- \(w^i\): 特定合成场景的权重。
项 \(\exp( - \lVert x^i - \hat{x} \rVert ^2 )\) 本质上是在说: “如果 AV 的第一阶段计划终点接近合成点 \(x^i\),则赋予该合成点高权重。”
如果 AV 计划直行,系统会给对应于直行的合成视图很大权重。如果 AV 在第二阶段无法保持直行 (例如,在该合成时间线中撞车) ,最终得分将显著下降。这有效地测试了一致性和恢复能力——规划器能否处理它自己置身的状态?
技术赋能者: 3D 高斯泼溅
生成这些合成视图需要一个既具有照片级真实感又快速的渲染引擎。传统的图形引擎 (如虚幻引擎) 很难完美地复制现实世界的传感器噪声和光照。
研究人员利用了 多次遍历高斯泼溅 (Multi-Traversal Gaussian Splatting, MTGS) 的修改版本。这是一种神经渲染技术,将场景表示为 3D 高斯 (斑点) 云。它允许:
- 照片级真实感: 它保留了真实世界的确切外观,包括光照和传感器特征。
- 新视角合成: 它允许将相机移动到新位置 (例如,漂移到下一条车道) ,以生成原始日志中不存在的新图像。

图 2 展示了这些合成观测的质量。标记为空心三角形 (\(\triangleright\)) 的图像是合成的。请注意它们如何保持城市环境的视觉复杂性,包括光照条件和物体放置。这种高保真度至关重要;如果合成图像看起来很“假”,AV 可能会仅仅因为无法识别场景而失败,而不是因为它的驾驶技术不好。
实验与结果
研究人员需要证明两点:
- 相关性: 伪仿真是否真能预测 AV 在全面、昂贵的闭环仿真中的表现?
- 保真度: 合成图像是否足以骗过 AV?
与闭环仿真的相关性
研究人员在 nuPlan 基准上测试了 83 种不同的规划器 (包括基于规则的和基于深度学习的) 。他们将伪仿真的分数与运行完整闭环仿真的“真值”进行了比较。

图 3(a) 显示了结果。X 轴代表闭环分数 (严格、昂贵的测试) ,Y 轴代表伪仿真分数。
- 存在很强的线性关系 (\(R^2 = 0.8\)) 。
- 如果规划器在伪仿真中表现良好,通过闭环仿真的可能性就很高。
- 关键是, 图 3(b) 显示“两阶段” (伪仿真) 方法的相关性 (\(r=0.89\)) 远高于标准的单阶段开环评估 (\(r=0.83\)) 。
这证实了添加那些合成的“假设”帧显着提高了我们预测真实世界鲁棒性的能力。
效率比较
论文强调了巨大的效率提升。nuPlan 中的标准闭环仿真需要 80 次顺序的规划器推理 (以 10Hz 运行 8 秒) 。伪仿真只需要大约 13 次推理 (1 次真实 + ~12 次合成) 。此外,由于合成帧是预先生成的,这些推理可以并行运行。这使得伪仿真在交互次数方面效率大约高出 6 倍 , 同时提供了顺序仿真无法比拟的并行化能力。
NAVSIM v2 排行榜
为了推动社区向前发展,作者建立了一个名为 navhard 的新基准,专注于无保护转向和密集交通等具有挑战性的场景。

表 2 揭示了关于当前最先进规划器的有趣见解:
- PDM-Closed (一种基于规则的规划器) 总体得分最高 (51.3) 。
- 然而,观察“舒适度”得分 (HC 和 EC) ,与 LTF (Latent TransFuser) 等学习模型相比,它的表现很差。
- 这表明,虽然基于规则的系统是安全的 (高避撞性) ,但它们的驾驶方式“顿挫”或不舒适。伪仿真成功捕捉到了这些细微差别,而标准的开环指标通常会忽略这些。
视觉保真度分析
最后,研究人员必须确保他们的合成图像不会破坏 AV 的感知系统。他们采用了一个仅在真实图像上训练的端到端规划器 (LTF) ,并在合成帧上对其进行了测试。

表 3 显示了结果。
- 感知 (mIoU) : 分割质量有所下降 (从真实数据的 46.0 降至合成数据的 37.6) 。这是预料之中的;没有仿真是完美的。
- 规划 (EPDMS) : 尽管感知质量下降,但规划得分保持稳定 (在第一阶段仅从 62.3 略微下降到 61.0) 。
这表明,虽然神经渲染不是像素级完美,但它保留了驾驶所需的语义信息。汽车仍然能识别出“这是一条路”和“那是一辆车”,即使精细的纹理被高斯泼溅过程稍微平滑了一些。
结论与启示
“伪仿真”范式代表了自动驾驶汽车评估向前迈出的重要一步。通过智能地结合真实世界日志与神经渲染,研究人员创造了一个测试场,它具有以下特点:
- 可扩展: 它运行在数据集上,而不是繁重的物理引擎上。
- 可并行化: 它避免了闭环仿真的顺序瓶颈。
- 鲁棒性: 它测试错误恢复和因果混淆,不像标准的开环测试。
NAVSIM v2 基准的引入使研究社区能够摆脱简单的“回放”指标,转向真正惩罚脆弱性的评估。
对于该领域的学生和研究人员来说,这篇论文强调了一个重要的教训: 我们要如何衡量进步与进步本身一样重要。 一个在静态数据集上获得满分的规划器,如果无法从 10 厘米的漂移中恢复,可能会在现实世界中遭遇灾难性的失败。伪仿真为现实提供了一面计算高效的镜子,迫使我们的模型不仅要准确,还要具有弹性。
](https://deep-paper.org/en/paper/2506.04218/images/cover.png)