引言
想象一下,在一个暴雨如注的夜晚,你正驾驶在高速公路上。你的眼睛极力想要分辨路肩上停着的是一辆车还是仅仅是一个阴影,或者远处的灯光是路灯还是迎面驶来的车辆。现在,想象你是一套试图做同样事情的计算机算法。
在自动驾驶中,车辆的“大脑”通常依赖于鸟瞰图 (Bird’s-Eye-View, BEV) 表示。这是一张由车载摄像头和激光雷达传感器生成的周围环境的自顶向下的网格状地图。这张地图是汽车接下来所有操作的基础: 检测物体、预测运动以及规划路径。
然而,生成这张地图充满了困难。传感器并不完美。摄像头在强光和黑暗中表现挣扎;遮挡物会隐藏物体;而用于拼接这些视角的深度学习模型往往会引入“噪声”。这种噪声可能表现为“幻觉” (在没有车的地方看到车) 或“盲点” (完全漏掉了行人) 。
通常,研究人员试图通过构建更大、更慢的模型来解决这个问题。但来自博世研究院 (Bosch Research) 和 BCAI 的团队提出了一种更聪明的方法。他们推出了 BEVDiffuser , 这是一种新颖的方法,利用扩散模型 (即 Midjourney 等艺术生成器背后的技术) 来对这些地图进行“去噪”。

如上图所示,差异是巨大的。左侧是标准的噪声特征图;右侧是 BEVDiffuser 生成的更清晰的版本。最棒的是什么?它显著提高了汽车的感知精度,而在实际驾驶过程中却没有增加任何计算延迟。让我们深入了解它是如何工作的。
背景: BEV 中的噪声问题
要理解 BEVDiffuser,我们需要先了解当前 BEV 感知的现状。
BEV 流程
在标准设置中 (如 BEVFormer 或 BEVFusion) ,模型从汽车周围的多个摄像头获取输入。它通过编码器将这些图像传递出去,以生成 BEV 特征图。这张图就像一个统一的画布,来自不同摄像头的特征被拼接在一起。最后,“任务头 (task heads) ”会查看这张地图,并在汽车、行人和障碍物周围绘制边界框。
问题所在
问题在于,中间的 BEV 特征图很少受到直接监督。模型的训练目标是最小化最终边界框的误差 (任务损失) ,而不是让地图本身变得清晰。因此,特征图变成了一个“黑盒”,可能包含伪影、模糊的边界或传感器噪声。这种退化使得最终的检测任务变得更加困难,特别是对于小物体或在恶劣天气下。
扩散模型登场
扩散模型是一类生成模型,它通过逆转噪声过程来学习创建数据。你从纯静态 (高斯噪声) 开始,迭代地对其进行细化,直到出现清晰的图像 (或在本例中为特征图) 。研究人员意识到,如果他们能将混乱的 BEV 地图视为“噪声图像”,他们就可以使用扩散模型来“清理”它们。

BEVDiffuser 方法论
BEVDiffuser 不仅仅是一个标准的扩散模型;它是专门为自动驾驶的几何结构设计的条件扩散模型。
1. 真值引导 (Ground-Truth Guidance)
扩散模型需要知道“干净”是什么样子的。在图像生成中,你可能会根据像“一张猫的照片”这样的文本提示来调节模型。在 BEVDiffuser 中,条件是真值布局 (Ground-Truth Layout) 。
研究人员将标注的 3D 边界框 (nuScenes 等数据集中提供的标签) 视为一种布局。他们将场景中每个物体的位置、大小和类别编码为一个结构化的嵌入。这个布局告诉扩散模型: “这里应该有一辆车,那里有一个行人,这里是空旷的道路。”
这种引导至关重要。它迫使扩散模型重建在数学上尊重场景物理现实的特征图。
2. 训练过程
训练涉及一个 U-Net 架构 (图像处理中常见的神经网络形状) 。过程如下:
- 获取由现有模型 (如 BEVFormer) 生成的 BEV 特征图。
- 向其添加随机噪声。
- 将此噪声地图连同真值布局嵌入一起输入 U-Net。
- U-Net 尝试预测干净的特征图 (或被添加的噪声) 。
该模型使用扩散损失和下游任务损失的组合进行优化 (确保清理后的地图对检测实际上是有用的) 。
扩散损失计算如下:

总损失将其与特定任务的损失结合起来:

3. “即插即用”的魔法
这是论文中最具创新性的部分。在推理过程中 (当汽车正在行驶时) 使用扩散模型太慢了。它需要多个步骤来对地图进行去噪,这对于移动的车辆来说会产生不可接受的延迟。
研究人员通过仅在训练期间使用 BEVDiffuser 解决了这个问题。

这是一个“教师-学生”工作流:
- 训练教师: 首先,训练 BEVDiffuser,使其成为利用真值引导清理噪声特征图的专家。
- 训练学生 (感知模型) : 采用一个标准模型 (例如 BEVFormer) 。将其带有噪声的输出传入冻结的 BEVDiffuser。
- 监督: BEVDiffuser 输出高质量、去噪后的地图。然后我们强制学生模型生成看起来像这个干净版本的地图。
我们引入了一个特定的 BEV 一致性损失 (\(L_{BEV}\)) ,如果学生模型的输出与教师的去噪输出不同,就会受到惩罚:

这为学生模型创建了一个新的总损失:

结果: 学生模型学会了在内部生成更干净、更高质量的地图,有效地模仿了扩散模型。一旦训练完成,你就删除 BEVDiffuser。学生模型以其原始速度运行,但精度显著提高。
实验与结果
团队在 nuScenes 数据集上测试了 BEVDiffuser,这是自动驾驶的黄金标准基准。他们将其应用于四个不同的基线模型: BEVFormer-tiny、BEVFormer-base、BEVFormerV2 和 BEVFusion。
定量提升
改进是一致且巨大的。在计算机视觉中,在基准测试上获得 1-2% 的提升就被认为是很好的。BEVDiffuser 取得了显著的进步。

如表 1 所示:
- BEVFormer-tiny: 平均精度均值 (mAP) 从 25.2% 跃升至 28.3% , NDS (nuScenes 检测分数) 从 35.5% 上升至 39.1% 。
- BEVFormerV2: mAP 出现了巨大的飞跃,从 32.7% 升至 37.1% 。
- BEVFusion: 即使是这个结合了摄像头和激光雷达的最先进模型,也看到了提升。
由于架构在推理时保持不变,计算效率 (FPS) 与基线模型保持完全一致:

去噪的有效性
为了证明扩散过程确实在起作用,作者分析了性能与训练阶段使用的去噪步数的关系。

图 4 中的图表显示了一个明显的趋势: 随着去噪步数的增加 (直到大约 5 步) ,特征图的质量 (以及检测分数) 急剧上升。
解决“长尾”问题
AI 中最难的问题之一是“长尾”——检测很少出现的物体,如工程车辆、拖车或铰接式公交车。标准模型通常会忽略这些物体,而倾向于像汽车这样的常见物体。
因为 BEVDiffuser 是由真值布局引导的 (无论频率如何,都平等对待所有物体) ,它迫使模型关注这些罕见的类别。

表 3 极具戏剧性地突出了这一点。对于工程车辆 (Construction Vehicles) , BEVFormer-tiny 模型的 mAP 从 5.8% 提高到了 7.2% , 而基础模型甚至看到了更大的相对收益。这表明去噪特征保留了标准编码器会模糊掉的关键几何细节。
恶劣条件下的鲁棒性
自动驾驶汽车真正的考验是雨夜。当光线不足时,摄像头的噪声最大。研究人员对检测结果进行了可视化,看看 BEVDiffuser 是否有助于减少“幻觉” (假阳性) 和漏检 (假阴性) 。

在上方的可视化图 (图 6) 中,看看中间一行 (基线) 和底行 (+ BEVDiffuser) 的区别。
- 第 1-3 列: 基线模型产生了不存在的物体幻觉 (蓝色框) 。BEVDiffuser 清理了地图,移除了这些鬼影。
- 第 4-5 列: 基线漏掉了行人或汽车。BEVDiffuser 成功地找回了它们。
这种鲁棒性延伸到了夜间驾驶,此时视觉信号很弱。

在图 8 中,基线模型在眩光和黑暗中挣扎,漏掉了横穿马路的车辆。BEVDiffuser 增强的模型 (底部) 清晰地捕捉到了它。这种能力对安全至关重要。
生成能力: 驾驶世界模型?
除了清理噪声地图,BEVDiffuser还是一个生成模型。这意味着它可以从零开始生成数据。作者尝试了以自定义布局为条件,从纯噪声中生成 BEV 地图。
他们演示了“上帝模式”编辑: 选取一个场景,移除一辆车,添加一辆卡车,或在布局中移动一个行人,然后要求 BEVDiffuser 生成相应的特征图。

图 7 展示了这种能力。模型成功地在添加或移动物体的地方生成了特征 (由红框突出显示) 。这对于数据增强具有巨大的潜力。工程师不用行驶数百万英里去寻找罕见的极端情况,只需简单的“绘制”一个场景布局,并生成合成的传感器特征来训练他们的汽车。
结论
BEVDiffuser 代表了自动驾驶感知领域向前迈出的重要一步。它解决了检测效果差的根本原因——嘈杂、无监督的内部表示——而不是仅仅调整最终的输出层。
主要收获如下:
- 去噪有效: 将 BEV 地图视为需要清理的图像,显著提高了特征质量。
- 真值引导强大: 使用物体布局来调节去噪过程,迫使模型学习更好的几何结构。
- 推理零成本: 通过在训练期间将扩散模型用作“教师”并在之后将其丢弃,我们获得了大型生成模型的精度优势,同时保持了标准检测器的速度。
随着自动驾驶从晴朗的白天走向复杂、不可预测的环境,像 BEVDiffuser 这样能从嘈杂的传感器数据中挤出更多信号的技术,对于实现完全自动驾驶将是必不可少的。
](https://deep-paper.org/en/paper/2502.19694/images/cover.png)