在自动驾驶的世界里,识别汽车或行人已经是一个已解决的问题。现代感知系统可以在百米之外高精度地发现一辆轿车。但是,当车辆遇到罕见物体时会发生什么?比如搬运玻璃的建筑工人、婴儿车里的孩子,或者是散落在高速公路上的碎片?
这些“长尾”物体——即在训练数据中极少出现的类别——构成了巨大的安全隐患。标准的人工智能模型很难学习它们,因为在训练过程中根本看不到足够的例子。
在这篇文章中,我们将深入探讨 FOMO-3D , 这是一篇提出巧妙解决方案的新研究论文: 与其花费数年时间收集更多的驾驶数据,为什么不利用那些已经从互联网上看过数十亿张图像的大型视觉基础模型 (VFMs) 的“知识”呢?
问题所在: 驾驶数据的长尾效应
自动驾驶汽车严重依赖监督学习。你向模型展示成千上万个汽车的例子,它就学会了检测汽车。但对于罕见物体,数据是稀缺的。这就是所谓的长尾类别不平衡 (long-tailed class imbalance) 。
传统方法试图通过重采样数据 (更频繁地展示罕见例子) 或重加权损失函数 (对遗漏罕见物体的模型进行更严厉的惩罚) 来解决这个问题。然而,这些方法受限于原始数据中存在的信息。如果你的激光雷达传感器只在一个远处的婴儿车上捕捉到了几个点,重新加权损失函数并不能凭空创造出更多的细节。
FOMO-3D 背后的研究人员意识到,虽然驾驶数据是有限的,但互联网却不是。视觉基础模型 (如 CLIP 或 OWLv2) 已经接受了数十亿图文对的训练。它们知道“婴儿车”或“碎片”长什么样,即使自动驾驶数据集不知道。
解决方案: 将基础模型作为先验知识
FOMO-3D 代表“Foundation Model 3D detection” (基础模型 3D 检测) 。它是一个多模态检测器,融合了来自主动传感器 (激光雷达 LiDAR) 的数据和由基础模型处理过的被动传感器 (相机) 的丰富语义知识。
核心思想如下图所示:

如图 1 所示:
- OWL (左) : 一个开放词汇的 2D 检测器。你可以给它一个文本提示,比如“建筑工人”,它就能以高精度在图像中找到他们,且是零样本 (Zero-shot,无需特定训练) 的。
- Metric3D (中) : 一个深度估计模型,可以从单张图像预测场景的几何结构。
- FOMO-3D (右) : 本文提出的方法,将这些 2D 先验知识与激光雷达相结合,创建精确的 3D 边界框。
架构: FOMO-3D 如何工作
将 2D 基础模型的输出与 3D 激光雷达数据融合是非常困难的。相机提供稠密的语义 (颜色、纹理、标签) 但几何信息 (深度) 较差。激光雷达提供完美的几何信息,但语义较差 (它只看到 3D 点) 。
FOMO-3D 通过一个两阶段架构解决了这个问题,如下图所示。

让我们分解图 2 中展示的两个主要阶段。
第一阶段: 多模态提议 (Proposal)
在这个阶段,系统会生成关于物体可能位置的初步猜测 (即提议/候选框) 。FOMO-3D 运行两个并行分支:
- 激光雷达分支: 使用标准检测器 (CenterPoint) 根据 3D 点云查找物体。这对于像汽车这样的常见物体非常有效。
- 相机分支: 这是创新的贡献所在。它使用 OWLv2 在 2D 图像中查找物体,并使用 Metric3D 猜测它们的深度。
从 2D 提升到 3D 的挑战
相机分支必须将图像中的 2D 框“提升”到 3D 空间。这背后的数学原理依赖于使用估计深度 (\(d_i\)) 和相机内参 (\(\mathbf{K}\)) 对像素进行反投影:

然而,单目深度估计 (从单张图片估计距离) 通常带有噪声。如果深度偏差哪怕几米,3D 框的位置也会出错。
为了解决这个问题,研究人员引入了基于视锥的注意力机制 (Frustum-Based Attention) 。

如图 3 可视化所示:
- 视锥提升 (Frustum Lifting) : 模型获取 2D 检测结果并将其投射到 3D 空间中,创建一个视锥 (从相机延伸出的金字塔形状) 。
- 虚拟点云: 它使用 Metric3D 深度在这个视锥内创建一个“虚拟”点云,并用 OWL 的语义特征“绘制”每个点。
- 视锥注意力: 模型知道深度可能是错的。因此,它不仅仅信任单个点,而是沿着整个视锥射线进行采样。它查看该视野锥内的激光雷达特征和图像特征,以精炼物体的位置。
第二阶段: 基于注意力的精炼 (Refinement)
一旦生成了提议 (来自激光雷达和相机分支) ,它们就会被合并。但这还没有结束。提议可能仍然稍微有些错位或分类错误。
精炼阶段使用 Transformer 架构。每个提议变成一个“查询 (query) ”,关注场景的其余部分。
- 激光雷达注意力: 查询查看激光雷达点云以验证几何结构。
- 相机注意力: 查询回看 OWL 图像特征。这对于长尾分类至关重要。激光雷达可能只看到一个“斑点”,但 OWL 知道那个斑点具有“建筑工人”的纹理。
实验与结果
研究人员在两个具有挑战性的数据集上测试了 FOMO-3D: nuScenes (复杂的城市驾驶) 和内部的高速公路 (Highway) 数据集 (高速下的远距离检测) 。
城市驾驶 (nuScenes)
在 nuScenes 上的结果非常显著。下表将 FOMO-3D 与最先进的方法进行了比较。

数据中的关键要点:
- 请看 “Few” 列 (罕见物体/长尾) 。FOMO-3D 达到了 27.6 mAP , 几乎是一些基线性能的两倍,并且显著击败了之前的最佳结果 (MMLF 的 20.0) 。
- 它在 “Many” (常见物体) 上的性能也有所提高,证明了增加罕见物体检测能力并不会损害整体性能。
远距离检测 (高速公路)
在高速行驶时检测小物体非常困难,因为激光雷达点在远距离变得非常稀疏。

图 5 展示了相对于仅激光雷达基线的性能增益。
- 绿色条 (FOMO-3D) : 在所有距离上显示出一致的改进。
- 行人检测 (Person) : 注意“Person”类别 (最右侧) 的巨大激增。在远距离 (200米以上) ,激光雷达几乎看不到行人。然而,相机 (OWL) 仍然可以发现他们,FOMO-3D 成功地利用了这一先验知识。
定性分析: 眼见为实
数字固然重要,但视觉示例更能展示实际影响。
示例 1: 孩子与锥桶
在这个场景中,仅激光雷达模型将一个孩子误认为是成年人,并产生了一个不存在的交通锥幻觉。

如图 6 所示,OWL (左) 正确识别了孩子,但产生了一个假阳性 (FP) 的锥桶。仅激光雷达模型 (中) 对孩子进行了错误分类。FOMO-3D (右) 融合了数据: 它利用激光雷达的几何信息意识到“锥桶”是不真实的,同时利用 OWL 的语义正确地将对象分类为“孩子 (Child) ”。
示例 2: 清除误报
使用敏感的 2D 检测器的一个风险是它们经常产生物体幻觉 (误报) 。

在图 10 中,仅激光雷达模型完全遗漏了建筑工人,并虚构了一辆自行车。FOMO-3D 成功检测到了工人 (归功于相机) ,并抑制了幽灵自行车 (归功于激光雷达) 。
结论与未来展望
FOMO-3D 代表了我们在机器人感知方法上的转变。它不再将物体检测视为一个闭环的监督学习问题,而是将其视为一个由基础模型中嵌入的海量知识辅助的开放世界问题 。
为什么这很重要:
- 安全: 它能检测到那些真正导致事故的“长尾”物体。
- 效率: 它在不需要数百万条新标注驾驶日志的情况下提高了性能。
- 灵活性: 因为它使用开放词汇模型,理论上你可以要求它检测“鹿”或“滑板”,而无需重新训练整个网络,只需更改给 OWLv2 的文本提示即可。
局限性: 目前,庞大的基础模型 (OWL 和 Metric3D) 计算成本高昂,使得实时车载推理成为一项挑战。然而,随着硬件的改进和模型蒸馏等技术的进步,像 FOMO-3D 这样的方法为更安全、更智能、像我们一样理解世界的自动驾驶汽车铺平了道路。
](https://deep-paper.org/en/paper/203_fomo_3d_using_vision_found-2445/images/cover.png)