在自动驾驶和机器人技术飞速发展的世界中,感知即一切。车辆不仅需要知道周围有什么,还需要确切地知道它们有多远。虽然激光雷达 (LiDAR) 传感器能提供出色的深度数据,但其价格昂贵。一种更具成本效益的替代方案是融合来自相机 (丰富的视觉细节) 和毫米波雷达 (可靠的深度和速度信息) 的数据。
然而,雷达-相机融合有一个主要的瓶颈: 效率。现有的方法通常速度缓慢且计算量大,依赖复杂的、多阶段的处理流程,这成为了实时应用的绊脚石。
TacoDepth 应运而生,这是由南洋理工大学、华中科技大学和商汤科技研究院的研究人员提出的一种新颖框架。通过将雷达点视为图结构并利用巧妙的“Flash Attention (闪光注意力) ”机制,TacoDepth 在运行速度显著快于以往方法的同时,达到了最先进的精度。
在这篇深度文章中,我们将剖析 TacoDepth 的工作原理,它为何摒弃传统的多阶段方法,以及它是如何实现这种可能改变机器人感知世界的速度与精度的平衡。
挑战: “稀疏性”陷阱
要理解为什么需要 TacoDepth,我们首先需要了解雷达存在的问题。与激光雷达产生的稠密点云 (看起来像世界的 3D 扫描) 不同,雷达数据极其稀疏 。 一个标准的车载雷达可能在整个场景中只返回寥寥数个点。
传统上,研究人员试图在做其他事情之前通过“填补空白”来解决这个问题。这就是所谓的多阶段框架 。
- 第一阶段: 模型获取稀疏的雷达点,并试图将它们扩展为中间的“准稠密 (quasi-dense) ”深度图。
- 第二阶段: 然后将此中间图与相机图像融合,以预测最终的稠密深度。
问题在于?这个中间步骤是一个陷阱。“准稠密”图往往充满噪声和错误。如果模型在第一阶段猜错了,这些错误就会传播到第二阶段,破坏最终结果。此外,生成这些中间图在计算上也是昂贵的。

如上图所示,TacoDepth (由蓝色和绿色的小圆圈表示) 与现有技术相比处于不同的层级。它在实现更低错误率的同时,运行速度要快得多。
可视化问题
为什么多阶段方法如此脆弱?看看传统方法产生的中间深度图的质量就知道了:

在上图中,“准稠密深度图”大部分是空的 (黑色) 。在夜间或眩光等具有挑战性的条件下,有效像素更是稀缺。依赖这种稀疏、嘈杂的中间数据是以前的模型在鲁棒性和速度上苦苦挣扎的主要原因。
解决方案: TacoDepth
研究人员提出了一种单阶段融合 (One-stage Fusion) 方法。TacoDepth 不试图创建一个虚假的、中间的深度图,而是直接从雷达数据中提取几何结构,并在单个简化的过程中将其与图像特征融合。
该架构包含两个主要的创新点:
- 基于图的雷达结构提取器: 超越了简单的点坐标。
- 基于金字塔的雷达融合模块: 使用 Flash Attention 高效混合模态。
让我们看看高层架构:

1. 雷达是图,不仅仅是点
大多数以前的方法将雷达数据视为具有 \((x, y, z)\) 坐标的简单点列表。TacoDepth 采取了一种更复杂的方法,将雷达点云视为一个图 (Graph) 。
在这个基于图的提取器中:
- 节点 (Nodes) 是雷达点。
- 边 (Edges) 代表相邻点之间的关系 (距离和拓扑) 。
通过使用图神经网络 (GNNs) ,模型可以捕捉场景的几何结构。它不仅知道一个点在哪里;它还理解局部的拓扑结构——点与点之间是如何关联的。这种全局结构感知使得模型比孤立看待点的方法对离群值 (噪声) 具有更强的鲁棒性。
2. 基于金字塔的雷达融合
一旦提取了雷达特征 (节点和边) ,就需要将它们与相机图像结合起来。TacoDepth 使用“金字塔”结构分层地执行此操作。
- 浅层: 融合图像细节与雷达坐标。
- 深层: 融合场景语义 (例如,“这是一辆车”) 与几何结构。
这确保了模型既利用了图像的细粒度纹理,又利用了对场景几何的高层理解。
3. 秘密武器: 以雷达为中心的 Flash Attention
TacoDepth 效率的关键创新在于它处理注意力 (Attention) 的方式。
在现代深度学习 (特别是 Transformer) 中,“注意力”是一种帮助模型决定输入的哪些部分是相关的机制。通常,计算注意力非常昂贵,因为每个像素都要与每个其他像素或点进行比较。
作者意识到了两件事:
- 稀疏性: 雷达点是稀疏的,因此将它们与图像中的每个像素进行比较是对计算资源的浪费。
- 坐标可靠性: 雷达在水平方向 (方位角) 上非常准确,但在垂直方向 (仰角) 上往往不准确,这是由于许多单元缺乏垂直天线。
为了解决这个问题,他们引入了以雷达为中心的 Flash Attention (Radar-Centered Flash Attention) 。
工作原理
对于特定的雷达点,模型仅计算其与在水平方向上物理接近的图像像素之间的注意力。它在雷达点周围创建了一个“窗口”。
在数学上,如果我们有一个图像特征图 \(F_{2l}\),我们只保留那些水平坐标 \(x_m\) 在雷达点 \(x_p\) 的距离 \(a_l\) 范围内的像素 \(m\):

同样,当从图像像素的角度看时,模型只考虑落在该同一水平窗口内的雷达点:

通过限制搜索区域,计算成本得以降低,并且模型避免了被远离雷达回波的不相关像素所迷惑。
然后使用高度优化的“Flash Attention”机制计算注意力,这加速了 GPU 上的内存操作:

注意力机制实战
这种受限的注意力真的有效吗?下面的可视化证实了这一点。即使有水平方向的限制,注意力图 (底行的热力图) 也能清晰地聚焦于相关物体,如汽车和杆状物,将它们与背景区分开来。

这种选择性的聚焦使得 TacoDepth 既快速 (忽略不相关数据) 又准确 (聚焦于正确数据) 。
灵活推理: 一个模型,两种模式
TacoDepth 最人性化的功能之一是它的灵活性。研究人员将其设计为可以在两种不同模式下运行,具体取决于用户对速度与精度的需求。
推理过程由以下方程定义:

这里,\(D^*\) 代表可选的“初始深度”图。
- 独立模式 (速度优先) : 模型仅使用原始图像 (\(I\)) 和雷达 (\(P\)) 运行。这是最快的方法,达到超过 37 帧每秒 (FPS) ,非常适合实时机器人导航。
- 插件模式 (精度优先) : 模型从一个单独的、预训练的网络 (如 MiDaS 或 Depth-Anything) 获取初始深度估计,并使用雷达数据来“校正”尺度。这提供了尽可能高的精度,但由于额外的处理步骤,速度较慢。
实验结果
研究人员在标准的 nuScenes 数据集和较新的 ZJU-4DRadarCam 数据集上测试了 TacoDepth。结果令人信服。
速度与效率
我们在介绍中看到了气泡图,现在让我们看看关于效率的原始数据。

TacoDepth 是一个轻量级的性能怪兽。
- 参数量: 在独立模式下,它仅使用 13.47M 参数,而之前的最先进技术 (Singh et al.) 为 22.81M。
- FLOPs (浮点运算次数) : 它所需的计算量大幅减少——139 GFLOPs 对比 Singh et al. 的 502 GFLOPs。
- 速度: 它处理一帧仅需 26.7ms , 而 Singh et al. 需要 94.2ms。这几乎快了 3.5 倍 。
通过对不同雷达点密度的 FPS 分析证实了这一点:

视觉质量与鲁棒性
没有精度,速度就毫无意义。TacoDepth 在这也表现出色,特别是在困难条件下。
白天场景: 在标准日光下,TacoDepth 生成清晰的深度图,物体边界分明。注意底行 (“Ours”) 中汽车的清晰定义,与中间行中的模糊伪影形成对比。

夜间场景: 夜间是相机举步维艰而雷达变得至关重要的时候。以前的多阶段方法经常在这里失败,因为它们的中间深度图是空的 (黑暗无法为准稠密估计提供视觉特征) 。然而,TacoDepth 利用雷达数据的结构图来保持完整性。

在上图中,竞争对手的方法 (中间行) 基本上崩溃了,产生了浑浊、模糊不清的团块。TacoDepth (底行) 清晰地解析了街道结构和车辆。
对“高度模糊性”的鲁棒性
3D 雷达的一个常见问题是高度模糊性 (Height Ambiguity) ——传感器可能知道物体在 10 米外,但不确定它是在地面高度还是在 2 米高处。
TacoDepth 的注意力机制对此具有惊人的弹性。研究人员通过人为扰动雷达点的垂直坐标来模拟这种误差。

如图 8(a) 所示,即使雷达点垂直偏移 (方块) ,注意力图 (热力图) 仍然锁定了正确的物体 (汽车或树) 。在图 8(b) 中,模型正确地忽略了天空中的“幽灵”雷达点 (离群值) ,为其分配了非常低的注意力。
与最先进技术的比较
定量结果确立了其优势。在 ZJU-4DRadarCam 数据集上,无论使用哪种骨干深度预测器,TacoDepth 的表现都优于现有的“插件”模型。

无论是使用 DPT、MiDaS 还是尖端的 Depth-Anything-v2,TacoDepth 始终提供了一种更好的机制,将初始深度与雷达数据融合以实现度量级精度。
结论
TacoDepth 代表了我们在深度估计传感器融合方法上的重大转变。通过拒绝过去复杂、易错的多阶段流水线,转而采用流线型的单阶段架构 , 作者创建了一个系统,它是:
- 高效的: 利用图结构和水平受限的 Flash Attention 以实时速度运行。
- 准确的: 在标准指标上优于最先进的方法。
- 鲁棒的: 具有以前模型所缺乏的处理夜间场景和传感器噪声的弹性。
- 灵活的: 为高速机器人和高保真测绘提供了不同的模式。
“TacoDepth”这个名字很贴切——就像塔可 (Taco) 将各种配料包裹在一个紧密的整体中一样,这个框架将雷达和相机的不同模态包裹成一个统一、高效的感知模型。对于在混乱、不可预测的现实世界中运行的自动驾驶汽车来说,这种高效的融合正是确保安全性和可靠性所需要的。
](https://deep-paper.org/en/paper/2504.11773/images/cover.png)