引言
想象一下,你正以每小时60英里的速度在高速公路上行驶。在一瞬间,你闭上了眼睛。就在这短暂的时刻,你前方的车猛踩刹车。这一瞬间——当你没有任何视觉信息时——是令人恐惧的。
现在,考虑一下自动驾驶汽车。这些系统严重依赖激光雷达 (LiDAR) 和标准帧式相机等传感器。虽然这些传感器很精密,但它们有一个根本的局限性: 它们以固定的帧率运行,通常在 10 到 20 Hz 左右。这意味着在世界的每一个快照之间,存在一个间隙,通常长达 100 毫秒。在研究界,这被称为 “盲时” (Blind Time) 。
在盲时期间,一辆快速移动的车辆可能会行驶数米。行人可能会走下路缘。目前的 3D 目标检测算法本质上是在“猜测”这些间隙中发生了什么,通常假设物体做匀速运动或者仅仅是等待下一帧。正如你可以想象的那样,这种延迟构成了重大的安全隐患。

如图 1 所示,传统方法 (a) 无法检测这些间隔期间的物体。如果一个物体在 \(t_{0 \rightarrow 1}\) 的间隙内加速或改变方向,系统实际上是在盲飞。
在这篇文章中,我们将深入探讨 Ev-3DOD , 这是由韩国科学技术院 (KAIST) 的研究人员提出的一种新颖框架。他们提出了一种解决方案,将事件相机 (具有微秒级分辨率的神经形态传感器) 集成到 3D 目标检测流程中。通过这样做,他们拓展了时间分辨率的边界,允许自动驾驶系统连续“看见”并跟踪 3D 物体,即使主传感器正在等待下一帧数据。
背景: 传感器差距
要理解 Ev-3DOD 的精妙之处,我们首先需要了解当前硬件的局限性以及事件相机的独特能力。
权衡: 带宽与延迟
LiDAR 和 RGB 相机等标准传感器捕捉场景的全局快照。虽然细节丰富,但处理这些数据需要大量的带宽和算力。为了管理这一点,工程师限制了帧率 (例如 10 Hz) 。大幅提高帧率会使自动驾驶汽车的板载计算机不堪重负。
事件相机登场
事件相机 (或动态视觉传感器) 的工作方式截然不同。每个像素不是以固定的间隔捕捉完整的图像,而是独立且异步地运行。一个像素仅在检测到亮度变化时才报告数据。
- 输出: 一系列“事件”流——代表位置、时间和极性 (亮度增加或减少) 的元组 \((x, y, t, p)\)。
- 延迟: 亚毫秒级。
- 带宽: 极低 (除非场景变化迅速) ,因为静态背景不产生数据。
研究人员意识到,虽然 LiDAR 在特定时间戳 (主动时间) 提供了精确的 3D 几何形状,但事件相机在间隙 (盲时) 期间提供了连续的运动信息流。然而,挑战在于融合。如何将稀疏的 2D 事件数据与稠密的 3D 点云结合起来?
Ev-3DOD: 方法
Ev-3DOD 的核心目标是仅利用时间 \(0\) 的初始传感器数据和截止到时间 \(t\) 的事件流,预测盲时区间 \(0 \leq t < 1\) 内任意时刻 \(t\) 的 3D 边界框。
框架概览
为了最大化效率,该架构分为两个明显的阶段: 主动时间戳阶段和盲时运动预测阶段 。

1. 主动时间戳 (图 2a)
在 \(t=0\) 时,系统可以完全访问 LiDAR 和 RGB 相机数据。它使用标准的区域建议网络 (RPN) ——具体来说是一个 RGB-LiDAR 融合模型——来生成:
- 体素特征 (Voxel Features, \(V_0\)) : 3D 场景特征的网格表示。
- 3D 边界框 (\(B_0\)) : 周期开始时检测到的物体。
- 置信度分数 (\(p_0\)) : 模型对每个框的确定程度。
这种繁重的计算每个周期只发生一次。
2. 盲时预测 (图 2b)
这正是创新所在。随着时间推移 (\(t > 0\)) ,我们不再拥有新的 LiDAR 或 RGB 数据。系统并没有重新运行繁重的检测器,而是进入轻量级的“帧间”模式。它获取过去的体素特征 (\(V_0\)) ,并使用当前的事件流更新物体位置。
问题在于: 我们如何使用 2D 事件来移动 3D 体素?
虚拟 3D 事件融合 (V3D-EF)
研究人员引入了一个名为虚拟 3D 事件融合 (V3D-EF) 的模块。该模块充当了 LiDAR 的静态 3D 世界与事件相机的动态 2D 世界之间的桥梁。
第一步: 对齐体素和事件
事件相机缺乏深度信息。为了将 2D 事件与 3D 物体关联起来,系统将 3D 信息投影到 2D 事件平面上。
首先,他们识别出主动时间戳时的非空体素。对于特定的体素 \(k\),他们计算其内部点的质心 , 以获得精确的 3D 坐标 \(c_0^k\)。

这里,\(\mathcal{N}(V_0^k)\) 表示体素 \(k\) 内的点集。
接下来,他们使用相机的内参和外参矩阵将这个 3D 质心投影到 2D 图像平面上。这告诉系统在 2D 事件流的什么位置去寻找与该特定 3D 空间块相对应的运动。
第二步: 提取特征
一旦系统知道 3D 体素在 2D 图像平面上的“居住”位置,它就会在这些坐标处采样事件特征。这就创建了虚拟 3D 事件特征 (\(V_t^E\)) 。 这些特征代表了截至时间 \(t\),在 3D 物体位置发生的运动。

第三步: 隐式运动场
如图 3 所示,系统现在为每个物体建议拥有两组特征:
- 体素特征 (\(V_0\)) : 来自 \(t=0\) 的静态外观/形状信息。
- 虚拟事件特征 (\(V_t^E\)) : 更新至时间 \(t\) 的动态运动信息。
这些特征通过感兴趣区域 (ROI) 池化 (将框划分为子体素) 进行处理并连接。然后它们通过一个多层感知机 (MLP) 来生成一个隐式运动场 (\(M_t\)) 。
该场捕捉了运动向量 \((dx, dy, dz, d\beta)\)——即位置和旋转的偏移量——这正是将框从 \(t=0\) 时的原始位置移动到时间 \(t\) 的新位置所需的。
运动置信度估计器
在黑暗中 (或盲时) 预测运动是有风险的。检测的质量不仅依赖于 \(t=0\) 时的初始检测,还依赖于模型对事件预测出的运动有多“自信”。
如果一个物体做出了事件流无法清晰解析的混乱运动,模型应该降低其置信度。研究人员将最终的置信度分数 \(p_t^i\) 定义为初始分数与一个新的运动置信度分数的乘积:

运动置信度 \(p_{0 \to t}^i\) 由网络的一个单独分支学习,该分支被训练用于预测预测框与真值 (Ground Truth) 之间的交并比 (IoU) 。
数据挑战: DSEC-3DOD
基于事件的 3D 检测面临的最大障碍之一是缺乏数据集。像 Waymo 或 KITTI 这样的标准数据集提供 10 Hz (主动时间) 的标注。但是要训练和评估一个在盲时 (例如 100 Hz) 工作的模型,你需要帧之间的真值标签。
作者向社区贡献了两个主要数据集:
- Ev-Waymo: 基于 Waymo 的合成数据集,其中事件是模拟生成的,允许完美的 100 FPS 真值。
- DSEC-3DOD: 第一个真实世界的基于事件的 3D 目标检测数据集。

创建 DSEC-3DOD 是一项巨大的工程 (图 8) 。由于人类无法轻易地在空白空间以 100 FPS 的速度标注 3D 框,研究人员使用了一个复杂的流程,包括:
- LiDAR-IMU SLAM: 获取精确的自身运动信息。
- 插值: 使用视频帧插值和点云插值来为盲时生成“伪数据”。
- 人工精修: 专家根据伪数据调整插值后的框。

实验与结果
研究人员将 Ev-3DOD 与最先进的 LiDAR 和多模态检测器进行了比较。他们使用了两种评估协议:
- 在线 (Online) : 模型只能使用过去的数据 (现实场景) 。
- 离线 (Offline) : 模型可以通过使用下一个主动时间戳 (\(t=1\)) 的数据进行插值来“作弊” (理想化场景) 。
定量分析
表 1 展示了 Ev-Waymo 数据集上的结果。

数据中的关键结论:
- 对比在线方法: 标准方法 (VoxelNeXt, LoGoNet) 在盲时性能显著下降,因为它们假设物体是静止的或依赖简单的线性运动。Ev-3DOD 以巨大的优势超越了最好的在线方法 (LoGoNet) (例如 48.06 mAP 对比 33.27 mAP )。
- 对比离线方法: 值得注意的是,Ev-3DOD 的表现与使用未来数据的离线方法相当。这表明事件流提供了足够的信息来有效地“预测未来”的物体状态,而无需实际看到下一帧 LiDAR 数据。
定性分析
视觉结果可能是系统鲁棒性最有力的证据。

在图 5 中,我们看到一辆车在 \(t=0.2\) 到 \(t=0.8\) 的时间间隔内被跟踪。
- 红框: 模型的预测。
- 蓝框: 真值 (Ground Truth) 。
- 在线方法 (右侧) : 注意随着时间的推移,红框是如何滞后或偏离蓝框的。模型没有新数据来修正位置。
- Ev-3DOD (中间) : 即使在最后一次 LiDAR 扫描后 800 毫秒,红框仍然紧密地与蓝框对齐。事件 (白/黑点) 提供了必要的线索来更新位置。
随时间的稳定性
最后一次 LiDAR 扫描后,性能下降得有多快?图 7 绘制了检测性能随经过时间变化的曲线。

- 绿线 (在线基线) : 迅速暴跌。当你到达盲时中间时,检测已经变得不可靠。
- 红线 (Ev-3DOD) : 保持高曲线,模仿了离线 (蓝色) 方法的行为。这证明了高时间分辨率的事件有效地填补了信息空白。
消融实验
作者还验证了他们的架构选择。例如,他们移除了“非空掩膜 (Non-empty Mask) ” (该掩膜将事件投影限制在已知的体素位置) 。

如表 4 所示,移除此掩膜导致性能从 46.55 mAP 下降到 42.57 mAP。这证实了用 3D 结构先验 (体素) 来引导事件融合对于避免噪声和歧义至关重要。
结论
传感器帧之间的“盲时”长期以来一直是自动驾驶感知系统的弱点。 Ev-3DOD 解决这个问题的方法不是提高重型传感器的帧率,而是智能地集成一种专为速度设计的传感器: 事件相机。
通过将 3D 体素信息投影到连续的 2D 事件流 (V3D-EF) 中,作者成功地弥合了空间精度和时间分辨率之间的差距。结果表明,我们可以在“在线”设置中以“离线”级别的精度跟踪物体,显著提高了自动驾驶车辆的安全裕度。
此外, DSEC-3DOD 的发布为研究社区提供了进一步探索这一高速前沿领域的基准。随着事件相机变得更加普及,像 Ev-3DOD 这样的技术很可能会成为未来机器人和车辆感知栈中的标准组件。
](https://deep-paper.org/en/paper/2502.19630/images/cover.png)