想象一下,一架无人机正高速飞过一条昏暗的隧道。在这种场景下,普通相机很可能会失效;快速的运动会导致严重的运动模糊,而微弱的光线则会产生充满噪点、无法使用的画面。这正是当今许多机器人应用面临的瓶颈。然而,有一种不同类型的传感器正是为了在这种条件下大显身手而生的: 事件相机 (Event Camera) 。
事件相机是受生物启发的传感器,其工作方式与手机中的相机截然不同。它们不是以固定的速率捕捉完整的帧,而是异步运行,检测像素级的亮度变化。这赋予了它们惊人的优势: 微秒级的延迟、极高的动态范围以及无运动模糊。
但这这也带来了一个问题。由于事件相机输出的是“变化”流 (即事件) 而不是完整的图像,因此用于 3D 重建的标准计算机视觉算法无法直接应用于它们。具体来说,仅凭事件数据同时弄清楚场景的 3D 结构以及相机的位置 (位姿) ——这一过程被称为同步定位与建图 (SLAM) ——是非常困难的。
在这篇文章中,我们将深入探讨 IncEventGS , 这是研究人员提出的一种新方法,旨在解决这一问题。他们结合了 3D 高斯溅射 (3D Gaussian Splatting) 的高效性与事件相机的高速数据,无需预先知道相机位姿即可重建 3D 场景并跟踪相机运动。
挑战: 无图之骥,何以识途
这项研究的目标是“免位姿 (pose-free) ”重建。在许多受控实验中,研究人员使用外部动作捕捉系统来告诉计算机每一毫秒相机的确切位置。但在现实世界中——在机器人或无人机上——我们没有这种奢侈条件。系统必须仅利用来自相机的数据来弄清楚世界的几何形状及其在其中的路径。
现有的基于事件的重建方法通常依赖于 神经辐射场 (NeRFs) 。 虽然功能强大,但 NeRF 计算量大且训练缓慢。此外,大多数基于事件的 NeRF 假设相机位姿是已知的。IncEventGS 通过使用 3D 高斯溅射 (3D-GS) ——一种更新、更快的显式表示方法——并将其封装在 SLAM (同步定位与建图) 框架中来解决这个问题。
IncEventGS 流程
从高层次来看,IncEventGS 遵循机器人技术中常见的“跟踪与建图 (Tracking and Mapping) ”范式。它分块处理传入的事件流。

如上图 1 所示,该系统分为两个主要的交替过程:
- 跟踪 (Tracking) : 系统估计相机在当前事件块中的运动。它冻结 3D 地图并反问: “给定这个地图,相机必须如何移动才能产生这些事件?”
- 建图 (Mapping) : 一旦估计出运动,系统就会同时细化 3D 地图 (高斯体) 和轨迹,以更好地拟合数据。
至关重要的是,该系统包含一种新颖的初始化策略,使用深度估计模型 (图中的“Pretrained Marigold Model”) 来引导该过程,我们稍后将详细介绍。
核心方法: 连接事件与高斯体
要理解 IncEventGS 的工作原理,我们需要了解三个组成部分: 3D 表示、事件形成模型和轨迹建模。
1. 3D 场景表示
场景不是由神经网络表示,而是由一团 3D 高斯体 (3D Gaussians) 表示。你可以把这些想象成 3D 的斑点,每一个都有位置、大小、方向、颜色和不透明度。
在数学上,高斯体的形状由协方差矩阵 \(\Sigma\) 定义。为了确保该矩阵有效 (半正定) ,它由缩放向量 \(S\) 和旋转矩阵 \(R\) 构建:

当我们想从特定的相机视角渲染图像时,这些 3D 斑点会被投影到 2D 图像平面上。3D 协方差 \(\Sigma\) 变为 2D 协方差 \(\Sigma'\):

这里,\(J\) 是投影变换的雅可比矩阵,\(W\) 是视图变换。一旦投影完成,系统通过从前到后对高斯体进行排序并混合它们来计算像素的颜色。这被称为 Alpha 混合:

在这个公式中,\(c_i\) 是第 \(i\) 个高斯体的颜色,\(\alpha_i\) 是其不透明度贡献。不透明度 \(\alpha\) 取决于高斯体学习到的不透明度 \(o\) 以及像素距离高斯体中心的距离:

系统还使用类似的混合公式渲染深度图和 Alpha 图 (能见度掩码) :


这些方程提供了一种完全可微的方式,将 3D 参数转换为 2D 图像。如果我们稍微改变高斯体的位置,像素颜色也会发生细微变化,这使我们能够使用梯度下降进行优化。
2. 事件形成模型
3D 高斯溅射天然地可以渲染标准彩色图像。然而,事件相机不记录图像;它记录变化。具体来说,当对数亮度变化超过特定阈值 \(C\) 时,会在时间 \(t\) 的像素 \(x\) 处触发一个事件。
为了使用事件数据训练 3D 高斯体,研究人员需要一种方法来比较“真实”事件与“合成”场景。他们通过在一个非常小的时间窗口 \(\Delta t\) 内累积事件来做到这一点。来自事件流的测量亮度变化为:

这里,\(p_i\) 是极性 (正或负变化) 。实际上,我们正在汇总事件以查看亮度变化了多少。
“合成”的亮度变化是通过从 3D 高斯体渲染两张图像来计算的: 一张在时间 \(t_k\),一张在时间 \(t_k + \Delta t\)。这两张渲染图像的对数亮度之差代表了预期的事件:

学习信号来自于最小化测量事件 (公式 8) 和合成事件 (公式 9) 之间的差异。
3. 连续轨迹建模
在标准视频中,相机每帧有一个位姿。事件数据是连续的。如果相机在一个事件块的 50 毫秒窗口内快速移动,假设一个单一的静态位姿会导致误差。
IncEventGS 将相机轨迹建模为一条连续路径。对于块内的任何特定时间 \(t_k\),相机位姿 \(T_k\) 是在起始位姿 \(T_{start}\) 和结束位姿 \(T_{end}\) 之间进行插值的:

这种插值 (使用李代数运算) 确保了运动是平滑且可微的。这允许系统查询任何特定事件时间戳的精确相机位姿。
优化循环
有了这些表示方法,系统就进入了增量循环。
第 1 步: 跟踪 (Tracking)
当一个新的事件块到达时,系统假设 3D 地图是固定的。它试图为这个新块找到最佳的 \(T_{start}\) 和 \(T_{end}\)。它通过最小化真实事件与从当前地图渲染的事件之间的差异来实现这一点:

第 2 步: 建图/光束法平差 (Mapping / Bundle Adjustment)
一旦跟踪提供了运动的良好初始猜测,该块就会被添加到“建图器 (Mapper) ”中。建图器使用滑动窗口 (查看最近的 \(N\) 个块) 并同时优化所有内容——相机位姿和 3D 高斯参数。
总损失函数结合了事件误差 (\(\mathcal{L}_{event}\)) 和结构相似性损失 (\(\mathcal{L}_{ssim}\)) ,以确保重建的图像在结构上看起来合理:

在建图过程中,系统还处理地图的增长 。 随着相机探索新区域,需要创建新的高斯体。系统识别渲染的 Alpha 图中不透明度较低的像素 (这对当前模型来说意味着“空白空间”) ,并在那里生成新的高斯体。
新高斯体的位置是通过使用渲染深度 \(d_u\) 反投影像素 \(u\) 来确定的:

理想情况下,我们只在当前能见度 \(V\) 低于阈值 \(\lambda_V\) 的地方生成高斯体:

初始化问题
基于事件的重建存在一个重大障碍: 数据模糊性 (Data Ambiguity) 。 因为事件只测量变化,它们不包含绝对强度值 (“直流分量”) 。如果你从一团随机的高斯体和随机轨迹开始,优化过程很难收敛到正确的几何形状,因为理论上无限多的场景可以产生相同的亮度变化。
IncEventGS 通过一个巧妙的引导 (bootstrapping) 阶段解决了这个问题。
- 初始猜测: 系统对前几个块进行随机初始化。
- 渲染: 它优化高斯体以匹配事件。这产生了一个能生成正确事件的场景,但通常具有扭曲的 3D 几何形状和深度 (例如,场景可能看起来是扁平的或拉伸的) 。
- 深度细化: 系统从这个初始的噪声重建中渲染出一张亮度图像。然后将该图像输入到一个预训练的单目深度估计模型 (具体来说,是一个名为 Marigold 的模型) 。
- 重新初始化: 这个深度学习模型在数百万张图像上进行过训练,能够“推断”出场景的正确深度结构。作者使用这个预测的深度来重新定位 3D 高斯体,从而校正几何形状。

如图 5 所示,“Pretrained Marigold Model”接收初始的、可能有缺陷的渲染图,并输出深度图。该图作为一个指南,将 3D 高斯体捕捉到一个合理的 3D 结构 (右侧的点云) 中。这个引导状态作为后续增量建图的坚实基础。
我们可以在下面的消融实验中看到这种策略的影响。“w/o”指的是没有这种深度初始化的方法。 ATE (绝对轨迹误差) , 即衡量估计的相机路径与现实相差多少的指标,在使用深度初始化后,从 1.534 cm 大幅下降到仅 0.046 cm。

实验结果
研究人员在合成数据集 (Replica) 和真实世界事件数据 (TUM-VIE) 上测试了 IncEventGS。他们将自己的方法与基于 NeRF 的事件方法以及“两阶段”方法 (先将事件转换为视频,然后运行标准重建) 进行了比较。
视觉质量
视觉效果非常惊人。在下图中,请将“Ours”行与其他方法进行比较。基于 NeRF 的方法 (E-NeRF, EventNeRF) 通常难以分辨细节或产生噪点伪影。

IncEventGS 的结果明显更清晰且更接近真值 (GT) 。这在很大程度上归功于高斯溅射的显式性质,它比 NeRF 中使用的隐式神经网络能更好地保留高频细节。
我们在真实世界数据集中也看到了类似的成功。在图 3 (下图的上半部分) 中,观察桌子上物体的清晰度,“Ours”行相比于“E-NeRF”或“E2VID+COLMAP”中模糊、重影的伪影要好得多。

轨迹估计
仅仅渲染出漂亮的图片是不够的;机器人系统需要知道自己在哪里。上图的下半部分 (图 4) 可视化了轨迹误差。颜色代表误差幅度。
- 左图 (DEVO): 一种最先进的事件视觉里程计方法。
- 中图 (E2VID+COLMAP): 将事件转换为视频,然后使用标准的运动恢复结构 (SfM) 。这导致了灾难性的失败 (注意巨大的误差比例) 。
- 右图 (Ours): IncEventGS 保持了一条紧密的、蓝色 (低误差) 的路径,紧紧跟随地面真值。
快速运动表现
事件相机存在的意义就在于处理速度。研究人员在相机快速移动的场景中测试了该系统。

在图 6 中,注意“Blur”行 (模拟标准相机看到的内容) 是无法使用的。而“Ours”行保持了清晰的几何形状和纹理,证明了连续轨迹建模和事件数据的高时间分辨率正按预期工作。
效率
最后,高斯溅射的主要卖点之一是速度。

IncEventGS 需要的训练时间明显更少 (0.5 小时对比 NeRF 方法的 12 小时以上) ,并且占用的存储空间也更少。这种效率对于在计算能力有限的移动机器人或无人机上进行部署至关重要。
结论
IncEventGS 代表了基于事件的视觉技术向前迈出的重要一步。通过将 3D 高斯溅射 的速度和精度与 事件相机 的鲁棒性相结合,作者创建了一个无需外部跟踪系统即可重建详细 3D 场景的系统。
这种“跟踪与建图”流程的巧妙集成,结合用于克服事件数据模糊性的基于深度的初始化策略,使得该方法优于以前基于 NeRF 的方法。对于未来在高速或低光环境下的自动导航,这种传感器和算法的组合看起来非常有前景。
](https://deep-paper.org/en/paper/2410.08107/images/cover.png)