想象一下,你正试图利用安装在高速列车或竞速无人机上的相机来创建场景的 3D 模型。传统的相机在这里往往无能为力——由于固定的曝光时间,它们会产生巨大的运动模糊。这就是 脉冲相机 (Spike cameras) 发挥作用的地方。受生物视网膜的启发,这种传感器以高达 40,000 Hz 的频率将光线捕捉为连续的二进制脉冲流 (0 和 1) ,理论上消除了运动模糊。
然而,将这些二进制脉冲转换为高保真度的 3D 场景极其困难。传统方法涉及一系列脆弱的步骤: 首先重建图像,然后计算相机位置,最后构建 3D 模型。如果第一步稍有偏差,整个系统就会崩溃。
在这篇文章中,我们将深入探讨 USP-Gaussian , 这是一篇提出打破这种循环的研究论文。作者介绍了一种统一的框架,能够同时执行图像重建、相机位姿校正和 3D 高斯泼溅 (3DGS)。
问题所在: 级联误差陷阱
要理解为什么 USP-Gaussian 是必要的,我们首先需要看看研究人员目前是如何处理用于 3D 重建的脉冲相机数据的。标准工作流程是一个“级联”流程:
- 脉冲转图像 (Spike-to-Image): 使用神经网络将嘈杂的二进制脉冲流转换为清晰的 2D 图像。
- 位姿估计 (Pose Estimation): 使用这些重建的图像来计算相机的位置和方向 (使用 COLMAP 等工具) 。
- 新视图合成 (Novel View Synthesis): 将图像和位姿输入到 NeRF 或 3D 高斯泼溅 (3D Gaussian Splatting) 等 3D 引擎中以渲染场景。
这里的致命缺陷是 误差传播 。 如果初始图像重建有噪声或缺乏纹理 (这在高速场景中很常见) ,位姿估计就会不准确。如果位姿错误,3D 重建就会变得模糊且充满伪影。
USP-Gaussian 提出了一种“协同优化”框架。与其一步步进行,不如让这些步骤互相帮助?

如上图 (左) 所示,该框架由两个并行分支组成: 一个 重建网络 (Recon-Net) 和一个 3D 高斯泼溅 (3DGS) 模块。它们通过联合损失函数连接,允许在训练期间相互校正。
背景: 脉冲 (Spikes) 与泼溅 (Splats)
在剖析架构之前,让我们简要确立两个起作用的核心技术。
1. 脉冲相机 (The Spike Camera)
与在固定曝光时间内积累光线的标准相机不同,脉冲相机连续监测光子强度。每个像素都有一个积分器。当积分电压达到阈值时,它会发射一个“脉冲” (即 1) 并复位。

正如上图 2 所示,相机输出比特流。高光强度导致频繁发射;低光强度导致稀疏发射。在数学上,电压 \(A(t)\) 随时间的累积描述为:

这种机制使相机能够捕捉极快的运动,例如以 350 km/h 移动的铁路,且没有传统的模糊。
2. 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)
3DGS 是神经辐射场 (NeRF) 的现代替代方案。3DGS 不使用神经网络来预测空间中每个点的颜色 (这很慢) ,而是将场景表示为一团 3D 高斯体 (椭球体) 。
每个高斯体都有位置、不透明度、颜色和协方差 (形状) 。为了渲染图像,这些 3D 高斯体被投影 (“泼溅”) 到 2D 平面上。高斯体对点 \(\mathbf{v}\) 的影响计算如下:

当投影到 2D 进行渲染时,协方差矩阵会进行变换:

最后,通过对这些排序后的 2D 高斯体进行 Alpha 混合来计算像素颜色:

核心方法: USP-Gaussian
USP-Gaussian 的目标是获取一组具有粗糙、不准确相机位姿的脉冲流,并输出精细化的位姿、清晰的 3D 模型和高质量的重建图像。
整个流程如下图所示。这看起来可能很复杂,但我们将把它分解为三个易于管理的部分: 重建分支、3DGS 分支和联合优化。

数学目标是同时优化脉冲流 (\(S\))、位姿 (\(P\))、高斯基元 (\(G\)) 和网络参数 (\(\theta\)):

第 1 部分: Recon-Net 分支
流程图的左侧 (图 3) 处理 基于脉冲的图像重建 。 这里的挑战在于,短时间窗口的脉冲可能没有足够的信息 (光子很少) ,但长时间窗口会引入运动模糊。
解决方案: 长短互补输入 作者使用了一种巧妙的混合输入。他们向网络输入:
- 长脉冲流: 提供丰富的纹理和上下文,但包含运动信息。
- 短脉冲流: 从长脉冲流的中心提取,以精确定位确切的时间点。
基于“重模糊 (Reblurring)”的自监督训练 由于我们没有真实世界高速数据的“地面真值 (Ground Truth)”清晰图像,我们该如何训练这个网络呢?我们使用物理原理。
我们知道,如果我们将长时间段 \(T\) 内的所有脉冲相加,我们会得到一个“长曝光”图像 (它会是模糊的) 。我们可以直接从原始脉冲计算出这张长曝光图像 \(\mathbf{E}(T)\):

网络试图预测一系列 清晰 的图像。为了检查它是否正确,我们将预测的清晰序列取平均 (重新模糊) ,并将其与地面真值长曝光图像 \(\mathbf{E}(T)\) 进行比较。
然而,标准的重模糊损失有一个漏洞: 网络可能只是学会每次都输出模糊图像。为了防止这种情况,作者引入了 多重重模糊损失 (Multi-reblur Loss) 。 他们将长间隔切分为子间隔,并强制在每个子部分单独应用重模糊约束。

这迫使网络保持时间一致性,并防止其学习平凡的恒等映射。
第 2 部分: 带有轨迹建模的 3DGS 分支
流程图的右侧处理 3D 重建。标准的 3DGS 假设相机在单帧期间是静止的。但对于脉冲相机,我们面对的是连续流,相机在捕捉数据时 正在 移动。
运动建模 作者通过定义 起始位姿 和 结束位姿 来对时间间隔 \(\mathcal{T}\) 内的相机轨迹进行建模。任何特定时间戳 \(t_m\) 的位姿都是通过使用李代数在两者之间进行插值找到的:

这允许系统在训练期间校正相机轨迹。就像 Recon-Net 一样,3DGS 分支也受到重模糊损失的监督——从高斯体渲染的图像在平均后必须与长曝光脉冲图像匹配。

第 3 部分: 联合优化 (秘诀)
这就是见证奇迹的时刻。我们现在有两个分支同时生成同一场景的图像:
- Recon-Net 从脉冲生成清晰图像。
- 3DGS 从高斯体渲染清晰图像。
联合损失 (Joint Loss) 强制这两个输出相匹配。这创建了一个正反馈循环:
- 3DGS (理解 3D 几何和多视图一致性) 防止 Recon-Net 产生伪影。
- Recon-Net (理解原始传感器数据) 帮助 3DGS 学习可能在高斯体中丢失的精细纹理。

反转问题 这里有一个微妙的问题: 运动歧义性。由于“重模糊”损失只是将帧相加,它不在乎序列是正向播放还是反向播放。优化后的位姿序列可能会意外地让时间倒流!
为了解决这个问题,作者使用了“翻转取小 (flip-and-minimum)”操作。他们计算正常序列和反转序列的损失,然后简单地取最小值。

最终的损失函数结合了所有内容: 重建损失、高斯损失和联合损失。

实验与结果
研究人员在合成数据集 (使用 Blender 渲染的场景) 和真实世界数据 (通过剧烈晃动脉冲相机捕获) 上测试了 USP-Gaussian。
1. 合成数据上的表现
合成数据的结果令人印象深刻。下表将 USP-Gaussian 与级联方法 (如 TFP-3DGS) 和其他脉冲特定方法 (SpikeNeRF, SpikeGS) 进行了比较。

你可以看到 USP-Gaussian 实现了最高的 PSNR (峰值信噪比) 和 SSIM (结构相似性) 得分。
从视觉上看,差异是明显的。在下面的图 4 中,看看标志上的文字和栏杆的细节。以前的方法会模糊这些特征或引入“漂浮物” (噪声伪影) ,而 USP-Gaussian 恢复了干净的几何形状和纹理。

2. 真实世界的鲁棒性
真实世界的数据是混乱的。由 COLMAP 估计的初始位姿通常很糟糕,因为原始脉冲图像充满噪声。
在下面的比较中,看看“Input”列——几乎无法辨认。“Ours”列 (USP-Gaussian) 恢复了精细的细节,比如键盘上的按键和建筑物的建筑特征,而其他方法则丢失了这些细节。

3. 位姿校正
该论文最大的主张之一是它可以修复糟糕的相机位姿。为了测试这一点,他们向初始相机位姿添加了随机噪声 (扰动) ——误差高达 30%。
如下表所示,即使有 30% 的初始误差,USP-Gaussian 仍保持了较高的 PSNR (23.46 dB),而竞争对手 SpikeGS 则暴跌至 16.44 dB。

位姿轨迹图证实了这一点。红色虚线 (初始) 与黑色实线 (参考) 相去甚远。蓝色点线 (优化后) 则迅速回到了正确的路径上。

4. 为什么联合学习很重要 (消融实验)
复杂的联合架构真的有必要吗?作者进行了一项消融研究,关闭了损失函数的不同部分。

观察图 1 右侧的图表 (以及下表) ,我们可以看到独立训练 (蓝色星形/绿色圆形) 的平台期远低于联合训练 (红色三角形/黑色方块) 。Recon-Net 需要 3DGS 来保持一致性,而 3DGS 需要 Recon-Net 来获取纹理。

他们还验证了“长短”输入策略。如果没有长脉冲流输入,重建结果 (中) 相比完整模型 (右) 噪声更大。

结论
USP-Gaussian 代表了高速 3D 视觉向前迈出的重要一步。通过放弃传统的线性流程,转而采用统一的迭代循环,作者成功地缓解了“级联误差”问题。
关键要点:
- 不要迷信流水线: 顺序步骤 (图像 -> 位姿 -> 3D) 会传播误差。联合解决这些问题更加稳健。
- 互惠互利: 2D 传感和 3D 几何约束可以相互监督。
- 物理感知训练: 使用重模糊损失允许在人类无法手动标记的数据上进行自监督训练。
虽然该方法比简单的方法需要更多的 GPU 内存和训练时间,但在质量和鲁棒性方面的回报——特别是在快速运动和抖动的场景中——是不可否认的。这项研究为机器人和无人机以超人的速度和精度理解其 3D 环境铺平了道路。
](https://deep-paper.org/en/paper/2411.10504/images/cover.png)