想象一下，你正试图利用安装在高速列车或竞速无人机上的相机来创建场景的 3D 模型。传统的相机在这里往往无能为力——由于固定的曝光时间，它们会产生巨大的运动模糊。这就是 脉冲相机 (Spike cameras) 发挥作用的地方。受生物视网膜的启发，这种传感器以高达 40,000 Hz 的频率将光线捕捉为连续的二进制脉冲流 (0 和 1) ，理论上消除了运动模糊。

然而，将这些二进制脉冲转换为高保真度的 3D 场景极其困难。传统方法涉及一系列脆弱的步骤: 首先重建图像，然后计算相机位置，最后构建 3D 模型。如果第一步稍有偏差，整个系统就会崩溃。

在这篇文章中，我们将深入探讨 USP-Gaussian , 这是一篇提出打破这种循环的研究论文。作者介绍了一种统一的框架，能够同时执行图像重建、相机位姿校正和 3D 高斯泼溅 (3DGS)。

问题所在: 级联误差陷阱

要理解为什么 USP-Gaussian 是必要的，我们首先需要看看研究人员目前是如何处理用于 3D 重建的脉冲相机数据的。标准工作流程是一个“级联”流程:

脉冲转图像 (Spike-to-Image): 使用神经网络将嘈杂的二进制脉冲流转换为清晰的 2D 图像。
位姿估计 (Pose Estimation): 使用这些重建的图像来计算相机的位置和方向 (使用 COLMAP 等工具) 。
新视图合成 (Novel View Synthesis): 将图像和位姿输入到 NeRF 或 3D 高斯泼溅 (3D Gaussian Splatting) 等 3D 引擎中以渲染场景。

这里的致命缺陷是 误差传播 。如果初始图像重建有噪声或缺乏纹理 (这在高速场景中很常见) ，位姿估计就会不准确。如果位姿错误，3D 重建就会变得模糊且充满伪影。

USP-Gaussian 提出了一种“协同优化”框架。与其一步步进行，不如让这些步骤互相帮助？

USP-Gaussian 框架插图及视觉消融结果。

如上图 (左) 所示，该框架由两个并行分支组成: 一个 重建网络 (Recon-Net) 和一个 3D 高斯泼溅 (3DGS) 模块。它们通过联合损失函数连接，允许在训练期间相互校正。

背景: 脉冲 (Spikes) 与泼溅 (Splats)

在剖析架构之前，让我们简要确立两个起作用的核心技术。

1. 脉冲相机 (The Spike Camera)

与在固定曝光时间内积累光线的标准相机不同，脉冲相机连续监测光子强度。每个像素都有一个积分器。当积分电压达到阈值时，它会发射一个“脉冲” (即 1) 并复位。

脉冲相机和 Recon-Net 的工作机制。

正如上图 2 所示，相机输出比特流。高光强度导致频繁发射；低光强度导致稀疏发射。在数学上，电压 \(A(t)\) 随时间的累积描述为:

脉冲相机电压积分方程。

这种机制使相机能够捕捉极快的运动，例如以 350 km/h 移动的铁路，且没有传统的模糊。

2. 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)

3DGS 是神经辐射场 (NeRF) 的现代替代方案。3DGS 不使用神经网络来预测空间中每个点的颜色 (这很慢) ，而是将场景表示为一团 3D 高斯体 (椭球体) 。

每个高斯体都有位置、不透明度、颜色和协方差 (形状) 。为了渲染图像，这些 3D 高斯体被投影 (“泼溅”) 到 2D 平面上。高斯体对点 \(\mathbf{v}\) 的影响计算如下:

高斯影响方程。

当投影到 2D 进行渲染时，协方差矩阵会进行变换:

2D 协方差投影方程。

最后，通过对这些排序后的 2D 高斯体进行 Alpha 混合来计算像素颜色:

通过泼溅进行像素颜色渲染的方程。

核心方法: USP-Gaussian

USP-Gaussian 的目标是获取一组具有粗糙、不准确相机位姿的脉冲流，并输出精细化的位姿、清晰的 3D 模型和高质量的重建图像。

整个流程如下图所示。这看起来可能很复杂，但我们将把它分解为三个易于管理的部分: 重建分支、3DGS 分支和联合优化。

显示并行处理路径的 USP-Gaussian 工作流程。

数学目标是同时优化脉冲流 (\(S\))、位姿 (\(P\))、高斯基元 (\(G\)) 和网络参数 (\(\theta\)):

USP-Gaussian 的优化目标。

第 1 部分: Recon-Net 分支

流程图的左侧 (图 3) 处理 基于脉冲的图像重建 。这里的挑战在于，短时间窗口的脉冲可能没有足够的信息 (光子很少) ，但长时间窗口会引入运动模糊。

解决方案: 长短互补输入 作者使用了一种巧妙的混合输入。他们向网络输入:

长脉冲流: 提供丰富的纹理和上下文，但包含运动信息。
短脉冲流: 从长脉冲流的中心提取，以精确定位确切的时间点。

基于“重模糊 (Reblurring)”的自监督训练 由于我们没有真实世界高速数据的“地面真值 (Ground Truth)”清晰图像，我们该如何训练这个网络呢？我们使用物理原理。

我们知道，如果我们将长时间段 \(T\) 内的所有脉冲相加，我们会得到一个“长曝光”图像 (它会是模糊的) 。我们可以直接从原始脉冲计算出这张长曝光图像 \(\mathbf{E}(T)\):

从脉冲计算长曝光图像的方程。

网络试图预测一系列清晰的图像。为了检查它是否正确，我们将预测的清晰序列取平均 (重新模糊) ，并将其与地面真值长曝光图像 \(\mathbf{E}(T)\) 进行比较。

然而，标准的重模糊损失有一个漏洞: 网络可能只是学会每次都输出模糊图像。为了防止这种情况，作者引入了 多重重模糊损失 (Multi-reblur Loss) 。他们将长间隔切分为子间隔，并强制在每个子部分单独应用重模糊约束。

多重重模糊损失方程。

这迫使网络保持时间一致性，并防止其学习平凡的恒等映射。

第 2 部分: 带有轨迹建模的 3DGS 分支

流程图的右侧处理 3D 重建。标准的 3DGS 假设相机在单帧期间是静止的。但对于脉冲相机，我们面对的是连续流，相机在捕捉数据时正在移动。

运动建模 作者通过定义 起始位姿 和 结束位姿 来对时间间隔 \(\mathcal{T}\) 内的相机轨迹进行建模。任何特定时间戳 \(t_m\) 的位姿都是通过使用李代数在两者之间进行插值找到的:

SE(3) 中的位姿插值方程。

这允许系统在训练期间校正相机轨迹。就像 Recon-Net 一样，3DGS 分支也受到重模糊损失的监督——从高斯体渲染的图像在平均后必须与长曝光脉冲图像匹配。

3DGS 重模糊损失方程。

第 3 部分: 联合优化 (秘诀)

这就是见证奇迹的时刻。我们现在有两个分支同时生成同一场景的图像:

Recon-Net 从脉冲生成清晰图像。
3DGS 从高斯体渲染清晰图像。

联合损失 (Joint Loss) 强制这两个输出相匹配。这创建了一个正反馈循环:

3DGS (理解 3D 几何和多视图一致性) 防止 Recon-Net 产生伪影。
Recon-Net (理解原始传感器数据) 帮助 3DGS 学习可能在高斯体中丢失的精细纹理。

联合优化损失方程。

反转问题 这里有一个微妙的问题: 运动歧义性。由于“重模糊”损失只是将帧相加，它不在乎序列是正向播放还是反向播放。优化后的位姿序列可能会意外地让时间倒流！

为了解决这个问题，作者使用了“翻转取小 (flip-and-minimum)”操作。他们计算正常序列和反转序列的损失，然后简单地取最小值。

带有翻转取小操作的联合损失方程。

最终的损失函数结合了所有内容: 重建损失、高斯损失和联合损失。

总损失函数。

实验与结果

研究人员在合成数据集 (使用 Blender 渲染的场景) 和真实世界数据 (通过剧烈晃动脉冲相机捕获) 上测试了 USP-Gaussian。

1. 合成数据上的表现

合成数据的结果令人印象深刻。下表将 USP-Gaussian 与级联方法 (如 TFP-3DGS) 和其他脉冲特定方法 (SpikeNeRF, SpikeGS) 进行了比较。

合成数据集上的定量比较表。

你可以看到 USP-Gaussian 实现了最高的 PSNR (峰值信噪比) 和 SSIM (结构相似性) 得分。

从视觉上看，差异是明显的。在下面的图 4 中，看看标志上的文字和栏杆的细节。以前的方法会模糊这些特征或引入“漂浮物” (噪声伪影) ，而 USP-Gaussian 恢复了干净的几何形状和纹理。

合成数据集上的 3D 重建视觉比较。

2. 真实世界的鲁棒性

真实世界的数据是混乱的。由 COLMAP 估计的初始位姿通常很糟糕，因为原始脉冲图像充满噪声。

在下面的比较中，看看“Input”列——几乎无法辨认。“Ours”列 (USP-Gaussian) 恢复了精细的细节，比如键盘上的按键和建筑物的建筑特征，而其他方法则丢失了这些细节。

真实世界数据集上的视觉比较。

3. 位姿校正

该论文最大的主张之一是它可以修复糟糕的相机位姿。为了测试这一点，他们向初始相机位姿添加了随机噪声 (扰动) ——误差高达 30%。

如下表所示，即使有 30% 的初始误差，USP-Gaussian 仍保持了较高的 PSNR (23.46 dB)，而竞争对手 SpikeGS 则暴跌至 16.44 dB。

比较带有扰动的位姿鲁棒性的表格。

位姿轨迹图证实了这一点。红色虚线 (初始) 与黑色实线 (参考) 相去甚远。蓝色点线 (优化后) 则迅速回到了正确的路径上。

位姿优化的视觉轨迹。

4. 为什么联合学习很重要 (消融实验)

复杂的联合架构真的有必要吗？作者进行了一项消融研究，关闭了损失函数的不同部分。

展示联合优化优势的训练曲线比较。

观察图 1 右侧的图表 (以及下表) ，我们可以看到独立训练 (蓝色星形/绿色圆形) 的平台期远低于联合训练 (红色三角形/黑色方块) 。Recon-Net 需要 3DGS 来保持一致性，而 3DGS 需要 Recon-Net 来获取纹理。

定量消融研究表。

他们还验证了“长短”输入策略。如果没有长脉冲流输入，重建结果 (中) 相比完整模型 (右) 噪声更大。

长短脉冲输入的视觉消融。

结论

USP-Gaussian 代表了高速 3D 视觉向前迈出的重要一步。通过放弃传统的线性流程，转而采用统一的迭代循环，作者成功地缓解了“级联误差”问题。

关键要点:

不要迷信流水线: 顺序步骤 (图像 -> 位姿 -> 3D) 会传播误差。联合解决这些问题更加稳健。
互惠互利: 2D 传感和 3D 几何约束可以相互监督。
物理感知训练: 使用重模糊损失允许在人类无法手动标记的数据上进行自监督训练。

虽然该方法比简单的方法需要更多的 GPU 内存和训练时间，但在质量和鲁棒性方面的回报——特别是在快速运动和抖动的场景中——是不可否认的。这项研究为机器人和无人机以超人的速度和精度理解其 3D 环境铺平了道路。

问题所在: 级联误差陷阱#

背景: 脉冲 (Spikes) 与泼溅 (Splats)#

1. 脉冲相机 (The Spike Camera)#

2. 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)#

核心方法: USP-Gaussian#

第 1 部分: Recon-Net 分支#

第 2 部分: 带有轨迹建模的 3DGS 分支#

第 3 部分: 联合优化 (秘诀)#

实验与结果#

1. 合成数据上的表现#

2. 真实世界的鲁棒性#

3. 位姿校正#

4. 为什么联合学习很重要 (消融实验)#

结论#