在计算机视觉和机器人领域,3D 重建被视为圣杯。无论是机器人在仓库中导航,VR 头显绘制你的客厅地图,还是火星探测车扫描沙丘,将现实世界转化为数字 3D 模型的能力都至关重要。

多年来,手持扫描 (例如在高端智能手机上看到的那种) 的黄金标准一直是 RGB 相机稀疏 LiDAR (激光雷达) 传感器的组合。这种设置在完美条件下效果尚可。但现实世界并不完美。我们会遇到黑暗的房间、白色的无纹理墙壁以及吸收光线的黑色物体。在这些“具有挑战性”的场景中,传统的基于 RGB 的重建会失败,因为它“看”不到特征,而稀疏 LiDAR 也会失败,因为它捕捉的数据点不足以填补空白。

麻省理工学院 (MIT) 的一个研究团队提出了一种反直觉的解决方案: 模糊 LiDAR (Blurred LiDAR)

在他们的论文 “Blurred LiDAR for Sharper 3D” 中,作者展示了通过使用漫射 (模糊) 的激光闪光代替精确的点阵,并利用智能算法将该数据与 RGB 图像融合,我们可以实现明显更清晰、更鲁棒的 3D 扫描。

图 1: 提出的方法使用漫射 LiDAR 和 RGB 来重建具有挑战性的场景。

问题所在: 当相机和激光失效时

要理解这项创新,我们首先需要看看现有方法为何举步维艰。

1. RGB 相机: 现代 3D 重建技术,如神经辐射场 (NeRFs) ,严重依赖于匹配不同图像中的纹理。如果你将 RGB 相机对准光滑的白墙或昏暗房间里的黑色皮椅,算法就会难以应对。它无法找到独特的“特征”来锁定,从而导致 3D 模型混乱或构建失败。

2. 稀疏 LiDAR: 为了辅助相机,像 iPhone Pro 这样的设备使用了稀疏 LiDAR。这种传感器将清晰的红外点阵网格投射到场景上。通过测量每个点反弹回来所需的时间 (飞行时间,ToF) ,它计算出深度。

问题就在于它的名字: 稀疏 (Sparse) 。 这些传感器只能测量特定点的深度。如果一个小物体落在点与点之间,传感器就会完全错过它。为了获得完整的画面,你必须大幅移动设备来用点阵“绘制”场景,这并不总是可行的。

解决方案: 漫射 (模糊) LiDAR

研究人员建议用漫射闪光代替清晰的点阵网格。想象一下相机闪光灯,但它是在红外光谱下的。

图 2: 比较稀疏 LiDAR (点) 与漫射 LiDAR (闪光) 。

图 2 所示,稀疏 LiDAR (a) 在特定点给出精确深度,但留下了巨大的空白。漫射 LiDAR (b) 则覆盖了视场内 100% 的场景。传感器中的每个像素都能接收到来自场景的光线。

然而,这也有一个陷阱。因为光线是漫射的,传感器上的单个像素会接收来自场景中一大片区域 (一个宽“锥体”) 的光线。这引入了 空间模糊性 (spatial ambiguity) 。 传感器知道光子是何时返回的 (距离) ,但由于像素看到的是一个宽广的区域,并不显而易见物体位于该区域内的何处。图像实际上在空间上是“模糊”的。

这看起来像是一种倒退——用精度换取了模糊。但这正是 融合 (fusion) 发挥作用的地方。研究人员意识到 RGB 相机和漫射 LiDAR 是完美的互补:

  • RGB: 高空间分辨率 (清晰图像) ,但深度信息差。
  • 漫射 LiDAR: 低空间分辨率 (模糊图像) ,但深度信息丰富 (度量深度) 。

通过数学方法结合这两个信号,系统可以利用 RGB 图像中的清晰边缘来“去模糊” LiDAR 数据,从而产生比任何单一传感器均更好的重建效果。

光与时间的数学

要理解计算机如何处理这一点,我们必须看看 LiDAR 是如何测量时间的。

在传统的理想 LiDAR 设置中,激光击中单个点 \(\mathbf{x}\)。传感器测量该特定点的飞行时间 (\(t\))。在数学上,这是一个“delta 函数”——即信号在光线返回的确切时刻出现一个尖峰:

公式 1

然而,对于 漫射 LiDAR , 单个传感器像素收集来自表面点区域 (\(\Omega\)) 的光线。传感器接收到的信号是来自该区域所有反射的总和 (积分) :

公式 2

这个积分创建了一个 瞬态直方图 (transient histogram) ——一个光子强度随时间变化的图表。传感器看到的不再是单个尖峰,而是一条复杂的曲线,包含波峰和波谷,代表该像素视野内不同距离的物体。

为什么漫射更有利于恢复

你可能会想,这种“混合”信号是否会让恢复 3D 形状变得不可能。作者进行了一项“可恢复性分析”来测试这一点。他们模拟了在视点数量有限的情况下,从稀疏信号与漫射信号中可以恢复多少信息。

图 3: 可恢复性分析显示,当视点有限时,漫射 LiDAR 优于稀疏 LiDAR。

图 3 所示,由于漫射 LiDAR 覆盖了场景的整个体积 (体素) ,它比稀疏 LiDAR 更快地达到了更高的“秩” (数学上的可恢复性) 。尽管数据是模糊的,但其覆盖率要好得多,只要你有办法解码它,这种优势就超过了精度的损失。

核心方法: 高斯面元与传感器融合

为了解码这些模糊数据并构建 3D 模型,研究人员使用了一种称为 综合分析法 (Analysis-by-Synthesis) 的技术。

他们创建一个虚拟 3D 模型,模拟 RGB 相机和漫射 LiDAR 在给定该模型下应该看到的内容,将其与真实的传感器数据进行比较,然后更新模型以最小化误差。

图 4: 重建流程。

1. 场景表示: 高斯面元 (Gaussian Surfels)

团队没有使用点云或体素网格,而是使用 高斯面元 (Gaussian Surfels) 来表示场景。可以把它们想象成漂浮在 3D 空间中的微小、扁平的 2D 椭圆。它们可以旋转和缩放以完美地贴合物体表面。

一个 3D 高斯通常由均值 (位置) 和协方差 (形状/方向) 定义:

公式 3

为了确保这些高斯表现得像平面 (面元) ,协方差矩阵 \(\Sigma\) 是使用旋转矩阵 \(\mathbf{R}\) 和缩放矩阵 \(\mathbf{S}\) 构建的,其中一个缩放轴被设为零 (将球体压扁成圆盘) :

公式 4

2. 渲染模型

为了更新这些面元,系统需要将它们渲染到 2D 屏幕上,以便与真实图像进行比较。这是通过将 3D 高斯投影到 2D 来完成的:

公式 5 公式 6

渲染颜色 (RGB): 系统通过像素发射光线。当光线击中面元时,它会根据面元的不透明度 (\(\alpha\)) 和透射率 (\(T\)) 混合它们的颜色。这是标准的体积渲染:

公式 7

渲染深度: 它还通过平均光线上所有面元的距离 \(d_i\) 来计算每个像素的预期深度:

公式 8 公式 9

渲染瞬态 (创新点) : 这是棘手的部分。系统必须模拟 模糊的 LiDAR 直方图 。 由于漫射像素看到的是一个空间锥体,渲染器在该锥体内采样多条光线。对于每一个击中的面元,它根据距离计算光子将落入哪个“时间箱” (直方图桶) :

公式 10

为了使过程可微 (以便 AI 能够学习) ,他们使用了“软直方图化”,将信号分布在相邻的时间箱中:

公式 11

最后,他们将所有贡献相加以构建模拟的瞬态直方图 \(i[t]\):

公式 12

3. 场景自适应损失函数

这才是神奇之处。系统有两个误差源:

  1. RGB 损失: 渲染颜色与真实照片之间的差异。
  2. 瞬态损失: 模拟直方图与真实 LiDAR 数据之间的差异。

在纹理丰富的明亮房间里,RGB 是可靠的。在黑暗的房间或白墙上,RGB 是不可靠的。研究人员引入了一种 场景自适应损失 (Scene-Adaptive Loss) , 在两个传感器之间动态转移信任度。

他们根据图像的 纹理信噪比 (SNR) , 使用 sigmoid 函数为图像的每个补丁 (patch) 计算一个“有用性”权重 \(w_p\):

公式 13

组合损失: 最终的目标函数结合了 RGB 和 LiDAR 误差,并由这个有用性分数加权。

对于 RGB,如果权重 \(w_p\) 很高 (纹理/光线好) ,则该损失的占比更大:

公式 14

对于 LiDAR,权重是反转的 \((1 - w_p)\)。如果图像黑暗或无纹理 (低 \(w_p\)) ,系统会忽略 RGB 误差,并严格尝试匹配 LiDAR 直方图 (KL 散度) :

公式 15

总损失针对颜色、LiDAR 一致性和几何正则性进行优化:

公式 16

实验与结果

研究人员将他们的方法与几个基线进行了测试,包括仅 RGB 的方法和使用稀疏 LiDAR 的方法。他们使用了合成数据集 (Blender) 和真实世界的捕捉数据。

合成性能

在受控模拟中,“模糊 LiDAR”方法显示出明显的优势,特别是在具有无纹理物体或地平面的场景中。

表 1: 定量结果显示提出的方法 (Ours) 误差 (MAE) 更低。

表 1 所示,提出的方法 (Ours) 在不同的纹理变化中始终实现了最低的深度平均绝对误差 (D.MAE) 。它在“有纹理物体”和“有纹理平面”类别中表现最为出色,而在这些类别中,纯 RGB 方法经常因缺乏特征而混淆。

图 5: 定性比较。注意 (c) 行和 (d) 行中更清晰的几何结构。

图 5 中,请看 (b) 行和 (c) 行。基线方法难以将物体与地板分离,或者生成锯齿状、嘈杂的表面。漫射 LiDAR 方法生成了平滑、准确的网格,即使物体没有特征。

真实世界的鲁棒性

团队使用商用 SPAD (单光子雪崩二极管) 传感器和 RealSense 相机构建了一个真实原型。他们在黑色皮靴和橄榄球等具有挑战性的物体上对其进行了测试。

图 7: 真实世界捕捉。该方法比稀疏 LiDAR 更好地恢复了深色靴子和橄榄球的形状。

图 7 可视化了这些结果。“稀疏 LiDAR + RGB”方法 (第 3 列) 通常无法定义物体与地板之间的边界,尤其是橄榄球和靴子。“Ours”一列 (紫色) 显示了清晰得多的物体几何定义。

在极低光照模拟中,自适应损失函数证明了其价值。随着光照噪声的增加 (模拟漆黑环境) ,系统自动将其依赖转移到 LiDAR 信号上,在仅 RGB 方法完全失效很久之后,仍能保持准确的深度估计。

结论

这项研究凸显了传感领域一个迷人的悖论: 有时,“更差”的数据 (模糊、低分辨率) 实际上更好,前提是它提供了完整的覆盖范围,并且你有正确的算法来解读它。

通过融合相机的高分辨率空间数据和漫射 LiDAR 的高覆盖率深度数据,该方法弥合了轻量级移动扫描与高保真工业重建之间的差距。它为能在黑暗中看东西的机器人和能在空白墙壁上工作的 AR 设备打开了大门。

“模糊 LiDAR”方法表明,3D 扫描的未来可能不仅仅在于更清晰的传感器,而在于更智能的互补信号融合。