引言
想象你是一个受命在拥挤的大学校园中导航的移动机器人。为了安全移动,你需要确切知道每个物体有多远——不仅仅是正前方的物体,还有从侧面靠近的行人、身后的柱子以及环绕你的墙壁。你需要 360 度的空间感知能力。
从历史上看,这种全方位感知的黄金标准一直是 LiDAR (激光雷达) 。LiDAR 精度高且天然覆盖 360 度。然而,它价格昂贵、体积笨重,且生成的点云在远距离处会变得稀疏。因此,研究人员将目光转向了 立体视觉 (stereo vision) : 像人类眼睛一样,利用同步的相机来估计深度。
但问题在于: 标准的立体视觉数据集非常有限。它们通常只有狭窄的视场角 (比如汽车挡风玻璃的视角) ,或者依赖合成的计算机生成环境,这些环境无法捕捉真实世界的混乱光照和噪声。
本文将探讨论文 “HELVIPAD: A Real-World Dataset for Omnidirectional Stereo Depth Estimation” 中展示的机器人感知领域的一项重大进展。研究人员推出了一个全面的真实世界数据集,以及一种旨在解决 360° 图像独特几何问题的新型深度学习架构。

如图 1 所示,该数据集捕捉了复杂的环境——从阳光充足的广场到昏暗的走廊——为训练下一代机器人提供了所需的丰富数据。
背景: 360° 立体视觉的挑战
为什么要全方位?
传统相机的视场角 (FoV) 有限。要让机器人看清周围的一切,你需要多个相机和复杂的拼接算法。而全方位 (或 360°) 相机通常使用鱼眼镜头,可以在单次拍摄中捕捉整个球形环境。当投影到 2D 平面上时,这通常表示为 等距柱状投影图像 (equirectangular image) ——想象一下一张世界地图,北极和南极被拉伸并在顶部和底部展开。
现有数据的问题
深度学习模型依赖于数据。对于立体深度估计,模型需要成对的图像和对应的“真值 (ground truth) ”深度图来进行学习。虽然像 KITTI 这样的数据集彻底改变了自动驾驶领域,但它们只看前方。360° 视觉的合成数据集虽然存在,但它们缺乏真实世界中的伪影、光晕和传感器噪声。

如表 1 所示,HELVIPAD 填补了一个关键空白。它是第一个针对全方位图像的真实世界立体数据集,包含了在不同室内和室外环境 (包括具有挑战性的夜景) 下的像素级深度标签。
HELVIPAD 数据集
这项研究的核心贡献是数据集本身。创建一个高质量的 360° 立体数据集是一项工程壮举,涉及硬件设计、传感器同步和复杂的几何映射。
1. 硬件设置
为了捕捉 3D 世界,研究人员构建了一个定制装置。该设置使用了 上下 (top-bottom) 相机配置,而不是传统的左右配置。

如图 8 所示,该装置包括:
- 两台 Ricoh Theta V 相机: 垂直安装,基线 (间距) 为 19.1 厘米。对于 360° 机器人来说,垂直安装是首选,因为它可以防止一个相机遮挡另一个相机对周围环境的视野。
- Ouster OS1-64 LiDAR: 安装在相机下方,用于捕获精确的深度测量值。
- Nvidia Jetson Xavier: 处理同步和数据捕获的大脑。
2. 将 LiDAR 映射到 360° 图像
原始数据由 360° 图像和 3D LiDAR 点云组成。挑战在于用 LiDAR 的深度值来“着色”图像的像素。
由于图像是等距柱状投影 (球面投影) ,标准的针孔相机几何不再适用。研究人员必须将 3D 点映射到球面上。

图 2 说明了这种几何关系。世界上的一个点 \(P\) 同时被顶部和底部相机看到。“视差” (该点在两个视图中位置的偏移) 使我们能够计算深度。然而,在这个球面设置中,我们计算的是 球面视差 (spherical disparity) ——即指向物体的光线之间的角度差。
这种角视差 (\(d\)) 与深度 (\(r\)) 之间的关系由以下方程控制:

这里,\(\theta_b\) 是极角 (垂直角度) ,\(r_{bottom}\) 是深度,\(B_{camera}\) 是相机之间的基线距离。请注意视差如何取决于视角的余弦值——这引入了 360° 成像特有的、标准立体视觉中不存在的畸变。
3. 验证投影
确保 LiDAR 点准确落在正确的像素上至关重要。如果对齐偏差,神经网络就会学习到错误的关联。研究人员通过手动选择图像中的点 (如建筑物角落) 并将其与投影的 LiDAR 点进行比较来验证其标定结果。

图 12 展示了这一验证过程。红点 (投影的 LiDAR) 与绿点 (实际图像特征) 进行比较,显示在高分辨率图像上的平均误差仅为约 8 个像素,证实了装置的精度。
4. 深度补全: 数据致密化
LiDAR 虽然精确,但是稀疏的。它产生的是点“云”,这意味着相机图像中的大多数像素没有对应的深度值。如果我们仅在这些稀疏点上进行训练,模型将难以学习物体边界。
为了解决这个问题,研究人员开发了一个 深度补全流程 (Depth Completion Pipeline) 。
- 时序聚合 (Temporal Aggregation) : 由于 LiDAR 以 10Hz 旋转,他们结合前后帧的点云来填补空隙 (假设机器人移动缓慢) 。
- 插值 (Interpolation) : 他们通过查看球面网格上的最近邻居来估计缺失像素的深度。
- 滤波 (Filtering) : 为了避免深度在边缘处“溢出” (例如,将树木模糊到其背后的天空中) ,他们过滤掉了不确定性高或方差大的点。

结果如图 17 所示,效果显著。中间面板显示了原始 LiDAR 数据——大部分是空白空间。左侧面板显示了补全后的深度图,为训练提供了密集、丰富的信号,同时保留了 RGB 图像 (右侧面板) 中可见的物体边界。
调整立体匹配以适应 360° 成像
标准的立体匹配算法 (如流行的 IGEV-Stereo )是为直线 (平面) 图像设计的。如果你将等距柱状投影图像输入给它们,它们会失效,因为它们没有考虑到极点附近 (图像顶部和底部) 的严重畸变,也没有考虑到图像左边缘实际上是绕回到右边缘的。
研究人员提出了 360-IGEV-Stereo , 这是针对该数据集对最先进的 IGEV 模型进行的改进。

关键改进 1: 极角输入
在标准图像中,像素就是像素。在等距柱状投影图像中,顶部的像素代表的物理区域比赤道处的像素小得多。畸变是 极角 (polar angle) (垂直位置) 的函数。
为了帮助网络理解这种几何结构,研究人员将 极角图 (Polar Angle Map) 作为一个额外的输入通道 (如图 4 中的蓝/绿色部分所示) 。这种显式的几何提示允许网络根据该垂直水平上的图像“拉伸”程度来调整其匹配滤波器。
关键改进 2: 循环填充
卷积神经网络 (CNN) 以块的方式处理图像。当滤波器碰到标准图像的右边缘时,通常会用零 (黑色像素) 填充该区域。
然而,在 360° 图像中,“右边缘”实际上连接着“左边缘”。研究人员实施了 循环填充 (Circular Padding) 。 当网络处理右边缘时,它会“看到”左边缘的像素,反之亦然。这确保了整个 360° 视图的连续深度估计,消除了接缝。
实验与结果
研究人员将他们的新模型与标准基线模型 (如 PSMNet 和原始 IGEV) 以及现有的全方位模型 (360SD-Net) 进行了基准测试。
定量性能
结果证实,标准模型难以处理 360° 数据,而所提出的改进非常有效。

在表 2 中, 360-IGEV-Stereo 在几乎所有指标上都实现了最低的误差率。
- MAE (平均绝对误差) : 衡量视差的平均误差。所提出的模型将其从 0.225 (IGEV-Stereo) 降至 0.188。
- LRCE (左右一致性误差) : 这个指标对 360° 图像至关重要。它衡量左边缘的预测与右边缘的差异程度。得益于循环填充,360-IGEV-Stereo 大幅降低了该误差 (从 1.203 降至 0.388) ,证明模型理解了场景的连续性。
定性分析
数字是一回事,但可视化的视差图能说明真实情况。

图 7 比较了输出结果。仔细观察最右列 (夜景) 。标准的 IGEV-Stereo (倒数第二行) 完全漏掉了行人或将其模糊处理。 360-IGEV-Stereo (最后一行) 则以更清晰的轮廓捕捉到了行人。同样,在室内场景 (左列) 中,360 模型处理柱子和墙壁时梯度更平滑,伪影更少。
跨场景泛化能力
机器人技术中最困难的挑战之一是泛化——在走廊里训练机器人,并期望它能在夜间的停车场工作。

图 6 显示了按场景类型的性能细分。
- 蓝色柱: 仅在室内训练。
- 橙色柱: 仅在室外训练。
- 绿色柱: 在所有数据上训练。
不出所料,在“所有”数据上训练的模型表现最好。然而,一个有趣的发现是,全方位模型 (如 360SD-Net 和 360-IGEV-Stereo) 比标准模型具有更好的泛化能力。360° 视觉固有的全局上下文似乎有助于模型学习更鲁棒的特征,从而在室内和室外环境之间迁移。
结论
HELVIPAD 数据集代表了机器人和计算机视觉社区的一项基础资源。通过提供高质量、密集的真实世界数据,它使得训练能够在动态人类环境中实际运作的模型成为可能。
此外, 360-IGEV-Stereo 架构表明,我们不需要为 360° 视觉重新发明轮子。通过进行有针对性的几何调整——特别是 极角输入 和 循环填充——我们可以利用强大的现代立体匹配网络来处理全方位图像独特的畸变。
随着移动机器人 (从配送机器人到自动轮椅) 在我们的日常生活中变得越来越普遍,像这样的技术将成为确保它们安全、智能导航的“眼睛”。
](https://deep-paper.org/en/paper/2411.18335/images/cover.png)