当我们观察世界时,我们看到的不仅仅是像素,而是结构。我们本能地认出脚下的地板、周围的墙壁以及行驶的道路。在计算机视觉领域,这些结构被称为 3D 平面 (3D planes) 。 从单张 2D 图像中恢复这些平面是增强现实 (AR) 、机器人导航和 3D 地图构建的一项基石能力。
然而,该领域一直存在严重的碎片化问题。当前最先进的 (SOTA) 方法通常是“专才”——它们要么在室内数据集上训练以重建房间,要么在室外数据集上训练以重建街道。如果你拿一个在舒适客厅场景下训练的模型,让它去理解城市街道,它通常会失败。这种泛化能力的缺失被称为“域差异 (domain gap) ”。
在这篇文章中,我们将深入探讨 Liu, Yu 等人提出的一种新颖框架 ZeroPlane , 旨在解决这一问题。ZeroPlane 专为 零样本 (zero-shot) 3D 平面重建 而设计,这意味着它可以准确地重建在训练期间从未见过的环境中的平面,仅凭单个统一的模型即可处理室内和“野外 (in-the-wild) ”的室外场景。

如 图 1 所示,ZeroPlane 有效地重建了截然不同的数据集的 3D 几何结构,从杂乱的 ARKitScenes 客厅到 NuScenes 广阔的道路。
挑战: 为何“野外”场景如此困难?
要理解 ZeroPlane 的重要性,我们首先需要了解以往方法的局限性。
- 数据匮乏: 虽然存在不错的室内场景数据集 (如 ScanNet) ,但针对室外环境的大规模、密集标注的平面数据集却明显缺乏。
- 几何尺度: 房间的几何结构与街道有着根本的不同。在房间里,一个平面可能在 2 米之外。而在街道上,路面可能延伸 50 米。
- 参数耦合: 大多数模型使用结合了方向 (法向量) 和距离 (偏移量) 的耦合向量来表示平面。这种耦合使得神经网络很难学习到一种既适用于小尺度室内环境又适用于大尺度室外环境的统一表示。
夯实基础: 大规模混合域基准
在构建模型之前,研究人员必须先构建数据。一个稳健的“通才”模型需要一个包含真实世界多样性的训练集。
作者整理了一个包含超过 14 个数据集 和 560,000 张高分辨率图像 的庞大基准。由于 3D 平面的手工标注极其昂贵,他们开发了一套自动化流程。他们利用最先进的全景分割模型 (Mask2Former) 来识别物体实例 (如“道路”、“墙壁”或“桌子”) ,然后应用 RANSAC (一种拟合算法) 在深度图上对这些物体进行数学层面的平面拟合。

表 1 展示了这项工作的庞大规模。通过结合 ScanNet 和 Matterport3D 等室内巨头与 Synthia 和 Virtual KITTI 等室外合成数据集,他们创建了一个足够多样化的“游乐场”来训练稳健的模型。
![图 4. 从上到下: 我们在 HM3D [67]、7-Scenes [54]、Taskonomy [76]、ParallelDomain [25, 46]、ApolloScape [29]、Synthia [49] 和 Sanpo [62] 数据集上生成的平面真值标注。](/en/paper/2506.02493/images/013.jpg#center)
图 4 可视化了这些生成的真值 (ground truths) 的质量。请注意,该流程在复杂的室外环境 (下排) 中分割和重建平面的效果与在室内场景 (上排) 中一样出色。
ZeroPlane 架构
从核心上看,ZeroPlane 是一个 基于 Transformer 的框架。如果你熟悉 DETR (检测 Transformer) 或 Mask2Former,你会觉得整体流程很熟悉: 输入图像,提取特征,然后一组“查询向量 (queries) ” (可学习的向量) 在这些特征中搜索物体——在这里,即平面。
然而,标准的检测 Transformer 不足以实现高保真的 3D 几何结构。ZeroPlane 引入了几项关键创新。

1. 先进的骨干网络和像素解码器
作者没有使用标准的 ResNet 或 Swin Transformer,而是采用了 DINOv2 , 这是一个通过自监督在数百万张图像上训练的强大视觉 Transformer。这提供了比标准监督骨干网络更能处理多样化光照和纹理的稳健特征表示。随后,像素解码器 (DPT) 处理这些特征以创建高分辨率的特征图。
2. 像素几何增强的平面嵌入
这是一个巧妙的“辅助任务”策略。模型不仅仅是立即寻找平面。首先,它尝试预测整张图像的 像素级深度 和 表面法向量 。
为什么要这样做?因为像素级预测富含局部几何线索 (如边缘和角落) 。该架构将这些深度和法向量图投影为嵌入 (\(F_D\) 和 \(F_N\)) ,并使用注意力机制将它们与平面查询向量 (\(Q\)) 融合:
\[ { \bf X _ { D } } = A t t n ( { \bf Q } , { \bf F _ { D } } ) , \quad { \bf X _ { N } } = A t t n ( { \bf Q } , { \bf F _ { N } } ) \]通过关注这些像素级的几何特征,平面查询向量在尝试预测最终的 3D 平面之前就已经变得“具备几何感知能力”了。
核心创新: 解耦的几何学习
ZeroPlane 最重要的贡献在于它处理 3D 平面数学问题的方式。
通常,一个平面由方程 \(n^T x = d\) 定义,其中 \(n\) 是法向量 (方向) ,\(d\) 是偏移量 (到原点的距离) 。以前的方法 (如 PlaneRecTR) 通常预测一个耦合向量 \(n/d\)。
问题在于: 在室内场景中,\(d\) 很小 (例如 2.5米) 。在室外场景中,\(d\) 很大 (例如 50米) 。当你混合这些数据集时,\(n/d\) 的分布变得混乱,使得神经网络很难直接回归。
解决方案: ZeroPlane 对预测进行了 解耦 (disentangles) 。 它使用单独的头来分别预测法向量 (\(n\)) 和偏移量 (\(d\)) 。
分类后回归 (Cls-Reg)
即使将它们分开,由于方差的存在,直接回归精确值仍然很困难。作者采用了一种“分类后回归”的范式。
他们对训练集中的所有平面进行聚类,以找到常见的“典型样本 (Exemplars) ” (原型法向量和偏移量) 。
- 分类: 网络预测该平面属于哪个“典型样本” (聚类中心) 。
- 回归: 网络预测一个微小的“残差 (Residual) ” (修正值) ,将典型样本调整为精确值。
最终的预测是所选典型样本与预测残差之和:
\[ \mathbf { n } = \hat { \mathbf { n } } ^ { ( i ) } + \mathbf { r _ { n } } ^ { ( i ) } , \quad d = \hat { d } ^ { ( j ) } + r _ { d } ^ { ( j ) } \]这里,\(\hat{n}\) 和 \(\hat{d}\) 是预测的典型样本 (类别) ,而 \(r_n\) 和 \(r_d\) 是学习到的残差。这使得学习过程在不同的域之间更加稳定。
训练模型
该模型使用二分匹配损失 (类似于 DETR) 进行端到端训练,确保预测的平面与真值平面一一对应。总损失函数是分类、掩码分割以及法向量和偏移量特定几何损失的加权和:
\[ \begin{array} { r } { L = \lambda _ { c } L _ { c } + \lambda _ { m } L _ { m } + \lambda _ { n _ { c } } L _ { n _ { c } } + \lambda _ { n _ { r } } L _ { n _ { r } } } \\ { + \lambda _ { d _ { c } } L _ { d _ { c } } + \lambda _ { d _ { r } } L _ { d _ { r } } + \lambda _ { p _ { d } } L _ { p _ { d } } + \lambda _ { p _ { n } } L _ { p _ { n } } , } \end{array} \]这种综合损失确保模型同时针对语义正确性 (它是平面吗?) 、分割准确性 (平面在哪里?) 和几何精度 (它的 3D 位置是什么?) 进行优化。
实验结果
研究人员通过严格的 零样本评估 对 ZeroPlane 进行了测试。这意味着他们在混合数据集上训练模型,但在模型从未见过的完全不同的数据集上进行测试 (具体来说,室内使用 NYUv2 和 7-Scenes,室外使用 ParallelDomain 和 ApolloScape) 。
定量性能
下方的 表 2 将 ZeroPlane 与之前的 SOTA 方法 PlaneRecTR 进行了比较。
![表 2. 不同方法或设置在室内数据集 (NYUv2 [55], 7-Scenes [54]) 和室外数据集 (ParallelDomain [25, 46], ApolloScape [29]) 上的零样本评估结果。 (S: 在 ScanNetv1 [16] 上训练;S-v2: 在 ScanNetv2 上训练,其训练集远大于 ScanNetv1;M: 在混合数据集上训练。)](/en/paper/2506.02493/images/007.jpg#center)
结果令人瞩目。请看 平面召回率 (Plane Recall) 指标 (越高越好) 。ZeroPlane (特别是 Ours-DINO-B (M) 变体) 在各项指标上都显著优于 PlaneRecTR (M)。
- 在 ParallelDomain (室外) 上,1米处的深度召回率从 19.11 (PlaneRecTR) 跃升至 25.96 (ZeroPlane)。
- 在 NYUv2 (室内) 上,5° 处的法向量召回率从 24.97 提高到 37.29 。
这证明了架构上的改变和解耦学习策略使得该模型的泛化能力远超以往的尝试。
定性性能
理想情况下,我们希望看到代表场景结构的干净、平整的网格。 图 3 提供了视觉对比。

在下排 (室外场景) 中,请看网格 (Mesh) 一栏。“PlaneRecTR”的结果经常无法正确捕捉路面,或者遗漏建筑物立面。 ZeroPlane (Ours-Mesh) 则生成了更干净、连续的路面以及轮廓分明的建筑物垂直平面。
为什么它有效? (消融实验)
复杂的架构是必须的吗?作者在 表 3 中分解了他们的贡献。

- Cls-Reg: 切换到“分类后回归”策略带来了召回率的大幅提升 (对比第 5 行和第 7 行) 。
- Geo-Attn: 添加几何增强注意力 (最后一行) 提供了最终的性能提升,证实了像素级线索对于高层平面推理至关重要。
结论
ZeroPlane 代表了 3D 计算机视觉向前迈出的重要一步。通过认识到室内和室外环境之间巨大的几何差异,并设计一种“解耦”架构来处理它们,作者创建了一个能在“野外”工作的统一模型。
给学生和开发者的关键要点:
- 数据为王: 创建一个统一的、包含 56 万张图像的基准是成功的先决条件。
- 解耦很重要: 当问题中的变量具有不同的尺度时 (如室内与室外的距离) ,将它们分开通常比试图学习一个耦合的表示要好。
- 混合方法: 结合分类 (用于粗略估计) 和回归 (用于微调) 是几何预测的有力工具。
随着机器人技术和 AR 继续融入我们的日常生活,像 ZeroPlane 这样的系统对于帮助机器理解周围世界的几何结构至关重要,无论是一个小卧室还是繁忙的城市路口。
](https://deep-paper.org/en/paper/2506.02493/images/cover.png)