想象一下,试图仅凭两张照片就重建整个 3D 房间。在计算机视觉领域,这种“稀疏视图重建”是虚拟现实 (VR) 和增强现实 (AR) 的圣杯。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 彻底改变了这一领域,提供了旧方法 (如 NeRF) 难以企及的实时渲染速度。

然而,这其中有个陷阱。大多数此类突破都依赖于“透视”图像——即视野有限的标准照片。但是,如果你想快速捕捉整个房间,你不会拍五十张窄视角的照片;你会拍一两张全向 (360°) 图像。

问题就出在这里: 标准 AI 模型非常讨厌 360° 图像。其畸变,尤其是极点处的畸变 (就像在平面地图上看南极洲一样) ,破坏了这些模型所依赖的几何假设。

OmniSplat 应运而生,这是一个成功驾驭全向图像进行 3D 高斯泼溅的新框架。通过重新思考我们如何表示球形数据,OmniSplat 允许仅通过稀疏的 360° 输入,在单次前向传递中生成高保真的 3D 场景——无需漫长的优化过程。

PSNR-运行时间权衡图表显示 OmniSplat 以低运行时间实现了高质量。

如上图所示,与现有方法相比,OmniSplat (红色菱形) 在重建质量 (PSNR) 和速度之间实现了更优的平衡,这使其成为沉浸式内容创作领域潜在的游戏规则改变者。

AI 处理 360° 图像的难题

要理解为什么 OmniSplat 是必要的,我们必须先看看前馈 3DGS 的局限性。

传统的 3DGS 需要针对特定场景进行数分钟或数小时的训练 (“基于优化的”) 。然而,前馈网络是在海量数据集上训练的,可以从新图像中即时“猜测”出 3D 结构 (“可泛化的”) 。像 PixelSplatMVSplat 这样的模型在处理标准照片时表现出色。

但是,当你将一张全向图像 (通常是等距柱状投影 或 ERP) 输入这些网络时,它们就会失效。在 ERP 中,图像的顶部和底部被无限拉伸。标准的卷积神经网络 (CNN) 会在图像上滑动一个固定大小的窗口。在赤道处,这个窗口看到的是正常的物体;而在极点处,它看到的是拉伸、扭曲的一团糟。网络会误解上下文,导致最终渲染中出现扭曲的 3D 高斯体和伪影。

OmniSplat 的解决方案: 阴阳网格 (Yin-Yang Grid)

OmniSplat 背后的研究人员并没有试图强行将方钉塞进圆孔里。相反,他们改变了“孔”的形状。他们采用了一种被称为阴阳网格 (Yin-Yang grid) 的球坐标系。

想象一个网球。它由两片相同的、互锁的毛毡片覆盖。阴阳网格的工作原理类似,它将球体分为两个重叠的网格: 阴 (Yin) (北) 网格和阳 (Yang) (东) 网格。

OmniSplat 的整体流程,展示了分解为阴阳网格和跨视图注意力的过程。

如上图所示,该架构遵循一个清晰的流程:

  1. 分解 (Decomposition): 输入的全向图像被拆分为阴和阳两个网格。
  2. 特征提取 (Feature Extraction): 一个预训练的编码器处理这些网格。
  3. 跨视图注意力 (Cross-View Attention): 特征被变换并匹配以估计深度。
  4. 光栅化 (Rasterization): 场景被渲染回阴阳网格,并拼接成最终的 360° 视图。

为什么要用阴阳网格?

阴网格的数学定义覆盖了特定的仰角 (\(\theta\)) 和方位角 (\(\phi\)) 范围:

定义阴网格边界的方程。

阳网格覆盖了球体的其余部分,本质上就是旋转了 90 度的阴网格。变换矩阵 \(M\) 用于在两者之间转换坐标:

将阴坐标转换为阳坐标的变换矩阵 M。

这种方法的天才之处在于“准均匀性 (Quasi-Uniformness)”。 与等距柱状投影不同 (在 ERP 中,靠近极点的像素代表的空间比赤道处的像素小得多) ,阴阳网格保持了相当一致的像素密度。这意味着,无论物体出现在网格的哪个位置,CNN 看到的形状都大致相同。因此,OmniSplat 可以利用强大的、预训练的特征提取器 (最初是在透视图像上训练的) ,而不会让它们被球面畸变搞糊涂。

构建场景: 跨视图注意力

一旦图像被分解为阴和阳网格,模型就需要理解 3D 几何结构。它通过比较两个不同的参考视图 (例如,相隔几步拍摄的两张 360° 照片) 来实现这一点。

OmniSplat 使用跨视图注意力 (Cross-View Attention) 。 它获取一个视图 (源) 的特征,并根据假设的深度层级将其“变换 (warp)”到另一个视图 (目标) 的视角。在计算机视觉中,这通常被称为“平面扫描 (plane sweeping)”。

然而,简单的变换是不够的,因为在摄像机 A 的阴网格中可见的点,可能出现在摄像机 B 的阳网格中。系统必须在两个网格之间变换特征。

在视图和网格之间变换特征的方程。

在上面的方程中,\(\mathcal{W}\) 代表使用摄像机位姿 \(\mathbf{P}\) 的变换函数。模型计算一个掩码 \(\mathbf{M}\) 来处理有效的重叠区域。然后,来自阴和阳网格的特征根据这些掩码进行组合,以确保在视图转换过程中没有信息丢失:

组合来自阴和阳网格的变换特征的方程。

一旦特征对齐,模型就会计算视图之间的相关性 (相似度) 。在特定深度假设下的高相关性表明该距离处确实存在表面。

计算相关性代价体的方程。

这个“代价体 (Cost Volume)” \(\mathbf{C}\) 是预测 3D 高斯体参数的基础: 包括它们的位置、不透明度、颜色 (球谐函数) 和协方差 (形状) 。

阴阳光栅化器 (The Yin-Yang Rasterizer)

预测高斯体只是成功了一半。你还需要将它们渲染成图像。标准的全向光栅化器将 3D 高斯体直接投影到球体上。然而,由于球体上的采样密度变化极大 (极点密集,赤道稀疏) ,在使用前馈预测时,直接渲染通常会导致条纹状伪影或孔洞。

OmniSplat 引入了阴阳光栅化 (Yin-Yang Rasterization) 。 它不是一次性渲染完整的 360° 图像,而是渲染两张类似透视的图像: 一张用于阴网格,一张用于阳网格。

阴阳光栅化和归一化的方程。

这里,\(\hat{V}\) 是颜色图,\(\hat{A}\) 是 Alpha (不透明度) 图。通过将颜色除以 Alpha 累积值,系统对像素值进行了归一化,消除了由不均匀高斯密度引起的伪影。最后,这两个渲染好的网格在像素空间中拼接在一起,形成最终的高质量全向图像。

实验结果

这种复杂的坐标变换真的值得吗?结果表明答案是肯定的。

研究人员将 OmniSplat 与以下方法进行了比较:

  1. ODGS: 一种基于优化的方法 (速度慢,需逐个场景训练) 。
  2. PixelSplat/MVSplat (Perspective): 运行在立方体贴图投影上的现有模型。
  3. PixelSplat/MVSplat (Omnidirectional): 修改为直接在 360° 图像上运行的现有模型。

定量分析

比较多个数据集定量结果的表格。

在上表中,请查看 OmniSplatOmniSplat+opt 行。

  • 速度: OmniSplat 生成一个场景仅需 0.532 秒 。 基于优化的 ODGS 需要 1920 秒 (32 分钟) 。
  • 质量: OmniSplat 在峰值信噪比 (PSNR) 和结构相似性 (SSIM) 得分上始终高于先前模型的透视或全向改进版。

“OmniSplat+opt”变体涉及获取前馈预测结果并对其进行少量优化 (仅 100 次迭代) 。这产生了最先进的 (SOTA) 性能,同时仍然比全优化方法快得多。

视觉对比

数据看起来不错,但视觉检查揭示了真正的差异。

OmniSplat 与其他方法的定性比较。

在图 3 (上图) 中,仔细观察放大图:

  • ODGS (b) 经常产生模糊的纹理。
  • PixelSplat (c) 显示出伪影和几何不一致。
  • MVSplat (d) 由于前面提到的采样问题,遭受严重的变暗和条纹伪影。
  • OmniSplat (e) 生成了清晰、干净的几何结构,与真值 (Ground Truth, a) 非常接近。

阴阳网格的重要性

阴阳网格真的在发挥主要作用吗?研究人员进行了消融实验来找出答案。

展示阴阳分解对性能影响的表格。

表 2 清楚地显示,在编码器 (注意力) 和光栅化器中同时使用阴阳网格能产生最佳结果 (最后一行) 。混合搭配 (例如,使用标准全向编码器配合阴阳光栅化器) 会导致质量显著下降,证明该坐标系的整体使用是关键。

超越重建: 分割与编辑

OmniSplat 最令人兴奋的含义之一是其语义能力。由于模型通过注意力图理解不同视图中像素之间的对应关系,它可以跨 3D 场景传播分割标签。

源视图和目标视图之间片段匹配的可视化。

如果用户在一个视图中选择了一个物体 (如上图中星星标记所示) ,OmniSplat 可以在新视图中自动识别同一个物体。这与标准的 2D 跟踪不同,因为它依赖于重建的 3D 几何结构。

分割匹配准确性的比较。

如表 3 所示,OmniSplat 实现了与专用视频分割跟踪器 (如 DEVA) 相当或更好的匹配精度,但它是作为重建过程的副产品实现的。

这使得 3D 编辑 成为可能。你可以选择 3D 场景中的一把椅子并将其删除。因为 OmniSplat 生成的是像素对齐的高斯体,所以移除非常干净。

高斯移除/编辑的示例。

在图 C 中,比较移除质量。基于优化的高斯体 (a) 经常留下“针状”伪影,因为高斯体以复杂的方式拉伸和重叠。OmniSplat 的像素对齐高斯体 (b) 产生了干净的切割,使得编辑场景或修复空白空间变得容易得多。

结论

OmniSplat 代表了 3D 计算机视觉向前迈出的重要一步。它解决了全向图像固有的困难——畸变和非均匀性——不是通过从头开始训练庞大的新模型,而是通过巧妙地将数据重新映射到 阴阳网格 中。

这种方法使我们能够利用现有前馈网络的力量,从而产生一个具有以下特点的系统:

  1. 快速: 在亚秒级时间内生成场景。
  2. 准确: 性能优于基于优化的方法和改进的透视方法。
  3. 可编辑: 为 3D 场景操作提供稳健的分割功能。

对于 VR/AR 领域的学生和研究人员来说,OmniSplat 证明了有时解决方案不是更大的神经网络,而是对数据进行更好的几何表示。