简介
计算机视觉领域中最引人入胜的挑战之一就是 3D 生成的“圣杯”: 拍摄一张单一的、平面的物体照片,然后瞬间重建出一个高保真、从各个角度看都很完美的 3D 模型。想象一下,拍一张桌子上玩具的照片,然后立即将其导入视频游戏或 VR 环境中。
虽然生成式 AI 在 2D 图像创作方面取得了巨大进步,但将这种能力提升到 3D 却要困难得多。核心问题在于几何歧义性 (geometric ambiguity) 。 一张图片只能告诉你物体从某个特定角度看起来是什么样子,但它的背面、侧面和内部几何结构完全需要靠推断。
最近的方法尝试使用多视图扩散 (Multi-View Diffusion, MVD) 模型来弥补这一差距——这是一种被训练用来“构想”物体缺失视图的 AI。然而,这些构想往往是不一致的;侧视图可能无法与前视图完美匹配,导致生成的 3D 模型模糊、变形或充满伪影。
GS-RGBN 应运而生,这是由浙江大学、伦敦大学学院 (UCL) 和犹他大学的研究人员提出的一种新架构。他们的方法引入了一种新颖的 RGBN 体积 (红-绿-蓝 + 法线) 策略,并结合了高斯泼溅 (Gaussian Splatting) 技术。通过在结构上融合颜色数据与几何表面法线数据,他们实现了重建质量的飞跃。

如上图所示,GS-RGBN 可以接收单张输入图像 (左) ,并生成高质量的 3D 表示 (中和右) ,捕捉独特的几何形状——例如老鼠角色的细球拍或汉堡的层级——而没有以前方法中常见的典型伪影。
在这篇文章中,我们将拆解 GS-RGBN 论文,探讨它如何使用混合体素-高斯架构和巧妙的跨体积融合机制来解决 3D 生成中的不一致问题。
背景: 3D 生成的现状
要理解 GS-RGBN 的重要性,我们需要将其置于当前的 3D 生成背景下。
优化的局限性
早期的 3D 深度学习方法 (如 DreamFusion) 使用一种称为分数蒸馏采样 (Score Distillation Sampling, SDS) 的技术。这些方法本质上是通过不断将 2D 渲染图与文本到图像模型进行比对来“雕刻”3D 模型 (如 NeRF) 。虽然具有革命性,但这个过程是基于优化的。单个物体需要数千次迭代,导致速度缓慢 (需要数分钟或数小时) 且计算成本高昂。
前馈模型的兴起
为了加快速度,该领域转向了前馈模型 (feed-forward models) 。 这些模型不再是花费数小时优化单个物体,而是训练庞大的神经网络,在单次传递中预测 3D 结构——只需几秒钟。
像 LRM (大型重建模型) 这样的模型充当了 3D 领域的“大型 Transformer”。它们观察输入图像并直接输出 3D 表示。最近, 3D 高斯泼溅 (3DGS) 已成为这些模型的首选表示形式,因为它渲染速度极快,并且比 NeRF 更能处理高频细节。
缺失的一环: 结构与几何
然而,当前的前馈高斯模型面临两大障碍:
- 非结构化表示: 3D 高斯本质上是带有属性的点云。如果没有刚性结构,神经网络很难从单张图像准确预测它们的位置,通常会导致“漂浮物”或形状扭曲。
- 先验不一致: 大多数方法纯粹依赖扩散模型生成的 RGB 图像。如果扩散模型生成的侧视图与前视图不一致 (例如颜色略有变化) ,3D 重建算法就会感到困惑,从而导致模糊。
GS-RGBN 通过引入体素 (Voxels) (提供结构) 和法线贴图 (Normal Maps) (提供显式几何信息) 来解决这些特定故障。
核心方法: GS-RGBN
GS-RGBN 的架构旨在强制一致性。它不仅关注物体的颜色,还关注表面几何 (法线) ,并将这两股信息流融合到一个统一的 3D 网格中。

如上面的流程图所示,该过程可以分为三个不同的阶段:
- 多视图生成与特征提升: 将单张图像转换为多视图 RGB 和法线数据。
- 跨体积融合 (CVF) : 在 3D 空间中合并语义 (RGB) 和几何 (法线) 数据。
- 2D 高斯解码: 生成最终的可渲染基元。
让我们深入了解每个阶段。
1. 混合体素-高斯表示
第一个创新是模型表示 3D 空间的方式。GS-RGBN 没有让高斯在虚空中自由漂浮 (这对网络来说很难预测) ,而是将它们锚定在体素网格 (Voxel Grid) 上。
该过程始于一个现成的多视图扩散模型,名为 Wonder3D 。 给定单张输入图像 (\(I_0\)),Wonder3D 会生成一组不同视角的图像及其对应的法线贴图 。
- RGB 图像: 提供颜色和语义纹理。
- 法线贴图: 提供关于表面朝向和形状的显式信息。
系统使用 ViT-DINO 模型处理这些图像以提取深度特征。但技巧在于: 2D 特征是不够的。模型需要理解这些特征在 3D 空间中的位置。
为此,作者利用了 Plücker 射线嵌入 。 这是一种表示相对于相机位置的相机射线的数学方法。通过将图像特征与射线信息结合,2D 图像的特征被“提升”到 3D 空间中。
图像特征 \(c_i\) 与射线几何的融合公式如下:

这里,特征与相机原点 (\(o_i\)) 和方向 (\(d_i\)) 的叉积一起被归一化。这些提升后的特征随后被平均到两个不同的 3D 体积中:
- \(V_{rgb}\) : RGB 特征体积。
- \(V_{nor}\) : 法线特征体积。
这种基于体素的方法解决了“非结构化”问题。通过将信息锁定在网格中,网络可以使用 3D 卷积 (深度学习中的标准工具) 来理解物体相邻部分之间的关系。
2. 跨体积融合 (CVF)
现在系统有了两个 3D 体积: 一个携带语义颜色信息 (\(V_{rgb}\)),一个携带几何形状信息 (\(V_{nor}\))。简单地平均它们效果并不好,因为它们包含根本不同类型的数据。
作者提出了一个跨体积融合 (CVF) 模块。这是架构的核心引擎,旨在对齐语义和几何线索。

CVF 模块使用一种称为交叉注意力 (Cross-Attention) 的机制。在神经网络中,注意力机制允许一股数据流“查询”另一股数据流以查找相关信息。
在这个具体设计中:
- RGB 引导融合: 语义体积 (\(V_{rgb}\)) 充当“查询 (Query) ”,在几何体积 (\(V_{nor}\)) 中搜索结构。这有助于模型理解颜色边界应在何处与物理边缘对齐。
- 法线引导融合: 几何体积充当“查询”,在 RGB 体积中搜索一致性。这确保了形状能解释纹理。
RGB 引导分支的数学公式如下:

法线引导分支如下:

这里,\(CA_s\) 和 \(CA_g\) 代表交叉注意力块。模型将 3D 体积展开成组以提高计算效率。
在交叉注意力交换了两股数据流的信息后,结果被拼接 (\(\oplus\)) :

最后,一个自注意力 (SA) 块处理这个组合体积,以平衡语义和几何信息的权重,生成最终的高保真体积 \(V_{rgbn}\) :

这个融合体积包含了物体的丰富且一致的表示,它是从不一致的输入视图中衍生出来的。
3. 2D 高斯生成与渲染
有了精炼的 3D 体积 \(V_{rgbn}\),最后一步就是生成实际的 3D 物体。
标准的高斯泼溅使用 3D 椭球体。然而,3D 椭球体在表示薄表面 (如一张纸或一片叶子) 时可能存在结构上的歧义。作者转而采用 2D 高斯 (通常称为“面元”或表面元素) 。2D 高斯是由中心点、两个缩放因子和旋转定义的扁平圆盘。这种表示法天生更适合建模实体物体的表面。
对于最终网格中的每个体素,解码器网络 (\(\phi_g\)) 预测该体素内高斯的属性:

网络预测:
- \(\Delta x_i\): 偏移位置 (精细化体素内的位置) 。
- \(s_i\): 缩放因子 (泼溅的宽/高) 。
- \(q_i\): 旋转 (四元数) 。
- \(\alpha_i\): 不透明度。
- \(sh_i\): 球谐函数 (颜色系数) 。
为什么这很重要
通过约束高斯存在于体素中心附近 (\(x_i = v_i + r \cdot \Delta x_i\)),模型确保了“点”不会飞走或以不自然的方式聚集。它强制实施了一种纯点云方法所缺乏的结构正则化。
4. 训练目标
网络是如何学会做这些的?它是通过结合多种损失函数进行训练的,这些函数将生成的 2D 高斯渲染图与真实图像进行比较。
总损失是三个分量的加权和:

- 颜色损失 (\(\mathcal{L}_c\)): 确保渲染图像看起来像目标照片。它结合了像素级差异 (L1 损失) 和感知差异 (LPIPS) ,后者衡量图像在人眼眼中的相似程度。

- 深度损失 (\(\mathcal{L}_d\)): 这至关重要。由于输入包含深度信息 (源自法线/几何) ,此损失强制 3D 形状必须准确,而不仅仅是颜色准确。

- 正则化损失 (\(\mathcal{L}_{reg}\)) : 这可以防止高斯过度变形或以奇怪的方式重叠,确保网格表面干净。
实验与结果
作者在庞大的 Objaverse-LVIS 数据集 (46K 个 3D 物体) 上使用高端 GPU 训练了 GS-RGBN 近一周。为了测试它,他们使用了 Google Scanned Objects (GSO) 数据集,确保模型是在它从未见过的物体上进行测试的。
新视图合成 (NVS)
成功的主要衡量标准是“新视图合成”——模型能否生成输入中没有的物体视图?

在上面的比较中,请仔细观察“LGM”和“TriplaneGaussian”列与“Ours” (我们的) 和“GT” (真实值) 的对比。
- 笔记本电脑 (第 1 行) : LGM 压扁了屏幕。GS-RGBN 保留了角度。
- 城堡 (第 2 行) : TriplaneGaussian 让城堡看起来过度厚实且呈肿块状。GS-RGBN 捕捉到了独特的塔楼。
- 机器人 (第 3 行) : 注意 GS-RGBN 结果中纹理的清晰度,相比之下 Wonder3D 则显得模糊。
这些视觉效果证实了体素-高斯结构防止了其他前馈方法中常见的失真。
定量分析
数据支持了视觉效果。下表比较了 GS-RGBN 与 DreamGaussian、LGM 和 Wonder3D 等最先进方法的性能。

表 1 的主要结论:
- PSNR (越高越好) : GS-RGBN 得分 23.02 , 显著高于第二名 (DreamGaussian 的 17.43) 。这是图像保真度的巨大飞跃。
- LPIPS (越低越好) : GS-RGBN 的得分为 0.135 , 生成的图像在感知上比竞争对手 (通常 >0.200) 更接近现实。
- 时间: 虽然生成多视图图像大约需要 4 秒 (Time(g)),但实际重建 (Time(r)) 仅需 0.20 秒 。 一旦视图生成完毕,这实际上就是实时重建。
单视图重建
该方法在保持整体 3D 形状方面也表现出色,而不仅仅是特定角度的渲染。

注意顶行的“拨浪鼓”玩具。像“One-2-3-45”和“Wonder3D”这样的方法无法闭合圆环或产生了断开的几何结构。GS-RGBN 保持了几乎与真实值 (GT) 完美匹配的水密、连贯形状。
组件的重要性 (消融实验)
论文中最具教育意义的部分之一是消融实验,研究人员禁用了系统的部分功能,看看哪里会出问题。

- w/o Normal Input (中间行,绿海龟,无输入法线) : 如果没有法线贴图,几何结构就会崩溃。海龟的壳变得凹凸不平且模糊不清。这证明了仅靠 RGB 不足以实现高保真度。
- w/o CVF (中间行,无 CVF) : 移除跨体积融合模块会导致细节丢失。融合对于将法线的锐利边缘与 RGB 的纹理对齐至关重要。
- Image-Gaussian (底行,蜘蛛侠) : 如果他们完全移除体素结构并尝试直接从图像预测高斯 (像 LGM 那样) ,人物的四肢就会变得分离和混乱。体素网格对于空间连贯性至关重要。
表 2 详细列出了这些组件的定量影响:

移除法线输入导致 PSNR 从 23.02 下降到 20.15。移除跨体积融合 (CVF) 则降至 19.27。这从经验上证明了几何与颜色的融合是模型性能的主要驱动力。
最后,作者分析了视图数量如何影响性能:

有趣的是,即使只有 4 个输入视图 , GS-RGBN 也优于以前使用更多数据训练的方法。然而,正如预期的那样,输入 8 个视图会产生最佳结果 (PSNR 23.02) 。
结论与启示
GS-RGBN 代表了单图 3D 重建领域的显著成熟。它摆脱了纯基于图像的 Transformer 的“黑盒”方法,并在深度学习流程中重新引入了显式 3D 结构 (体素) 和显式几何 (法线) 。
主要收获:
- 结构为王: 将 2D 高斯锚定到体素网格上,可以防止非结构化模型中出现的“漂浮物”和失真。
- 融合是关键: 你不能仅依赖 RGB。通过交叉注意力将 RGB 与法线贴图融合,使模型能够纠正输入数据中的不一致。
- 速度与质量: 可以在不需要长达数小时的优化过程的情况下实现高保真结果。
局限性: 作者指出,该方法仍然依赖于多视图扩散模型 (Wonder3D) 的质量。如果最初构想的视图太不一致,重建效果就会受到影响。此外,由于内存限制,使用体素限制了超大场景的分辨率——未来的工作可能会研究八叉树 (Octree) 结构来解决这个问题。
对于学生和研究人员来说,GS-RGBN 是一个完美的例子,展示了混合表示 (结合显式几何网格与可学习的神经基元) 在 3D 任务中往往优于纯端到端的神经方法。
](https://deep-paper.org/en/paper/2504.01512/images/cover.png)