简介

计算机视觉领域中最引人入胜的挑战之一就是 3D 生成的“圣杯”: 拍摄一张单一的、平面的物体照片，然后瞬间重建出一个高保真、从各个角度看都很完美的 3D 模型。想象一下，拍一张桌子上玩具的照片，然后立即将其导入视频游戏或 VR 环境中。

虽然生成式 AI 在 2D 图像创作方面取得了巨大进步，但将这种能力提升到 3D 却要困难得多。核心问题在于几何歧义性 (geometric ambiguity) 。一张图片只能告诉你物体从某个特定角度看起来是什么样子，但它的背面、侧面和内部几何结构完全需要靠推断。

最近的方法尝试使用多视图扩散 (Multi-View Diffusion, MVD) 模型来弥补这一差距——这是一种被训练用来“构想”物体缺失视图的 AI。然而，这些构想往往是不一致的；侧视图可能无法与前视图完美匹配，导致生成的 3D 模型模糊、变形或充满伪影。

GS-RGBN 应运而生，这是由浙江大学、伦敦大学学院 (UCL) 和犹他大学的研究人员提出的一种新架构。他们的方法引入了一种新颖的 RGBN 体积 (红-绿-蓝 + 法线) 策略，并结合了高斯泼溅 (Gaussian Splatting) 技术。通过在结构上融合颜色数据与几何表面法线数据，他们实现了重建质量的飞跃。

图 1. GS-RGBN 概览，展示了输入图像、生成的 2D 高斯以及带纹理的网格。

如上图所示，GS-RGBN 可以接收单张输入图像 (左) ，并生成高质量的 3D 表示 (中和右) ，捕捉独特的几何形状——例如老鼠角色的细球拍或汉堡的层级——而没有以前方法中常见的典型伪影。

在这篇文章中，我们将拆解 GS-RGBN 论文，探讨它如何使用混合体素-高斯架构和巧妙的跨体积融合机制来解决 3D 生成中的不一致问题。

背景: 3D 生成的现状

要理解 GS-RGBN 的重要性，我们需要将其置于当前的 3D 生成背景下。

优化的局限性

早期的 3D 深度学习方法 (如 DreamFusion) 使用一种称为分数蒸馏采样 (Score Distillation Sampling, SDS) 的技术。这些方法本质上是通过不断将 2D 渲染图与文本到图像模型进行比对来“雕刻”3D 模型 (如 NeRF) 。虽然具有革命性，但这个过程是基于优化的。单个物体需要数千次迭代，导致速度缓慢 (需要数分钟或数小时) 且计算成本高昂。

前馈模型的兴起

为了加快速度，该领域转向了前馈模型 (feed-forward models) 。这些模型不再是花费数小时优化单个物体，而是训练庞大的神经网络，在单次传递中预测 3D 结构——只需几秒钟。

像 LRM (大型重建模型) 这样的模型充当了 3D 领域的“大型 Transformer”。它们观察输入图像并直接输出 3D 表示。最近, 3D 高斯泼溅 (3DGS) 已成为这些模型的首选表示形式，因为它渲染速度极快，并且比 NeRF 更能处理高频细节。

缺失的一环: 结构与几何

然而，当前的前馈高斯模型面临两大障碍:

非结构化表示: 3D 高斯本质上是带有属性的点云。如果没有刚性结构，神经网络很难从单张图像准确预测它们的位置，通常会导致“漂浮物”或形状扭曲。
先验不一致: 大多数方法纯粹依赖扩散模型生成的 RGB 图像。如果扩散模型生成的侧视图与前视图不一致 (例如颜色略有变化) ，3D 重建算法就会感到困惑，从而导致模糊。

GS-RGBN 通过引入体素 (Voxels) (提供结构) 和法线贴图 (Normal Maps) (提供显式几何信息) 来解决这些特定故障。

核心方法: GS-RGBN

GS-RGBN 的架构旨在强制一致性。它不仅关注物体的颜色，还关注表面几何 (法线) ，并将这两股信息流融合到一个统一的 3D 网格中。

图 2. GS-RGBN 范式概览。

如上面的流程图所示，该过程可以分为三个不同的阶段:

多视图生成与特征提升: 将单张图像转换为多视图 RGB 和法线数据。
跨体积融合 (CVF) : 在 3D 空间中合并语义 (RGB) 和几何 (法线) 数据。
2D 高斯解码: 生成最终的可渲染基元。

让我们深入了解每个阶段。

1. 混合体素-高斯表示

第一个创新是模型表示 3D 空间的方式。GS-RGBN 没有让高斯在虚空中自由漂浮 (这对网络来说很难预测) ，而是将它们锚定在体素网格 (Voxel Grid) 上。

该过程始于一个现成的多视图扩散模型，名为 Wonder3D 。给定单张输入图像 (\(I_0\))，Wonder3D 会生成一组不同视角的图像及其对应的法线贴图 。

RGB 图像: 提供颜色和语义纹理。
法线贴图: 提供关于表面朝向和形状的显式信息。

系统使用 ViT-DINO 模型处理这些图像以提取深度特征。但技巧在于: 2D 特征是不够的。模型需要理解这些特征在 3D 空间中的位置。

为此，作者利用了 Plücker 射线嵌入 。这是一种表示相对于相机位置的相机射线的数学方法。通过将图像特征与射线信息结合，2D 图像的特征被“提升”到 3D 空间中。

图像特征 \(c_i\) 与射线几何的融合公式如下:

公式 1

这里，特征与相机原点 (\(o_i\)) 和方向 (\(d_i\)) 的叉积一起被归一化。这些提升后的特征随后被平均到两个不同的 3D 体积中:

\(V_{rgb}\) : RGB 特征体积。
\(V_{nor}\) : 法线特征体积。

这种基于体素的方法解决了“非结构化”问题。通过将信息锁定在网格中，网络可以使用 3D 卷积 (深度学习中的标准工具) 来理解物体相邻部分之间的关系。

2. 跨体积融合 (CVF)

现在系统有了两个 3D 体积: 一个携带语义颜色信息 (\(V_{rgb}\))，一个携带几何形状信息 (\(V_{nor}\))。简单地平均它们效果并不好，因为它们包含根本不同类型的数据。

作者提出了一个跨体积融合 (CVF) 模块。这是架构的核心引擎，旨在对齐语义和几何线索。

图 3. 跨体积融合 (CVF) 模块的结构图示。

CVF 模块使用一种称为交叉注意力 (Cross-Attention) 的机制。在神经网络中，注意力机制允许一股数据流“查询”另一股数据流以查找相关信息。

在这个具体设计中:

RGB 引导融合: 语义体积 (\(V_{rgb}\)) 充当“查询 (Query) ”，在几何体积 (\(V_{nor}\)) 中搜索结构。这有助于模型理解颜色边界应在何处与物理边缘对齐。
法线引导融合: 几何体积充当“查询”，在 RGB 体积中搜索一致性。这确保了形状能解释纹理。

RGB 引导分支的数学公式如下:

公式 2

法线引导分支如下:

公式 3

这里，\(CA_s\) 和 \(CA_g\) 代表交叉注意力块。模型将 3D 体积展开成组以提高计算效率。

在交叉注意力交换了两股数据流的信息后，结果被拼接 (\(\oplus\)) :

公式 4

最后，一个自注意力 (SA) 块处理这个组合体积，以平衡语义和几何信息的权重，生成最终的高保真体积 \(V_{rgbn}\) :

公式 5

这个融合体积包含了物体的丰富且一致的表示，它是从不一致的输入视图中衍生出来的。

3. 2D 高斯生成与渲染

有了精炼的 3D 体积 \(V_{rgbn}\)，最后一步就是生成实际的 3D 物体。

标准的高斯泼溅使用 3D 椭球体。然而，3D 椭球体在表示薄表面 (如一张纸或一片叶子) 时可能存在结构上的歧义。作者转而采用 2D 高斯 (通常称为“面元”或表面元素) 。2D 高斯是由中心点、两个缩放因子和旋转定义的扁平圆盘。这种表示法天生更适合建模实体物体的表面。

对于最终网格中的每个体素，解码器网络 (\(\phi_g\)) 预测该体素内高斯的属性:

公式 6

网络预测:

\(\Delta x_i\): 偏移位置 (精细化体素内的位置) 。
\(s_i\): 缩放因子 (泼溅的宽/高) 。
\(q_i\): 旋转 (四元数) 。
\(\alpha_i\): 不透明度。
\(sh_i\): 球谐函数 (颜色系数) 。

为什么这很重要

通过约束高斯存在于体素中心附近 (\(x_i = v_i + r \cdot \Delta x_i\))，模型确保了“点”不会飞走或以不自然的方式聚集。它强制实施了一种纯点云方法所缺乏的结构正则化。

4. 训练目标

网络是如何学会做这些的？它是通过结合多种损失函数进行训练的，这些函数将生成的 2D 高斯渲染图与真实图像进行比较。

总损失是三个分量的加权和:

公式 7

颜色损失 (\(\mathcal{L}_c\)): 确保渲染图像看起来像目标照片。它结合了像素级差异 (L1 损失) 和感知差异 (LPIPS) ，后者衡量图像在人眼眼中的相似程度。

公式 8

深度损失 (\(\mathcal{L}_d\)): 这至关重要。由于输入包含深度信息 (源自法线/几何) ，此损失强制 3D 形状必须准确，而不仅仅是颜色准确。

公式 9

正则化损失 (\(\mathcal{L}_{reg}\)) : 这可以防止高斯过度变形或以奇怪的方式重叠，确保网格表面干净。

实验与结果

作者在庞大的 Objaverse-LVIS 数据集 (46K 个 3D 物体) 上使用高端 GPU 训练了 GS-RGBN 近一周。为了测试它，他们使用了 Google Scanned Objects (GSO) 数据集，确保模型是在它从未见过的物体上进行测试的。

新视图合成 (NVS)

成功的主要衡量标准是“新视图合成”——模型能否生成输入中没有的物体视图？

图 4. 新视图合成的定性比较。

在上面的比较中，请仔细观察“LGM”和“TriplaneGaussian”列与“Ours” (我们的) 和“GT” (真实值) 的对比。

笔记本电脑 (第 1 行) : LGM 压扁了屏幕。GS-RGBN 保留了角度。
城堡 (第 2 行) : TriplaneGaussian 让城堡看起来过度厚实且呈肿块状。GS-RGBN 捕捉到了独特的塔楼。
机器人 (第 3 行) : 注意 GS-RGBN 结果中纹理的清晰度，相比之下 Wonder3D 则显得模糊。

这些视觉效果证实了体素-高斯结构防止了其他前馈方法中常见的失真。

定量分析

数据支持了视觉效果。下表比较了 GS-RGBN 与 DreamGaussian、LGM 和 Wonder3D 等最先进方法的性能。

表 1. GSO 数据集上的定量比较。

表 1 的主要结论:

PSNR (越高越好) : GS-RGBN 得分 23.02 , 显著高于第二名 (DreamGaussian 的 17.43) 。这是图像保真度的巨大飞跃。
LPIPS (越低越好) : GS-RGBN 的得分为 0.135 , 生成的图像在感知上比竞争对手 (通常 >0.200) 更接近现实。
时间: 虽然生成多视图图像大约需要 4 秒 (Time(g))，但实际重建 (Time(r)) 仅需 0.20 秒 。一旦视图生成完毕，这实际上就是实时重建。

单视图重建

该方法在保持整体 3D 形状方面也表现出色，而不仅仅是特定角度的渲染。

图 5. GSO 数据集上单视图重建的定性比较。

注意顶行的“拨浪鼓”玩具。像“One-2-3-45”和“Wonder3D”这样的方法无法闭合圆环或产生了断开的几何结构。GS-RGBN 保持了几乎与真实值 (GT) 完美匹配的水密、连贯形状。

组件的重要性 (消融实验)

论文中最具教育意义的部分之一是消融实验，研究人员禁用了系统的部分功能，看看哪里会出问题。

图 6. 不同训练模型的消融实验。

w/o Normal Input (中间行，绿海龟，无输入法线) : 如果没有法线贴图，几何结构就会崩溃。海龟的壳变得凹凸不平且模糊不清。这证明了仅靠 RGB 不足以实现高保真度。
w/o CVF (中间行，无 CVF) : 移除跨体积融合模块会导致细节丢失。融合对于将法线的锐利边缘与 RGB 的纹理对齐至关重要。
Image-Gaussian (底行，蜘蛛侠) : 如果他们完全移除体素结构并尝试直接从图像预测高斯 (像 LGM 那样) ，人物的四肢就会变得分离和混乱。体素网格对于空间连贯性至关重要。

表 2 详细列出了这些组件的定量影响:

表 2. 关于损失函数和策略的消融实验。

移除法线输入导致 PSNR 从 23.02 下降到 20.15。移除跨体积融合 (CVF) 则降至 19.27。这从经验上证明了几何与颜色的融合是模型性能的主要驱动力。

最后，作者分析了视图数量如何影响性能:

表 3. 关于 VRB 和源视图的消融实验。

有趣的是，即使只有 4 个输入视图 , GS-RGBN 也优于以前使用更多数据训练的方法。然而，正如预期的那样，输入 8 个视图会产生最佳结果 (PSNR 23.02) 。

结论与启示

GS-RGBN 代表了单图 3D 重建领域的显著成熟。它摆脱了纯基于图像的 Transformer 的“黑盒”方法，并在深度学习流程中重新引入了显式 3D 结构 (体素) 和显式几何 (法线) 。

主要收获:

结构为王: 将 2D 高斯锚定到体素网格上，可以防止非结构化模型中出现的“漂浮物”和失真。
融合是关键: 你不能仅依赖 RGB。通过交叉注意力将 RGB 与法线贴图融合，使模型能够纠正输入数据中的不一致。
速度与质量: 可以在不需要长达数小时的优化过程的情况下实现高保真结果。

局限性: 作者指出，该方法仍然依赖于多视图扩散模型 (Wonder3D) 的质量。如果最初构想的视图太不一致，重建效果就会受到影响。此外，由于内存限制，使用体素限制了超大场景的分辨率——未来的工作可能会研究八叉树 (Octree) 结构来解决这个问题。

对于学生和研究人员来说，GS-RGBN 是一个完美的例子，展示了混合表示 (结合显式几何网格与可学习的神经基元) 在 3D 任务中往往优于纯端到端的神经方法。

简介#

背景: 3D 生成的现状#

优化的局限性#

前馈模型的兴起#

缺失的一环: 结构与几何#

核心方法: GS-RGBN#

1. 混合体素-高斯表示#

2. 跨体积融合 (CVF)#

3. 2D 高斯生成与渲染#

为什么这很重要#

4. 训练目标#

实验与结果#

新视图合成 (NVS)#

定量分析#

单视图重建#

组件的重要性 (消融实验)#

结论与启示#

简介