图 1: GS-LRM 从物体采集 (左上) 、文本条件生成的物体图像 (右上) 、场景采集 (左下) 和文本条件生成的场景图像 (右下,来自 Sora,提示为“参观一个拥有许多不同风格美丽艺术品的美术馆”) 预测的新视角渲染。GS-LRM 能以惊人的保真度处理物体和复杂场景。
为现实世界的物体或场景创建数字 3D 模型是计算机视觉和图形学的基石。几十年来,这意味着一个名为 摄影测量法 的繁琐流程,需要数十甚至数百张照片以及缓慢而复杂的软件。但如果你仅凭几张图像,就能在不到一秒内完成高质量 3D 重建呢?
这正是一类名为 大型重建模型 (LRM) 的新型人工智能所带来的可能。这些基于 Transformer 的模型在海量 3D 内容数据集上进行训练,学习到关于形状和结构的通用“先验”知识,从而能够仅凭两到四张图像智能重建完整的 3D 几何体。然而早期的 LRM 遇到了瓶颈: 它们依赖于“三平面 NeRF”表示,这种方法在速度、细节保真和对复杂场景的扩展上表现不佳。
Adobe Research 和康奈尔大学最近发表的论文 GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting 介绍了一种强大的新方法,突破了这些限制。通过结合简洁、可扩展的 Transformer 架构与快速且高质量的 3D 高斯溅射 表示,GS-LRM 在独立物体及完整场景的重建上均达到了业界顶尖水平——而且可以瞬时生成结果。
本文将探讨 GS-LRM 的工作原理、意义,以及它如何重塑 3D 内容创作的未来。
背景: 通往即时 3D 之路
在深入了解 GS-LRM 之前,让我们快速回顾两项核心技术:** 3D 高斯溅射** 和 大型重建模型。
1. 超越 NeRF: 高斯溅射的崛起
多年来,3D 场景的主流神经表示是 神经辐射场 (NeRF)。NeRF 使用神经网络学习一个函数,将 3D 坐标和视角映射到颜色和密度。渲染图像时,需要沿数百万条光线评估该函数。
问题在于,NeRF 的训练和渲染速度很慢,且难以扩展到高分辨率。
2023 年,3D 高斯溅射作为更快的替代方案出现。它不使用深层网络,而是用数百万个彩色、半透明的 3D 椭球体 (“高斯体”) 表示场景,每个高斯体具有位置、缩放、旋转、颜色和不透明度等参数。渲染时只需将这些高斯体“溅射”(splat) 到图像平面,即可在保留精细细节的同时实现 实时高质量渲染。
2. 大型重建模型 (LRMs)
传统流程需要 针对每个场景 训练一个 NeRF 或高斯溅射模型,通常需要大量视角和可观的计算。
LRM 改变了这一模式: 大型预训练 Transformer 从如 Objaverse 这样的大规模数据集中学习重建先验,无需针对每个场景训练。只需输入几张带相机位姿的图像,即可在一次前向传播中预测完整 3D 模型。
早期的 LRM 基于 NeRF,因此也继承了 NeRF 的瓶颈。GS-LRM 的突破在于将 LRM 方法与高斯溅射结合,兼具速度与质量。
核心方法: GS-LRM 的工作原理
GS-LRM 的核心是一个简洁、优雅的 Transformer 模型,它接收 2–4 张带位姿的图像,并直接输出表示场景的 逐像素 3D 高斯体。
图 2: GS-LRM 架构。带位姿的图像被分块处理,经 Transformer 模块运算后取消分块,生成逐像素的高斯参数,最终合并为 3D 模型。
过程分为以下几步:
步骤 1: 对带位姿的图像进行 Token 化
输入: 2–4 张带有已知相机内参和外参的 RGB 图像。
- 位姿条件化:
对每个像素计算其 Plücker 射线坐标——一个 6D 向量,表示从相机穿过该像素的光线。 - 拼接:
将这 6 个通道附加到像素的 RGB 值后,形成一个包含外观与几何信息的 9 通道特征图。 - 分块 (Patchify):
将 9 通道特征图划分为不重叠的块 (如 8×8 像素) 。 - 线性投影:
将每个块展平,并投影为 Transformer 的 token 嵌入。
形式化表示:
\[ \{\mathbf{T}_{ij}\}_{j=1}^{HW/p^2} = \operatorname{Linear}\left(\operatorname{Patchify}_p\left(\operatorname{Concat}(\mathbf{I}_i, \mathbf{P}_i)\right)\right) \]这种编码自然包含了位置和视角信息,无需单独的嵌入。
步骤 2: Transformer 主干网络
将所有视图的 token 拼接并输入到 L 个 Transformer 模块:
\[ \{\mathbf{T}_{ij}\}^l = \text{TransformerBlock}^l(\{\mathbf{T}_{ij}\}^{l-1}),\quad l = 1,\dots,L \]多头自注意力机制使任何块都能跨越 所有 输入视图“看到”其他块,实现强大的多视图匹配能力。
步骤 3: 像素对齐的高斯解码
经过最后一个模块:
\[ \{\mathbf{G}_{ij}\} = \operatorname{Linear}(\{\mathbf{T}_{ij}\}^L) \]取消分块 (unpatchify) 操作将特征还原为逐像素高斯参数。每个像素预测:
- RGB 颜色 (3)
- 沿 x、y、z 轴的缩放 (3)
- 四元数旋转 (4)
- 不透明度 (1)
- 射线距离 (1)
3D 高斯体的中心通过预测的距离沿像素的相机射线定位。所有视图的高斯体合并到场景中。高分辨率输入会生成更多高斯体和更精细的重建——这是固定分辨率的三平面方法无法原生处理的。
步骤 4: 训练目标
训练时,将预测的高斯体从新视角渲染。损失函数结合均方误差 (MSE) 和感知相似度:
\[ \mathcal{L} = \frac{1}{M} \sum_{i'=1}^M \left[ \mathrm{MSE}( \hat{\mathbf{I}}_{i'}^{*}, \mathbf{I}_{i'}^{*}) + \lambda\,\mathrm{Perceptual}( \hat{\mathbf{I}}_{i'}^{*}, \mathbf{I}_{i'}^{*}) \right] \]实验与结果: GS-LRM 的实际表现
研究人员独立训练了两个 GS-LRM 版本:
- 物体级: 在 Objaverse 数据集上训练
- 场景级: 在 RealEstate10K 数据集 (室内/室外视频) 上训练
数据对比
表 1: 在物体级和场景级基准测试中,GS-LRM 的 PSNR、SSIM 和 LPIPS 均超越先前的 SOTA 方法。
亮点:
- 物体 (GSO 数据集) : PSNR 30.52 — 比 Instant3D 的 Triplane-LRM 基线高近 4 dB。
- 场景 (RealEstate10K) : PSNR 比 pixelSplat 高 2.2 dB,同时 SSIM 和 LPIPS 也有显著提升。
视觉效果比较
与 Triplane-LRM 对比:
图 3: GS-LRM 保留了文字和细薄结构等精细细节,而 Triplane-LRM 则容易模糊或扭曲这些细节。
与 LGM 对比:
图 4: LGM 重建出现几何扭曲和断裂;GS-LRM 则更接近真实情况。
与 **pixelSplat **(场景级) 对比:
图 5: 对真实场景而言,GS-LRM 生成的结果更清晰,且伪影 (“漂浮物”) 比 pixelSplat 更少。
高分辨率能力:
图 6: GS-LRM 能从高分辨率输入中重建可读文字、透明玻璃和复杂的室外几何。
应用: 生成式工作流中的高速 3D
GS-LRM 的速度与灵活性非常适合集成到创意工作流中。
1. 文本/图像到 3D 物体
将 GS-LRM 与以下模型串联:
- **Instant3D **(文本到多视图)
- **Zero123++ **(图像到多视图)
将生成的稀疏视图输入 GS-LRM,即可即时得到 3D 物体。
图 7: GS-LRM 重建的文本到 3D (上排) 及图像到 3D (下排) 物体。
2. 文本到 3D 场景
通过 **Sora **(文本到视频) 生成视频,对采样帧进行位姿估计,然后用 GS-LRM 重建为沉浸式环境。
图 8: 从生成视频中重建的海岸景观及 GS-LRM 渲染的新视角与深度图。
结论与未来方向
GS-LRM 是 3D 重建领域的重要进展:
- 简洁、可扩展的架构
- 像素对齐的高斯预测
- 物体与场景的业界顶尖质量
- 即时且高分辨率输出
它也有局限: 目前仅支持约 512×904 的输入分辨率,需要已知相机位姿,且难以处理完全位于视锥体外的未见表面。未来方向包括去除位姿需求及提升分辨率。
尽管如此,GS-LRM 展示了人人可参与的 3D 内容创作前景——将时间成本从数小时降至数秒,降低专业门槛,并为游戏世界、虚拟零售、文化遗产保护等领域开启广阔创意空间。随着研究推进,像 GS-LRM 这样的模型将使 3D 创作如拍几张照片或写一句话般简单。