从 2D 像素到 3D 溅射：GS-LRM 如何仅凭几张图像重建世界

一张拼贴图，展示了 GS-LRM 仅凭几张输入图像就能重建物体和复杂场景的能力，包括从文本提示生成 3D 模型。

图 1: GS-LRM 从物体采集 (左上) 、文本条件生成的物体图像 (右上) 、场景采集 (左下) 和文本条件生成的场景图像 (右下，来自 Sora，提示为“参观一个拥有许多不同风格美丽艺术品的美术馆”) 预测的新视角渲染。GS-LRM 能以惊人的保真度处理物体和复杂场景。

为现实世界的物体或场景创建数字 3D 模型是计算机视觉和图形学的基石。几十年来，这意味着一个名为 摄影测量法 的繁琐流程，需要数十甚至数百张照片以及缓慢而复杂的软件。但如果你仅凭几张图像，就能在不到一秒内完成高质量 3D 重建呢？

这正是一类名为 大型重建模型 (LRM) 的新型人工智能所带来的可能。这些基于 Transformer 的模型在海量 3D 内容数据集上进行训练，学习到关于形状和结构的通用“先验”知识，从而能够仅凭两到四张图像智能重建完整的 3D 几何体。然而早期的 LRM 遇到了瓶颈: 它们依赖于“三平面 NeRF”表示，这种方法在速度、细节保真和对复杂场景的扩展上表现不佳。

Adobe Research 和康奈尔大学最近发表的论文 GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting 介绍了一种强大的新方法，突破了这些限制。通过结合简洁、可扩展的 Transformer 架构与快速且高质量的 3D 高斯溅射 表示，GS-LRM 在独立物体及完整场景的重建上均达到了业界顶尖水平——而且可以瞬时生成结果。

本文将探讨 GS-LRM 的工作原理、意义，以及它如何重塑 3D 内容创作的未来。

背景: 通往即时 3D 之路

在深入了解 GS-LRM 之前，让我们快速回顾两项核心技术:** 3D 高斯溅射** 和 大型重建模型。

1. 超越 NeRF: 高斯溅射的崛起

多年来，3D 场景的主流神经表示是 神经辐射场 (NeRF)。NeRF 使用神经网络学习一个函数，将 3D 坐标和视角映射到颜色和密度。渲染图像时，需要沿数百万条光线评估该函数。

问题在于，NeRF 的训练和渲染速度很慢，且难以扩展到高分辨率。

2023 年，3D 高斯溅射作为更快的替代方案出现。它不使用深层网络，而是用数百万个彩色、半透明的 3D 椭球体 (“高斯体”) 表示场景，每个高斯体具有位置、缩放、旋转、颜色和不透明度等参数。渲染时只需将这些高斯体“溅射”(splat) 到图像平面，即可在保留精细细节的同时实现 实时高质量渲染。

2. 大型重建模型 (LRMs)

传统流程需要 针对每个场景 训练一个 NeRF 或高斯溅射模型，通常需要大量视角和可观的计算。

LRM 改变了这一模式: 大型预训练 Transformer 从如 Objaverse 这样的大规模数据集中学习重建先验，无需针对每个场景训练。只需输入几张带相机位姿的图像，即可在一次前向传播中预测完整 3D 模型。

早期的 LRM 基于 NeRF，因此也继承了 NeRF 的瓶颈。GS-LRM 的突破在于将 LRM 方法与高斯溅射结合，兼具速度与质量。

核心方法: GS-LRM 的工作原理

GS-LRM 的核心是一个简洁、优雅的 Transformer 模型，它接收 2–4 张带位姿的图像，并直接输出表示场景的 逐像素 3D 高斯体。

GS-LRM 架构图。输入图像被分块，由 Transformer 处理，然后取消分块以预测逐像素高斯，最终合并成一个 3D 模型。

图 2: GS-LRM 架构。带位姿的图像被分块处理，经 Transformer 模块运算后取消分块，生成逐像素的高斯参数，最终合并为 3D 模型。

过程分为以下几步:

步骤 1: 对带位姿的图像进行 Token 化

输入: 2–4 张带有已知相机内参和外参的 RGB 图像。

位姿条件化:
对每个像素计算其 Plücker 射线坐标——一个 6D 向量，表示从相机穿过该像素的光线。
拼接:
将这 6 个通道附加到像素的 RGB 值后，形成一个包含外观与几何信息的 9 通道特征图。
分块 (Patchify):
将 9 通道特征图划分为不重叠的块 (如 8×8 像素) 。
线性投影:
将每个块展平，并投影为 Transformer 的 token 嵌入。

形式化表示:

\[ \{\mathbf{T}_{ij}\}_{j=1}^{HW/p^2} = \operatorname{Linear}\left(\operatorname{Patchify}_p\left(\operatorname{Concat}(\mathbf{I}_i, \mathbf{P}_i)\right)\right) \]

这种编码自然包含了位置和视角信息，无需单独的嵌入。

步骤 2: Transformer 主干网络

将所有视图的 token 拼接并输入到 L 个 Transformer 模块:

\[ \{\mathbf{T}_{ij}\}^l = \text{TransformerBlock}^l(\{\mathbf{T}_{ij}\}^{l-1}),\quad l = 1,\dots,L \]

多头自注意力机制使任何块都能跨越所有输入视图“看到”其他块，实现强大的多视图匹配能力。

步骤 3: 像素对齐的高斯解码

经过最后一个模块:

\[ \{\mathbf{G}_{ij}\} = \operatorname{Linear}(\{\mathbf{T}_{ij}\}^L) \]

取消分块 (unpatchify) 操作将特征还原为逐像素高斯参数。每个像素预测:

RGB 颜色 (3)
沿 x、y、z 轴的缩放 (3)
四元数旋转 (4)
不透明度 (1)
射线距离 (1)

3D 高斯体的中心通过预测的距离沿像素的相机射线定位。所有视图的高斯体合并到场景中。高分辨率输入会生成更多高斯体和更精细的重建——这是固定分辨率的三平面方法无法原生处理的。

步骤 4: 训练目标

训练时，将预测的高斯体从新视角渲染。损失函数结合均方误差 (MSE) 和感知相似度:

\[ \mathcal{L} = \frac{1}{M} \sum_{i'=1}^M \left[ \mathrm{MSE}( \hat{\mathbf{I}}_{i'}^{*}, \mathbf{I}_{i'}^{*}) + \lambda\,\mathrm{Perceptual}( \hat{\mathbf{I}}_{i'}^{*}, \mathbf{I}_{i'}^{*}) \right] \]

实验与结果: GS-LRM 的实际表现

研究人员独立训练了两个 GS-LRM 版本:

物体级: 在 Objaverse 数据集上训练
场景级: 在 RealEstate10K 数据集 (室内/室外视频) 上训练

数据对比

一张表格，比较了 GS-LRM 与基线模型在物体和场景重建上的表现。

表 1: 在物体级和场景级基准测试中，GS-LRM 的 PSNR、SSIM 和 LPIPS 均超越先前的 SOTA 方法。

亮点:

物体 (GSO 数据集) : PSNR 30.52 — 比 Instant3D 的 Triplane-LRM 基线高近 4 dB。
场景 (RealEstate10K) : PSNR 比 pixelSplat 高 2.2 dB，同时 SSIM 和 LPIPS 也有显著提升。

视觉效果比较

与 Triplane-LRM 对比:

与 Triplane-LRM 的并排对比。

图 3: GS-LRM 保留了文字和细薄结构等精细细节，而 Triplane-LRM 则容易模糊或扭曲这些细节。

与 LGM 对比:

与 LGM 的比较。

图 4: LGM 重建出现几何扭曲和断裂；GS-LRM 则更接近真实情况。

与 **pixelSplat **(场景级) 对比:

与 pixelSplat 在场景重建上的对比。

图 5: 对真实场景而言，GS-LRM 生成的结果更清晰，且伪影 (“漂浮物”) 比 pixelSplat 更少。

高分辨率能力:

GS-LRM 的高分辨率重建示例。

图 6: GS-LRM 能从高分辨率输入中重建可读文字、透明玻璃和复杂的室外几何。

应用: 生成式工作流中的高速 3D

GS-LRM 的速度与灵活性非常适合集成到创意工作流中。

1. 文本/图像到 3D 物体
将 GS-LRM 与以下模型串联:

**Instant3D **(文本到多视图)
**Zero123++ **(图像到多视图)

将生成的稀疏视图输入 GS-LRM，即可即时得到 3D 物体。

使用 GS-LRM 由文本和图像生成的 3D 物体示例。

图 7: GS-LRM 重建的文本到 3D (上排) 及图像到 3D (下排) 物体。

2. 文本到 3D 场景
通过 **Sora **(文本到视频) 生成视频，对采样帧进行位姿估计，然后用 GS-LRM 重建为沉浸式环境。

由 Sora 视频重建的 3D 海岸场景。

图 8: 从生成视频中重建的海岸景观及 GS-LRM 渲染的新视角与深度图。

结论与未来方向

GS-LRM 是 3D 重建领域的重要进展:

简洁、可扩展的架构
像素对齐的高斯预测
物体与场景的业界顶尖质量
即时且高分辨率输出

它也有局限: 目前仅支持约 512×904 的输入分辨率，需要已知相机位姿，且难以处理完全位于视锥体外的未见表面。未来方向包括去除位姿需求及提升分辨率。

尽管如此，GS-LRM 展示了人人可参与的 3D 内容创作前景——将时间成本从数小时降至数秒，降低专业门槛，并为游戏世界、虚拟零售、文化遗产保护等领域开启广阔创意空间。随着研究推进，像 GS-LRM 这样的模型将使 3D 创作如拍几张照片或写一句话般简单。

背景: 通往即时 3D 之路#

1. 超越 NeRF: 高斯溅射的崛起#

2. 大型重建模型 (LRMs)#

核心方法: GS-LRM 的工作原理#

步骤 1: 对带位姿的图像进行 Token 化#

步骤 2: Transformer 主干网络#

步骤 3: 像素对齐的高斯解码#

步骤 4: 训练目标#

实验与结果: GS-LRM 的实际表现#

数据对比#

视觉效果比较#

应用: 生成式工作流中的高速 3D#

结论与未来方向#