LGM：使用高斯泼溅技术在 5 秒内创建高分辨率 3D 模型

为游戏、虚拟现实和电影创作 3D 内容一直以来都是一个劳动密集型的过程，需要技艺精湛的艺术家投入大量时间进行细致的工作。

但如果你只需一张图片或一行文字，就能在几秒钟内生成一个细节丰富的 3D 模型，那会怎样呢？这正是生成式 AI 在 3D 领域的承诺——一个正在飞速发展并经历爆炸性增长的领域。

早期的技术虽然具有革命性，但速度较慢，优化单个 3D 资产通常需要几分钟甚至几小时。近期的前馈模型将生成时间缩短到了秒级，但代价是分辨率和几何细节下降。核心挑战一直是如何在速度与质量之间取得平衡。我们是否能兼得两者？

一篇新论文 《大规模多视图高斯模型》 (Large Multi-View Gaussian Model, LGM) 恰好提出了这样的解决方案。这种新颖的方法能够在约 5 秒内生成高分辨率、细节丰富的 3D 模型，并通过两项关键创新避开了以往方法的瓶颈:

高效且具表现力的 3D 表示方法:** 3D 高斯泼溅 (3D Gaussian Splatting)**
高吞吐量的 非对称 U-Net 骨干网络来生成该表示

一张展示 LGM 从不同输入 (包括传送门、矮人、猫头和蘑菇屋) 生成的各种 3D 模型的图库。该图展示了从单张图像或文本生成的高分辨率输出。

图 1: LGM 可根据文本提示或单视图图像，在约 5 秒内生成高分辨率、细节丰富的 3D 高斯模型。

在本文中，我们将剖析 LGM 论文——探讨先前方法的局限性、使 LGM 如此高效的架构与训练策略，以及它如何凭借惊人效果为快速、高保真 3D 内容创作树立新标准。

对快速、高质量 3D 生成的探索

在深入 LGM 的设计之前，让我们先简要回顾当前 3D 生成领域的两种主流方法:

1. 基于优化的方法 (慢但细节丰富)

这类方法通常使用 分数蒸馏采样 (Score Distillation Sampling, SDS) ，就像一位耐心的雕塑家。它们从一个随机的 3D 形状开始，在强大的 2D 图像扩散模型 (如 Stable Diffusion) 的指导下进行迭代优化。

2D 模型从不同角度“观察”3D 形状，并提出修改建议，使其更好地匹配文本提示。这种方法能产生惊人的细节与创意 (例如 DreamFusion、Magic3D) ，但通常需要数分钟到数小时才能完成一个对象。

2. 前馈模型 (快但细节有限)

为克服速度限制，前馈模型通过大规模训练，学习从输入 (如单张图像) 到 3D 表示的直接映射。例如，大型重建模型 (Large Reconstruction Model, LRM) 能从单张图片预测出一个 三平面 (triplane) NeRF。

虽然速度快，但这些方法受制于三平面表示的低分辨率训练限制以及笨重的基于 Transformer 的骨干网络。其结果是: 纹理模糊、几何扁平，并且在未见过的视角 (如背面) 细节较差。

LGM 的洞见:
作者确定了两个主要瓶颈:
(1) *低效的表示方法 *(三平面)
(2) *计算量大 *(Transformer)

解决方案是: 用 高斯泼溅 和精简的 非对称 U-Net 同时替代这两者。

LGM 框架: 强大的两步流程

LGM 的核心是多视图重建模型。它不再从单一模糊视角推测完整 3D 结构，而是利用一组四个一致的多视图图像来组装对象。

推理流程分为两步，如下所示:

LGM 的流程图，展示了文本或图像输入如何首先被送入一个多视图生成模型 (如 MVDream 或 ImageDream) 以生成四个视角。然后，这些视图被传递给 LGM 以生成 3D 高斯模型，该模型可以选择性地转换为网格。

图 2: 推理时，LGM 使用成熟的多视图扩散模型处理图像或文本输入，生成四个正交视角，然后重建高分辨率 3D 高斯模型。网格提取为可选步骤。

步骤 1: 多视图生成 (约 4 秒)

LGM 调用当前最先进的多视图扩散模型:

MVDream: 文本到 3D
ImageDream: 图像到 3D

输入提示词 (如 “一位老人的头部雕塑”) 或单张图片，这些模型会生成四个正交视角 (前、右、后、左) 。

步骤 2: 高斯生成 (约 1 秒)

将四张图片及其相机位姿元数据输入 LGM 的非对称 U-Net，输出数千个 3D 高斯点，构成完整的对象。

核心引擎: 用于 3D 高斯的非对称 U-Net

LGM 的非对称 U-Net 架构。它接收带有相机光线嵌入的四张图像作为输入，通过带有跨视图自注意力机制的下采样与上采样模块进行处理，并输出多视图高斯特征，最终融合成一个 3D 模型。

图 3: LGM 的 U-Net 使用跨视图自注意力，将四个输入视角的特征融合成一致的 3D 高斯模型。

关键创新:

增强的输入特征:
每个像素包含 RGB 颜色以及 **Plücker 光线嵌入 **(光线原点 × 方向，方向) 。
\[ \mathbf f _ { i } = \{ \mathbf c _ { i }, \mathbf o _ { i } \times \mathbf d _ { i }, \mathbf d _ { i } \} \]
编码器–解码器骨干网络:
标准 U-Net 结构通过下采样提取高级特征，再通过上采样与跳跃连接重建细节。
跨视图自注意力:
在来自四个视角的拼接特征上施加深层自注意力，构建一致、对齐的几何结构。
非对称输出:
输入分辨率为 \(256 \times 256\)，输出为 \(128 \times 128\)。
每个输出像素对应一个高斯点，14 个通道定义其位置、缩放、旋转、不透明度和颜色。所有高斯点融合成最终的 3D 对象。

针对真实场景的鲁棒性训练

训练阶段使用来自 Objaverse 的完美多视图渲染图像，而推理阶段的多视图图像是扩散模型生成的，有缺陷，因此存在领域差距问题。

为此，采用两种数据增强策略:

网格扭曲 (Grid Distortion)
随机扭曲非正面视图，模拟多视图间的不一致性。
轨道相机抖动 (Orbital Camera Jitter)
随机旋转后三个相机位姿，以模拟位姿不准确。

这些方法迫使 LGM 学习真实的 3D 结构，而非过拟合于干净输入。

超越高斯: 可用网格生成

多数 3D 工作流需要多边形网格，但直接将高斯转换为网格可能导致表面质量较差。

LGM 的网格提取流程:

网格提取流程图，将 3D 高斯转换为 NeRF，再用 Marching Cubes 提取粗网格，优化网格和纹理，最后烘焙生成纹理贴图。

图 4: LGM 通过中间 NeRF 阶段，将高斯转换为平滑且有纹理的网格。

从高斯渲染图像 (伪真值)
使用 Instant-NGP 训练一个紧凑 NeRF
用 Marching Cubes 提取粗网格
并行优化几何与外观
烘焙纹理生成最终的 UV 贴图网格

该过程耗时约 1 分钟，可生成可直接用于游戏的资产。

结果: 速度与保真兼得

图像到 3D 对比

从单张图像生成的 3D 模型对比。LGM 在视觉质量和细节上优于 TriplaneGaussian 和 DreamGaussian。

图 5: 与基于高斯的竞品相比，LGM 具备更高保真度，并更好保留输入内容。

与 LRM 相比，LGM 的多视图输入消除了“背面模糊”问题:

与 LRM 的对比。LGM 在未见视角上也能呈现更佳细节和几何结构，避免了单视图重建常见的背面模糊。

图 6: 四视角输入使 LGM 能重建全角度的细致几何，不同于单视角方法。

文本到 3D 与多样性

文本到 3D 对比，LGM 在文本对齐与视觉质量上优于 Shap-E 和 DreamGaussian。

图 7: LGM 更好地与文本提示对齐，并避免“多正面”问题。

得益于第一步的扩散过程，LGM 保持了输出多样性:

多样性展示。对于“泰迪熊”、“鹦鹉”等提示，模型可生成多种风格、颜色与姿态。

图 8: 改变随机种子，可从同一提示生成多样化的风格、颜色与姿态。

定量评估

用户研究结果显示，在图像到 3D 任务中，LGM 明显优于 DreamGaussian 与 TriplaneGaussian。

表 1: 用户评分 (1–5 分) 显示 LGM 在图像一致性和整体质量上领先。

消融研究

消融研究显示 4 视图输入、数据增强以及高分辨率训练对结果影响显著。

图 9: 4 视图输入、数据增强与高分辨率训练均显著提升性能。

主要发现:

4 视图: 重建背面准确度的关键
数据增强: 应对领域差距下，生成干净几何必不可少
高分辨率: \(512\times512\) 捕捉的细节优于低分辨率模型

局限性与未来方向

LGM 失败案例可视化，显示问题主要源于初始多视图生成步骤，如分辨率受限、3D 不一致、大仰角视图处理不佳。

图 11: 失败案例多因多视图生成质量不足引起。

当前限制:

多视图扩散带来的 3D 不一致 会生成漂浮物或伪影
输入分辨率 上限为 \(256\times256\)
某些源视图存在 大仰角 时会生成异常

模块化设计确保了多视图扩散一旦改进，LGM 的成品效果也将受益。

结论

LGM 通过突破速度与质量长期不可兼得的困境，成为生成式 3D 创作领域的重要里程碑。

核心要点:

高效表示: 高斯泼溅技术兼顾表现力与渲染速度
高吞吐骨干: 跨视图注意力的非对称 U-Net
鲁棒流程: 数据增强策略结合实用的网格提取

成果是:** 仅需 5 秒**，即可从文本或单张图像生成高分辨率、细节丰富的 3D 资产，可直接用于游戏、VR 与创意项目。

随着底层生成模型的不断进步，LGM 等框架预示了一个未来:** 高质量 3D 创作将只需一句提示**。

对快速、高质量 3D 生成的探索#

1. 基于优化的方法 (慢但细节丰富)#

2. 前馈模型 (快但细节有限)#

LGM 框架: 强大的两步流程#

步骤 1: 多视图生成 (约 4 秒)#

步骤 2: 高斯生成 (约 1 秒)#

核心引擎: 用于 3D 高斯的非对称 U-Net#

针对真实场景的鲁棒性训练#

超越高斯: 可用网格生成#

结果: 速度与保真兼得#

图像到 3D 对比#

文本到 3D 与多样性#

定量评估#

消融研究#

局限性与未来方向#

结论#