为游戏、虚拟现实和电影创作 3D 内容一直以来都是一个劳动密集型的过程,需要技艺精湛的艺术家投入大量时间进行细致的工作。

但如果你只需一张图片或一行文字,就能在几秒钟内生成一个细节丰富的 3D 模型,那会怎样呢?这正是生成式 AI 在 3D 领域的承诺——一个正在飞速发展并经历爆炸性增长的领域。

早期的技术虽然具有革命性,但速度较慢,优化单个 3D 资产通常需要几分钟甚至几小时。近期的 前馈 模型将生成时间缩短到了秒级,但代价是分辨率和几何细节下降。核心挑战一直是如何在速度质量之间取得平衡。我们是否能兼得两者?

一篇新论文 《大规模多视图高斯模型》 (Large Multi-View Gaussian Model, LGM) 恰好提出了这样的解决方案。这种新颖的方法能够在约 5 秒内生成高分辨率、细节丰富的 3D 模型,并通过两项关键创新避开了以往方法的瓶颈:

  1. 高效且具表现力的 3D 表示方法:** 3D 高斯泼溅 (3D Gaussian Splatting)**
  2. 高吞吐量的 非对称 U-Net 骨干网络来生成该表示

一张展示 LGM 从不同输入 (包括传送门、矮人、猫头和蘑菇屋) 生成的各种 3D 模型的图库。该图展示了从单张图像或文本生成的高分辨率输出。

图 1: LGM 可根据文本提示或单视图图像,在约 5 秒内生成高分辨率、细节丰富的 3D 高斯模型。

在本文中,我们将剖析 LGM 论文——探讨先前方法的局限性、使 LGM 如此高效的架构与训练策略,以及它如何凭借惊人效果为快速、高保真 3D 内容创作树立新标准。


对快速、高质量 3D 生成的探索

在深入 LGM 的设计之前,让我们先简要回顾当前 3D 生成领域的两种主流方法:

1. 基于优化的方法 (慢但细节丰富)

这类方法通常使用 分数蒸馏采样 (Score Distillation Sampling, SDS) ,就像一位耐心的雕塑家。它们从一个随机的 3D 形状开始,在强大的 2D 图像扩散模型 (如 Stable Diffusion) 的指导下进行迭代优化。

2D 模型从不同角度“观察”3D 形状,并提出修改建议,使其更好地匹配文本提示。这种方法能产生惊人的细节与创意 (例如 DreamFusionMagic3D) ,但通常需要数分钟到数小时才能完成一个对象。

2. 前馈模型 (快但细节有限)

为克服速度限制,前馈模型通过大规模训练,学习从输入 (如单张图像) 到 3D 表示的直接映射。例如,大型重建模型 (Large Reconstruction Model, LRM) 能从单张图片预测出一个 三平面 (triplane) NeRF。

虽然速度快,但这些方法受制于三平面表示的低分辨率训练限制以及笨重的基于 Transformer 的骨干网络。其结果是: 纹理模糊、几何扁平,并且在未见过的视角 (如背面) 细节较差。


LGM 的洞见:
作者确定了两个主要瓶颈:
(1) *低效的表示方法 *(三平面)
(2) *计算量大 *(Transformer)

解决方案是: 用 高斯泼溅 和精简的 非对称 U-Net 同时替代这两者。


LGM 框架: 强大的两步流程

LGM 的核心是多视图重建模型。它不再从单一模糊视角推测完整 3D 结构,而是利用一组四个一致的多视图图像来组装对象。

推理流程分为两步,如下所示:

LGM 的流程图,展示了文本或图像输入如何首先被送入一个多视图生成模型 (如 MVDream 或 ImageDream) 以生成四个视角。然后,这些视图被传递给 LGM 以生成 3D 高斯模型,该模型可以选择性地转换为网格。

图 2: 推理时,LGM 使用成熟的多视图扩散模型处理图像或文本输入,生成四个正交视角,然后重建高分辨率 3D 高斯模型。网格提取为可选步骤。

步骤 1: 多视图生成 (约 4 秒)

LGM 调用当前最先进的多视图扩散模型:

  • MVDream: 文本到 3D
  • ImageDream: 图像到 3D

输入提示词 (如 “一位老人的头部雕塑”) 或单张图片,这些模型会生成四个正交视角 (前、右、后、左) 。

步骤 2: 高斯生成 (约 1 秒)

将四张图片及其相机位姿元数据输入 LGM 的非对称 U-Net,输出数千个 3D 高斯点,构成完整的对象。


核心引擎: 用于 3D 高斯的非对称 U-Net

LGM 的非对称 U-Net 架构。它接收带有相机光线嵌入的四张图像作为输入,通过带有跨视图自注意力机制的下采样与上采样模块进行处理,并输出多视图高斯特征,最终融合成一个 3D 模型。

图 3: LGM 的 U-Net 使用跨视图自注意力,将四个输入视角的特征融合成一致的 3D 高斯模型。

关键创新:

  1. 增强的输入特征:
    每个像素包含 RGB 颜色以及 **Plücker 光线嵌入 **(光线原点 × 方向,方向) 。

    \[ \mathbf f _ { i } = \{ \mathbf c _ { i }, \mathbf o _ { i } \times \mathbf d _ { i }, \mathbf d _ { i } \} \]
  2. 编码器–解码器骨干网络:
    标准 U-Net 结构通过下采样提取高级特征,再通过上采样与跳跃连接重建细节。

  3. 跨视图自注意力:
    在来自四个视角的拼接特征上施加深层自注意力,构建一致、对齐的几何结构。

  4. 非对称输出:
    输入分辨率为 \(256 \times 256\),输出为 \(128 \times 128\)。
    每个输出像素对应一个高斯点,14 个通道定义其位置、缩放、旋转、不透明度和颜色。所有高斯点融合成最终的 3D 对象。


针对真实场景的鲁棒性训练

训练阶段使用来自 Objaverse 的完美多视图渲染图像,而推理阶段的多视图图像是扩散模型生成的,有缺陷,因此存在领域差距问题。

为此,采用两种数据增强策略:

  1. 网格扭曲 (Grid Distortion)
    随机扭曲非正面视图,模拟多视图间的不一致性。

  2. 轨道相机抖动 (Orbital Camera Jitter)
    随机旋转后三个相机位姿,以模拟位姿不准确。

这些方法迫使 LGM 学习真实的 3D 结构,而非过拟合于干净输入。


超越高斯: 可用网格生成

多数 3D 工作流需要多边形网格,但直接将高斯转换为网格可能导致表面质量较差。

LGM 的网格提取流程:

网格提取流程图,将 3D 高斯转换为 NeRF,再用 Marching Cubes 提取粗网格,优化网格和纹理,最后烘焙生成纹理贴图。

图 4: LGM 通过中间 NeRF 阶段,将高斯转换为平滑且有纹理的网格。

  1. 从高斯渲染图像 (伪真值)
  2. 使用 Instant-NGP 训练一个紧凑 NeRF
  3. 用 Marching Cubes 提取粗网格
  4. 并行优化几何与外观
  5. 烘焙纹理生成最终的 UV 贴图网格

该过程耗时约 1 分钟,可生成可直接用于游戏的资产。


结果: 速度与保真兼得

图像到 3D 对比

从单张图像生成的 3D 模型对比。LGM 在视觉质量和细节上优于 TriplaneGaussian 和 DreamGaussian。

图 5: 与基于高斯的竞品相比,LGM 具备更高保真度,并更好保留输入内容。

LRM 相比,LGM 的多视图输入消除了“背面模糊”问题:

与 LRM 的对比。LGM 在未见视角上也能呈现更佳细节和几何结构,避免了单视图重建常见的背面模糊。

图 6: 四视角输入使 LGM 能重建全角度的细致几何,不同于单视角方法。

文本到 3D 与多样性

文本到 3D 对比,LGM 在文本对齐与视觉质量上优于 Shap-E 和 DreamGaussian。

图 7: LGM 更好地与文本提示对齐,并避免“多正面”问题。

得益于第一步的扩散过程,LGM 保持了输出多样性:

多样性展示。对于“泰迪熊”、“鹦鹉”等提示,模型可生成多种风格、颜色与姿态。

图 8: 改变随机种子,可从同一提示生成多样化的风格、颜色与姿态。


定量评估

用户研究结果显示,在图像到 3D 任务中,LGM 明显优于 DreamGaussian 与 TriplaneGaussian。

表 1: 用户评分 (1–5 分) 显示 LGM 在图像一致性和整体质量上领先。


消融研究

消融研究显示 4 视图输入、数据增强以及高分辨率训练对结果影响显著。

图 9: 4 视图输入、数据增强与高分辨率训练均显著提升性能。

主要发现:

  • 4 视图: 重建背面准确度的关键
  • 数据增强: 应对领域差距下,生成干净几何必不可少
  • 高分辨率: \(512\times512\) 捕捉的细节优于低分辨率模型

局限性与未来方向

LGM 失败案例可视化,显示问题主要源于初始多视图生成步骤,如分辨率受限、3D 不一致、大仰角视图处理不佳。

图 11: 失败案例多因多视图生成质量不足引起。

当前限制:

  • 多视图扩散带来的 3D 不一致 会生成漂浮物或伪影
  • 输入分辨率 上限为 \(256\times256\)
  • 某些源视图存在 大仰角 时会生成异常

模块化设计确保了多视图扩散一旦改进,LGM 的成品效果也将受益。


结论

LGM 通过突破速度与质量长期不可兼得的困境,成为生成式 3D 创作领域的重要里程碑。

核心要点:

  1. 高效表示: 高斯泼溅技术兼顾表现力与渲染速度
  2. 高吞吐骨干: 跨视图注意力的非对称 U-Net
  3. 鲁棒流程: 数据增强策略结合实用的网格提取

成果是:** 仅需 5 秒**,即可从文本或单张图像生成高分辨率、细节丰富的 3D 资产,可直接用于游戏、VR 与创意项目。

随着底层生成模型的不断进步,LGM 等框架预示了一个未来:** 高质量 3D 创作将只需一句提示**。