为游戏、虚拟现实和电影创作 3D 内容一直以来都是一个劳动密集型的过程,需要技艺精湛的艺术家投入大量时间进行细致的工作。
但如果你只需一张图片或一行文字,就能在几秒钟内生成一个细节丰富的 3D 模型,那会怎样呢?这正是生成式 AI 在 3D 领域的承诺——一个正在飞速发展并经历爆炸性增长的领域。
早期的技术虽然具有革命性,但速度较慢,优化单个 3D 资产通常需要几分钟甚至几小时。近期的 前馈 模型将生成时间缩短到了秒级,但代价是分辨率和几何细节下降。核心挑战一直是如何在速度与质量之间取得平衡。我们是否能兼得两者?
一篇新论文 《大规模多视图高斯模型》 (Large Multi-View Gaussian Model, LGM) 恰好提出了这样的解决方案。这种新颖的方法能够在约 5 秒内生成高分辨率、细节丰富的 3D 模型,并通过两项关键创新避开了以往方法的瓶颈:
- 高效且具表现力的 3D 表示方法:** 3D 高斯泼溅 (3D Gaussian Splatting)**
- 高吞吐量的 非对称 U-Net 骨干网络来生成该表示
图 1: LGM 可根据文本提示或单视图图像,在约 5 秒内生成高分辨率、细节丰富的 3D 高斯模型。
在本文中,我们将剖析 LGM 论文——探讨先前方法的局限性、使 LGM 如此高效的架构与训练策略,以及它如何凭借惊人效果为快速、高保真 3D 内容创作树立新标准。
对快速、高质量 3D 生成的探索
在深入 LGM 的设计之前,让我们先简要回顾当前 3D 生成领域的两种主流方法:
1. 基于优化的方法 (慢但细节丰富)
这类方法通常使用 分数蒸馏采样 (Score Distillation Sampling, SDS) ,就像一位耐心的雕塑家。它们从一个随机的 3D 形状开始,在强大的 2D 图像扩散模型 (如 Stable Diffusion) 的指导下进行迭代优化。
2D 模型从不同角度“观察”3D 形状,并提出修改建议,使其更好地匹配文本提示。这种方法能产生惊人的细节与创意 (例如 DreamFusion、Magic3D) ,但通常需要数分钟到数小时才能完成一个对象。
2. 前馈模型 (快但细节有限)
为克服速度限制,前馈模型通过大规模训练,学习从输入 (如单张图像) 到 3D 表示的直接映射。例如,大型重建模型 (Large Reconstruction Model, LRM) 能从单张图片预测出一个 三平面 (triplane) NeRF。
虽然速度快,但这些方法受制于三平面表示的低分辨率训练限制以及笨重的基于 Transformer 的骨干网络。其结果是: 纹理模糊、几何扁平,并且在未见过的视角 (如背面) 细节较差。
LGM 的洞见:
作者确定了两个主要瓶颈:
(1) *低效的表示方法 *(三平面)
(2) *计算量大 *(Transformer)
解决方案是: 用 高斯泼溅 和精简的 非对称 U-Net 同时替代这两者。
LGM 框架: 强大的两步流程
LGM 的核心是多视图重建模型。它不再从单一模糊视角推测完整 3D 结构,而是利用一组四个一致的多视图图像来组装对象。
推理流程分为两步,如下所示:
图 2: 推理时,LGM 使用成熟的多视图扩散模型处理图像或文本输入,生成四个正交视角,然后重建高分辨率 3D 高斯模型。网格提取为可选步骤。
步骤 1: 多视图生成 (约 4 秒)
LGM 调用当前最先进的多视图扩散模型:
- MVDream: 文本到 3D
- ImageDream: 图像到 3D
输入提示词 (如 “一位老人的头部雕塑”) 或单张图片,这些模型会生成四个正交视角 (前、右、后、左) 。
步骤 2: 高斯生成 (约 1 秒)
将四张图片及其相机位姿元数据输入 LGM 的非对称 U-Net,输出数千个 3D 高斯点,构成完整的对象。
核心引擎: 用于 3D 高斯的非对称 U-Net
图 3: LGM 的 U-Net 使用跨视图自注意力,将四个输入视角的特征融合成一致的 3D 高斯模型。
关键创新:
增强的输入特征:
\[ \mathbf f _ { i } = \{ \mathbf c _ { i }, \mathbf o _ { i } \times \mathbf d _ { i }, \mathbf d _ { i } \} \]
每个像素包含 RGB 颜色以及 **Plücker 光线嵌入 **(光线原点 × 方向,方向) 。编码器–解码器骨干网络:
标准 U-Net 结构通过下采样提取高级特征,再通过上采样与跳跃连接重建细节。跨视图自注意力:
在来自四个视角的拼接特征上施加深层自注意力,构建一致、对齐的几何结构。非对称输出:
输入分辨率为 \(256 \times 256\),输出为 \(128 \times 128\)。
每个输出像素对应一个高斯点,14 个通道定义其位置、缩放、旋转、不透明度和颜色。所有高斯点融合成最终的 3D 对象。
针对真实场景的鲁棒性训练
训练阶段使用来自 Objaverse 的完美多视图渲染图像,而推理阶段的多视图图像是扩散模型生成的,有缺陷,因此存在领域差距问题。
为此,采用两种数据增强策略:
网格扭曲 (Grid Distortion)
随机扭曲非正面视图,模拟多视图间的不一致性。轨道相机抖动 (Orbital Camera Jitter)
随机旋转后三个相机位姿,以模拟位姿不准确。
这些方法迫使 LGM 学习真实的 3D 结构,而非过拟合于干净输入。
超越高斯: 可用网格生成
多数 3D 工作流需要多边形网格,但直接将高斯转换为网格可能导致表面质量较差。
LGM 的网格提取流程:
图 4: LGM 通过中间 NeRF 阶段,将高斯转换为平滑且有纹理的网格。
- 从高斯渲染图像 (伪真值)
- 使用 Instant-NGP 训练一个紧凑 NeRF
- 用 Marching Cubes 提取粗网格
- 并行优化几何与外观
- 烘焙纹理生成最终的 UV 贴图网格
该过程耗时约 1 分钟,可生成可直接用于游戏的资产。
结果: 速度与保真兼得
图像到 3D 对比
图 5: 与基于高斯的竞品相比,LGM 具备更高保真度,并更好保留输入内容。
与 LRM 相比,LGM 的多视图输入消除了“背面模糊”问题:
图 6: 四视角输入使 LGM 能重建全角度的细致几何,不同于单视角方法。
文本到 3D 与多样性
图 7: LGM 更好地与文本提示对齐,并避免“多正面”问题。
得益于第一步的扩散过程,LGM 保持了输出多样性:
图 8: 改变随机种子,可从同一提示生成多样化的风格、颜色与姿态。
定量评估
表 1: 用户评分 (1–5 分) 显示 LGM 在图像一致性和整体质量上领先。
消融研究
图 9: 4 视图输入、数据增强与高分辨率训练均显著提升性能。
主要发现:
- 4 视图: 重建背面准确度的关键
- 数据增强: 应对领域差距下,生成干净几何必不可少
- 高分辨率: \(512\times512\) 捕捉的细节优于低分辨率模型
局限性与未来方向
图 11: 失败案例多因多视图生成质量不足引起。
当前限制:
- 多视图扩散带来的 3D 不一致 会生成漂浮物或伪影
- 输入分辨率 上限为 \(256\times256\)
- 某些源视图存在 大仰角 时会生成异常
模块化设计确保了多视图扩散一旦改进,LGM 的成品效果也将受益。
结论
LGM 通过突破速度与质量长期不可兼得的困境,成为生成式 3D 创作领域的重要里程碑。
核心要点:
- 高效表示: 高斯泼溅技术兼顾表现力与渲染速度
- 高吞吐骨干: 跨视图注意力的非对称 U-Net
- 鲁棒流程: 数据增强策略结合实用的网格提取
成果是:** 仅需 5 秒**,即可从文本或单张图像生成高分辨率、细节丰富的 3D 资产,可直接用于游戏、VR 与创意项目。
随着底层生成模型的不断进步,LGM 等框架预示了一个未来:** 高质量 3D 创作将只需一句提示**。