一张拼贴图,展示了 TRELLIS 根据文本和图像提示生成的高质量 3D 资产,包括一个木制棚架、一台老式相机和可编辑的货车。

图 1: TRELLIS 根据文本或图像提示生成的多种格式的高质量 3D 资产。展示了其多功能的生成能力、通过 3D 高斯或辐射场实现的生动外观、通过网格实现的精细几何形状以及灵活的编辑功能。

由人工智能生成的内容世界一直由令人惊叹的 2D 图像主导。像 DALL-E 和 Midjourney 这样的模型可以凭借简单的文本提示,生成逼真的场景和奇幻的艺术作品。
第三维度呢?

尽管 3D 生成技术取得了令人瞩目的进步,但它长期以来一直给人落后于 2D 技术一步的印象。这是为什么呢?

最大的障碍之一是表示问题。与整齐存储为像素网格的 2D 图像不同,3D 对象有多种形式: 用于清晰几何的网格 (meshes)、用于体积表示的体素 (voxels)、用于照片级渲染的辐射场 (NeRFs)3D 高斯 (3D Gaussians)。每种格式都有其独特的优点和局限性,而大多数生成模型只专注于一种,从而限制了通用性。一个擅长 NeRF 的模型可能很难生成可直接用于游戏引擎的干净网格。

这种碎片化使得构建一个统一、通用的 3D 生成系统异常困难。如果有一种通用语言——一种可以流畅转换为任何格式的表示方法,会怎么样?

这正是论文 《用于可扩展和多功能 3D 生成的结构化 3D 隐空间》 所要解决的挑战。作者引入了一种名为 结构化隐空间 (Structured Latents, SLAT)统一隐空间表示,以及一个基于它构建的模型家族——TRELLIS。该系统可以根据文本或图像生成高度精细的 3D 资产,并且至关重要的是,可以输出多种格式——网格、3D 高斯或辐射场——所有这些都源于相同的底层数据。


3D 表示的“动物园”: 为何我们需要一个统一的框架

在领会 SLAT 的新颖前,让我们先看看当前的表示格局:

  • 网格 (Meshes): 游戏、动画和 CAD 的基础格式。通过顶点、边和面来构建精确、清晰的几何体。在结构表现上很出色,但生成精致的材质可能具有挑战。
  • 辐射场 (NeRFs): 将 3D 坐标与观察方向映射到颜色/密度上的连续函数。非常适合照片级的视图合成,但难以从中提取干净、可编辑的几何体。
  • 3D 高斯 (3D Gaussians): 将场景表示为具备颜色、不透明度和形状的“斑点”云。支持实时、高质量渲染,但与 NeRF 类似,同样不易提取干净的表面。

由于这些不同,方法各自专精——网格模型擅长几何,但需要额外纹理生成;NeRF 或高斯模型能产生丰富视觉效果,但无法生成干净网格。
TRELLIS 认为,答案不是完善某一种格式,而是创建一个可轻松转换为任何格式的基础表示


核心思想: 结构化隐空间 (SLAT)

SLAT 通过两个组件优雅地同时捕捉几何与外观信息:

  1. 稀疏结构 (Sparse Structure): 一个 3D 网格,标记出与物体表面相交的活动体素 \(p_i\)。该支架勾勒出粗略几何形态。即使在高分辨率下也高效,因为大多数体素为空。
  2. 局部隐向量 (Local Latents): 对于每个活动体素,都有一个高维特征向量 \(z_i\),用于编码该局部区域的细微几何与纹理细节。

数学表示为:

一个数学方程,将结构化隐空间 z 定义为一组 (zi, pi) 对。

方程 1: SLAT \(\boldsymbol{z} = \{(\boldsymbol{z}_i, \boldsymbol{p}_i)\}_{i=1}^L\) 捕捉了活动体素的位置及其关联的局部特征向量。

3D 网格的大部分位置为空,因此活动体素的数量 \(L\) 远小于 \(N^3\)。这种稀疏而丰富的结构使 SLAT 在高保真度的同时保持高效率: 支架定义形态,而由强大视觉模型提取的隐向量提供细节。


使用 SLAT 进行学习和生成: TRELLIS 流水线

TRELLIS 方法的概览图,展示编码与解码流水线以及两阶段的生成流水线。

图 2: TRELLIS 概览 — *编码与解码: * SLAT 通过 DINOv2 提取的多视图特征来编码几何与外观。*生成: * 两个矫正流 Transformer 分两步生成 SLAT——先生成结构,再生成隐向量。

1. 将 3D 资产编码为 SLAT

为训练模型,TRELLIS 将已有的 3D 数据转换为 SLAT 形式:

  1. 渲染多视图图像: 每个物体渲染数百个视图。
  2. 提取视觉特征: 使用预训练的 DINOv2 编码器,获得强特征表示和 3D 感知能力。
  3. 按体素聚合: 将每个活动体素映射到其在所有渲染特征图上的位置,并对对应特征求平均。
  4. 稀疏 VAE 压缩: 将聚合特征输入稀疏变分自编码器 (Sparse Variational Autoencoder),压缩为归一化的局部隐向量 \(z_i\)

2. 将 SLAT 解码为多种格式

一旦编码完成,SLAT 可通过专用解码器转换为多种标准 3D 格式:

  • 3D 高斯 — \(\mathcal{D}_{GS}\) 输出高斯属性 (位置偏移、尺度、不透明度、旋转、颜色) 。
    3D 高斯解码器的方程。

  • 辐射场 — \(\mathcal{D}_{RF}\) 生成经过 CP 分解的局部体积,并组装成全局辐射场。
    辐射场解码器的方程。

  • 网格 — \(\mathcal{D}_{M}\) 映射到详细的符号距离场 (Signed Distance Field),并通过 FlexiCubes 提取网格。
    网格解码器的方程。

所有解码器共享一个针对稀疏输入优化的 Transformer 主干网络。只有最终输出层因目标格式不同而调整,这也证明了 SLAT 的通用性。

稀疏 VAE、流 Transformer 和稀疏流 Transformer 的神经网络架构图。

图 3: 架构 — 稀疏 VAE (编码/解码) 、流 Transformer (\(\mathcal{G}_S\))、稀疏流 Transformer (\(\mathcal{G}_L\)) 。


3. 生成新的 3D 资产

TRELLIS 采用矫正流 (Rectified Flow) 生成方法,训练模型逐步将噪声转化为 SLAT。生成过程遵循 SLAT 的结构:

  1. 阶段 1: 流 Transformer \(\mathcal{G}_{S}\) 根据文本/图像提示生成稀疏结构 \(p_i\)
  2. 阶段 2: 稀疏流 Transformer \(\mathcal{G}_{L}\) 生成局部隐向量 \(z_i\),为结构填充细节。

条件流匹配 (CFM) 损失方程。

方程 5: 条件流匹配目标函数指导矫正流训练。

生成的 SLAT 会被解码为所需格式——高分辨率网格、细致的高斯点云或照片级辐射场。


结果: TRELLIS 的表现

TRELLIS 在 50 万个精选 3D 资产 上进行训练,使用 GPT-4o 生成的标题作为文本提示,模型规模可扩展到 20 亿参数

重建保真度

由 TRELLIS 生成的高质量 3D 资产画廊,包括木屋、复古收音机和机器人。

图 4: TRELLIS 从多样化提示中生成了生动的纹理、精确的几何形态和连贯的细节。

显示重建保真度的表格,其中“Ours”在所有指标上表现最佳。

表 1: SLAT 在外观 (PSNR↑, LPIPS↓) 和几何 (CD↓, F-score↑) 重建上均达到业界顶尖,优于其他隐空间表示方法。


生成质量对比

不同方法生成的 3D 模型视觉对比。

图 5: 定性比较 — TRELLIS 呈现更清晰连贯的几何形态和生动纹理,其他方法则存在形变或细节平淡的问题。

定量对比表,显示 TRELLIS 在各项指标上表现领先。

表 2: Toys4k 数据集定量性能 — 在文本到 3D 和图像到 3D 任务中,TRELLIS 在 CLIP (提示一致性) 、FD 和 KD 指标上均处于领先。


用户研究

显示用户对 TRELLIS 偏好的甜甜圈图。

图 6: 用户偏好 — 在超过 100 名参与者中,TRELLIS 分别在文本提示和图像提示任务中被选择了 67.1% 和 94.5% 的次数。


超越生成: 强大的编辑与变体

SLAT 的解耦设计实现了无需微调的创意控制:

  • 细节变换: 保持结构 \(p_i\) 不变,用新提示重新运行阶段 2,生成全新纹理/材质。
  • 区域定向编辑: 在目标体素区域内重新生成隐向量,其余部分保持不变。

变体生成与区域特定编辑示例。

图 7: 上 — 相同结构 (机器人、房屋) 的不同风格。下 — 在连贯性保持下,顺序替换/移除/添加部件。


结论与展望

结构化 3D 隐空间框架与 TRELLIS 架构在多功能、高质量 3D 生成领域实现了重要突破:

  • 统一表示: 稀疏支架 + 丰富的局部细节特征。
  • 可扩展生成模型: 接收文本或图像输入,可灵活解码为网格、高斯或 NeRFs。
  • 交互式创意: 支持直观、无需微调的编辑工作流。

TRELLIS 预示着一种类似 2D 隐空间扩散模型的标准化 3D 生成范式,并为游戏、动画、数字孪生与元宇宙体验提供强大工具。尽管仍有局限——如两阶段生成带来的开销,以及图像提示中固有的光照因素——但它已为可扩展、格式无关的 3D 创作奠定了坚实基础。