引言

在生成式 AI 飞速发展的今天,从单张 2D 图像创建 3D 对象被视为某种“圣杯”。我们已经见证了巨大的进步,现在的模型可以在几秒钟内将一张猫的照片变成 3D 网格。然而,如果你仔细观察大多数最先进模型的结果,你会发现一个缺陷: 它们从原始相机角度看起来很棒,但在对光照的反应上往往不够真实。

这是因为大多数模型将光照“烘焙”进了纹理中。如果输入图像显示物体左侧有阴影,3D 模型就会将该阴影永久地画在表面上。如果你尝试在游戏或电影中使用该资产,并在左侧放置一个光源,阴影依然存在,从而破坏了真实感的错觉。此外,纹理通常比较模糊,缺乏输入图像中的清晰细节。

这就轮到 ARM (外观重建模型,Appearance Reconstruction Model) 登场了,这是一个由犹他大学、浙江大学、加州大学洛杉矶分校 (UCLA) 和亚马逊的研究人员提出的新框架。ARM 提出了 3D 资产生成方式的根本性转变。它不再试图一次性完成所有工作,而是智能地将几何形状与外观解耦,并将纹理处理过程转移到 UV 空间——这正是专业 3D 艺术家的工作流程。

图 1: ARM 能够从单张图像输入生成高质量、可重照亮的 3D 内容。

如上图 1 所示,ARM 能够重建各种对象——从游戏外设到奇幻盔甲——并具有清晰的纹理,而且至关重要的是,具有能够自然地对光照做出反应的基于物理的材质。在这篇文章中,我们将拆解 ARM 的架构,了解它是如何实现这一飞跃的。

当前 3D 生成面临的问题

要欣赏 ARM 的价值,我们需要先了解当前领域的局限性。

权衡: 速度与质量

大体上,从 2D 生成 3D 有两种方法:

  1. 基于优化的方法 (例如 DreamFusion) : 这些方法从 2D 扩散模型中“蒸馏”出 3D 形状。它们产生的结果很好,但速度极慢,每个对象需要数小时。
  2. 前馈模型 (例如 LRM, LGM) : 这些方法训练一个庞大的神经网络直接输出 3D 表示。它们速度很快 (秒级) ,但往往产生模糊的纹理。

“烘焙”光照问题

大多数前馈模型预测的是“顶点颜色”。它们观察输入图像,简单地将颜色投影到 3D 形状上。它们将物体视为一个发光的表面,而不是一种材质。它们忽略了 基于物理的渲染 (PBR) 属性,例如:

  • 反照率 (Albedo): 物体在没有任何阴影或高光的情况下的基础颜色。
  • 粗糙度 (Roughness): 表面微观不规则性如何散射光线 (例如,哑光橡胶与抛光铬金属的对比) 。
  • 金属度 (Metalness): 材质表现得像金属 (导电并反射颜色) 还是电介质 (塑料、木材) 。

没有这些属性,你就无法对物体进行“重照亮”。这就是 ARM 改变游戏规则的地方。

ARM 框架: 一种解耦的方法

ARM 的核心理念是 解耦 。 试图教一个单一的神经网络同时理解形状、颜色、光照和材质反射率会造成瓶颈。相反,ARM 将流水线分解为专门的阶段。

图 2: ARM 流水线概览。

如图 2 所示,该流水线分为两个主要阶段:

  1. 几何阶段 (GeoRM): 专门专注于构建 3D 形状。
  2. 外观阶段 (GlossyRM & InstantAlbedo): 专门专注于表面外观以及与光线的交互。

让我们分解一下这些组件。

1. GeoRM: 构建形状

第一步使用 GeoRM , 即几何重建模型 (Geometry Reconstruction Model)。它建立在大型重建模型 (LRM) 架构之上,使用 三平面 (Triplanes) 表示。

可以将“三平面”想象为三个正交的 2D 特征图 (xy, xz, yz) ,它们代表一个 3D 体积。神经网络从输入图像预测这些平面。为了获得 3D 形状,模型查询 3D 空间中的任意点,将其投影到这些平面上,并计算密度。

GeoRM 仅被训练用于预测 密度 。 它不关心颜色。通过只关注几何,它使用一种称为可微移动立方体 (DiffMC) 的算法生成干净、高分辨率的网格。

2. GlossyRM: 定义反射率

一旦创建了网格,外观阶段就开始了。研究人员发现,一次性预测所有材质属性会降低质量。因此,他们创建了 GlossyRM 来处理“光泽”部分: 粗糙度金属度

GlossyRM 使用与 GeoRM 类似的架构 (三平面) ,但被训练用于逐顶点预测材质属性。它获取 GeoRM 生成的网格,并将粗糙度和金属度值“绘制”到顶点上。

为什么要分开做?研究人员发现,当他们尝试将反照率 (颜色) 和光泽材质一起预测时,网络很难输出极值 (比如完全光滑或完全金属的表面) ,导致产生褪色的、“平均化”的材质外观。

图 8: 与统一材质预测的比较。 图 8 显示,分离任务 (Ours,即本文方法) 能产生独特的材质属性,而统一方法 (仅 InstantAlbedo) 会导致灰暗、混乱的预测结果。

3. InstantAlbedo: 纹理专家

这可能是 ARM 最具创新性的部分。前面的模块 (GeoRM 和 GlossyRM) 使用了 三平面 。 虽然三平面对于 3D 结构很棒,但在精细纹理细节方面却很糟糕。它们就像一个体素网格;如果你想要清晰的纹理,你需要一个不切实际的巨大网格,这会消耗过多的内存。

InstantAlbedo 在纹理阶段完全抛弃了三平面。相反,它在 UV 纹理空间 中工作。

UV 空间的优势

在 3D 建模中,“UV 展开”是将 3D 对象的表皮剥离并将其平铺在 2D 图像 (纹理贴图) 上的过程。这允许你在图像的像素级别而不是网格的顶点级别上绘制细节。

InstantAlbedo 执行以下步骤 (如下图 3 所示) :

  1. 展开: 它获取来自 GeoRM 的网格,并将其展开为 UV 图集 (atlas charts)。
  2. 反向投影: 它获取输入图像并将其直接投影到 UV 贴图上。如果对象的某个部分在照片中可见,该像素就会进入纹理贴图。
  3. 修复 (Inpainting): 由于输入图像 (通常是由扩散模型生成的 6 个视图) 无法覆盖对象的每一毫米,纹理中会有孔洞。InstantAlbedo 使用 U-Net 结合 快速傅里叶卷积 (FFC) 网络 来智能地填充这些缺失的空隙。

图 3: 在 UV 纹理空间中运行的 InstantAlbedo 概览。

这种方法创建的纹理比三平面能产生的纹理清晰得多,因为分辨率由 2D 图像大小决定,而不是由 3D 网格大小决定。

解决歧义: 材质先验

从图像中提取材质存在一个根本性的科学问题: 歧义性 (Ambiguity)

想象一下看着一张深灰色球体的照片。

  • 它是一个放在暗室里的白球吗?
  • 还是一个放在亮室里的黑球?

在数学上,许多“光照 + 反照率”的组合可以产生相同的像素颜色。这是一个“不适定问题 (ill-posed problem)”。传统的“逆向渲染”试图通过数学方法解决这个问题,但在数据稀疏的情况下往往会失败,导致光照伪影被烘焙进反照率中。

ARM 通过引入 材质先验 (Material Prior) 来解决这个问题。

研究人员利用预训练的图像编码器 (基于 DINO 特征) ,它充当“材质专家”。该编码器观察图像的语义上下文。它“知道”金奖杯应该看起来是黄色且具有金属感的,或者轮胎应该看起来是深色且哑光橡胶质感的。

通过将这些语义特征输入 InstantAlbedo,模型可以做出有根据的猜测,从而将对象的实际颜色与投射在上面的阴影分离开来。

图 6: FFC-Net 和材质先验的消融实验结果。

图 6 (上图) 中的消融研究展示了这一关键贡献。

  • 上排: 没有 FFC-Net (修复模块) ,手提包的不可见区域是一团糟。
  • 下排: 没有 材质先验 , 木槌的头部在反照率贴图中保留了深色阴影 (烘焙光照) 。有了先验 (Ours) ,模型理解木头是纯色的,深色只是阴影,并将其干净地移除。

实验结果

ARM 团队使用 8 个 NVIDIA H100 GPU 在 Objaverse 数据集的子集上训练了他们的模型,耗时约 5 天。但它与竞争对手相比如何呢?

定性比较

视觉检查显示清晰度有显著差异。由于 ARM 在 UV 空间中处理纹理,它避免了与体素/三平面方法 (如 LGM 或 MeshFormer) 相关的模糊问题。

图 4: 与其他最先进方法的定性比较。

在图 4 中,仔细观察头盔上的“Supreme”标志或汉堡广告牌上的文字。在竞争方法 (InstantMesh, MeshFormer) 中,这些细节是难以辨认的斑点。在 ARM 中,文字和复杂的图案清晰可见。

重照亮测试

PBR 重建的终极测试是改变环境。如果光照被“烘焙”进去了,物体在新环境中看起来就会很奇怪。

图 5: PBR 比较和重照亮结果。

图 5 将 ARM 与另一种近期方法 SF3D 进行了比较。注意“Diffuse” (漫反射/反照率) 列。SF3D 的漫反射贴图上仍然画着明亮的高光和深色的阴影。ARM 的漫反射贴图是平坦且均匀的——这正是你想要的。

当放置在新的光照环境中 (“Relit Image”/重照亮图像) 时,ARM 的奖杯准确地反射了新环境。SF3D 的奖杯看起来像是带着旧的光照在发光,产生了一种令人困惑的视觉效果。

定量指标

团队在标准数据集 (GSO 和 OmniObject3D) 上评估了 ARM。他们测量了几何精度 (倒角距离) 和外观质量 (PSNR/SSIM) 。

表 1: 单图像转 3D 的定量结果。

如表 1 所示,ARM 在各项指标上均取得了最先进的结果。它在 PSNR (峰值信噪比) 和 SSIM (结构相似性指数) 方面得分最高,表明其渲染视图比以前的前馈模型更符合真实值。

结论

ARM 代表了 AI 3D 生成技术的成熟。我们要超越仅仅获得一个形状的“惊叹因素”,迈向生产流水线的实际需求: 保真度、可编辑性和物理真实感

通过策略性地分离形状重建 (GeoRM)、材质属性 (GlossyRM) 和表面颜色 (InstantAlbedo),ARM 绕过了以前架构的瓶颈。转向 UV 空间处理纹理允许捕捉三平面无法有效捕捉的高频细节。此外,语义材质先验的使用有助于解决区分油漆与阴影这一古老的计算机视觉难题。

尽管挑战依然存在——特别是关于上游扩散模型生成的多视图图像的一致性——ARM 为从单张图像创建可重照亮的、游戏就绪的资产提供了一个强大的框架。对于计算机视觉领域的学生和研究人员来说,ARM 是一个完美的例子,展示了如何将领域特定知识 (如 UV 映射和 PBR 理论) 与深度学习相结合,以解决复杂的维度问题。