在计算机图形学的世界里,创建 3D 模型只是成功了一半。形状——或者说几何体 (geometry) ——赋予了物体形态,但材质赋予了它灵魂。物体是闪亮的黄金、暗淡的木头,还是生锈的铁?光线如何在它的划痕上反射?

多年来,创建这些物理上准确的材质一直是一个繁琐的瓶颈。艺术家们通常使用 Substance 3D Painter 等复杂软件手动绘制纹理。虽然最近的 AI 进展已经自动化了 3D 几何体的生成,但它们往往在下一步失败了: 生成高质量的材质。大多数 AI 模型只是简单地将颜色“画”在形状上,将光照和阴影烘焙 (bake) 进去,导致物体移动到新环境时看起来很假。

这就是 Material Anything 的用武之地。由西北工业大学、上海人工智能实验室和南洋理工大学的研究人员开发,这个新框架作为 3D 材质生成的通用解决方案应运而生。无论你拥有的是原始 3D 网格、带有虚假光照的生成物体,还是带有真实世界阴影的 3D 扫描件,Material Anything 都能自动为它披上高质量、基于物理的材质。

Material Anything 能够为各种 3D 输入生成材质。

问题所在: 几何已解,材质未决

为了理解这篇论文的重要性,我们需要了解 基于物理的渲染 (PBR) 。 在现代图形学 (如视频游戏或电影) 中,我们不仅仅需要物体的一张彩色图像。我们需要一系列贴图来告诉渲染引擎光线如何与表面相互作用:

  • 反照率 (Albedo): 物体的基础颜色,不包含任何阴影或高光。
  • 粗糙度 (Roughness): 表面微观不规则性如何散射光线 (哑光 vs. 光泽) 。
  • 金属度 (Metallic): 物体的哪些部分表现得像金属 (导电) ,哪些像电介质 (塑料、木材) 。
  • 凹凸/法线 (Bump/Normal): 细微的表面细节,如裂缝或毛孔,创造深度的错觉。

现有的自动化方法很难分离这些属性。如果你使用标准的 AI 模型为“金色奖杯”制作纹理,它可能会直接将明亮的黄色高光画在纹理上。如果你随后将那个奖杯放在暗室里,那个明亮的高光依然存在,从而破坏了错觉。这被称为“纠缠”光照。

目前的解决方案要么太慢 (基于优化的方法每个物体需要近一个小时) ,要么太脆弱 (需要涉及多个独立 AI 模型的复杂流程) 。Material Anything 提出了一个统一、稳健且快速的解决方案。

Material Anything 框架

Material Anything 的核心思想是将 3D 材质生成重新表述为通过扩散模型解决的图像到材质的估计问题。

该管道处理四种类型的输入:

  1. 无纹理物体 (Texture-less objects): 没有颜色的灰色形状。
  2. 仅含反照率的物体 (Albedo-only objects): 有颜色但没有光照信息的物体。
  3. 生成物体 (Generated objects): 由其他 AI 创建的网格,通常烘焙了“虚假”的光照。
  4. 扫描物体 (Scanned objects): 带有真实但非预期光照/阴影的现实世界扫描件。

Material Anything 管道概览。

如图 2 所示,该过程分为两个主要阶段: 图像空间材质估计UV 空间材质细化

1. 三头材质估计器 (Triple-Head Material Estimator)

研究人员利用预训练的 Stable Diffusion 模型,对其进行调整以预测材质贴图而不是标准图像。然而,标准扩散模型是为 3 个通道 (RGB) 设计的。PBR 材质至少需要 8 个通道的数据 (反照率、粗糙度、金属度、凹凸) 。

为了解决这个问题,作者引入了 三头 U-Net 架构 (Triple-Head U-Net architecture)

三头 U-Net 架构分离了材质组件。

该网络没有将所有材质数据挤压到一个输出中,而是进行了分支。它共享一个通用的“骨干”来理解物体的结构,但在输出端分裂成三个专门的“头”:

  1. 反照率头 (Albedo Head)
  2. 粗糙度-金属度头 (Roughness-Metallic Head)
  3. 凹凸头 (Bump Head)

这种分离确保了颜色的预测不会干扰表面高度或反射率的预测。

“秘方”: 置信度掩码 (Confidence Masks)

训练该模型的一个主要挑战是输入光照的变化。

  • 如果是扫描物体 , 图像包含真实的阴影和高光。模型应该利用这些作为线索来确定粗糙度和形状。
  • 如果输入是无纹理或具有生成光照 (这可能在物理上是不正确的) ,模型就不应该信任图像中的光照线索。

为了处理这个问题,研究人员引入了 置信度掩码 。 这就像一个开关。

  • 高置信度 (1): “信任光照。” 用于真实光照场景。
  • 低置信度 (0): “忽略光照;根据语义上下文生成材质。” 用于无纹理或生成输入。

这允许单个模型在无需重新训练的情况下处理截然不同的输入类型。

渲染损失 (Rendering Loss)

由于材质贴图看起来与自然图像非常不同,直接在其上训练扩散模型可能不稳定。作者实施了 渲染损失 。 在训练期间,预测的材质在随机光照下使用可微渲染器进行渲染。结果与地面实况 (ground truth) 图像进行比较。这迫使模型生成那些在被照亮时看起来确实像该物体的材质。

2. 通过渐进式生成实现一致性

为物体的单个视图预测材质很有用,但 3D 物体有许多面。如果你分别预测正面和背面的材质,接缝处的颜色或风格可能无法匹配。

Material Anything 使用 渐进式材质生成 (Progressive Material Generation) 策略。

渐进式生成在不同视图间建立一致性。

  1. 视图 0: 为第一个视图生成材质。
  2. 投影: 将这些生成的材质投影到 3D 网格上。
  3. 视图 1: 旋转相机。物体的某些部分现在被视图 0 的材质覆盖 (已知区域) ,有些则是新的 (未知区域) 。
  4. 修复 (Inpaint): 扩散模型为新区域生成材质,同时与投影的已知区域保持一致。

这个循环不断重复,直到整个物体被覆盖。

3. UV 空间细化

一旦视图拼接在一起,它们被展开成 2D 的“UV 贴图” (就像将地球仪展平成地图) 。这个过程通常会留下接缝或相机无法看到的小孔。

为了修复这个问题,研究人员使用了第二个扩散模型: 材质细化器 (Material Refiner) 。 该模型直接在 UV 空间中运行。它接收粗糙的、拼接好的纹理贴图并“治愈”它,填充孔洞并平滑接缝,同时保留上一步生成的高质量细节。

材质细化器在 UV 空间中修复孔洞和接缝。

Material3D 数据集

训练深度学习模型需要海量数据。由于拥有完美 PBR 材质的高质量 3D 物体稀缺,团队构建了 Material3D 数据集。他们从 Objaverse 数据集中挑选了 80,000 个拥有完整材质贴图的高质量物体。

关键是,他们不仅仅渲染干净的图像。他们在训练期间模拟了 不一致的光照退化 (模糊、噪声) 。这迫使模型学会如何忽略伪影和不一致性,使其在应用于现实世界或杂乱的 AI 生成输入时更加稳健。

实验与结果

Material Anything 与几种最先进的方法进行了测试,包括纹理生成模型 (如 Text2Tex 和 Paint3D) 以及基于优化的方法 (如 NvDiffRec) 。

视觉质量

差异是惊人的。在下面的对比中,注意其他方法 (Text2Tex, SyncMVD) 本质上是将平面图像粘贴到物体上。然而,Material Anything 明白“水龙头”应该是金属和闪亮的,而“椅子”可能具有木纹的粗糙度。

与纹理生成方法的比较。

与基于优化的方法 (试图通过数千次迭代数学求解材质) 相比,Material Anything 不仅更快 (几分钟 vs. 几小时) ,而且通常能产生更符合逻辑的材质定义。

与基于优化的方法的比较。

定量分析

视觉结果得到了数据的支持。研究人员测量了 FID (Fréchet Inception Distance,分数越低表示图像质量越高) 和 CLIP Score (测量纹理与文本描述的匹配程度) 。

定量比较显示更低的 FID 和更高的 CLIP 分数。

Material Anything 在基于学习的方法中取得了最低的 FID 和最高的 CLIP 分数,表明它生成了最逼真且语义上最准确的材质。

置信度掩码的力量

消融研究揭示了“置信度掩码”是多么关键。没有它,模型很难区分物体上的阴影和深色材质。

置信度掩码的有效性。

在图 10 中,看“W/O confidence mask” (无置信度掩码) 那一列,模型产生的结果很模糊。使用完整模型 (右侧) ,桶上的木纹和苹果的独特表面都清晰可见。

应用: 重打光与编辑

PBR 材质的终极测试是 重打光 (Relighting) 。 因为 Material Anything 分离了反照率、粗糙度和金属属性,生成的物体可以被放置在任何虚拟环境中——日落、工作室或夜景——并且它们会准确地反射光线。

展示物理准确性的重打光结果。

此外,该系统允许进行文本引导的编辑。你可以拿一个简单的桶的网格,提示它是“金桶”或“木桶”,模型不仅会调整颜色,还会相应地调整反射率和表面凹凸。

使用提示词进行材质编辑的灵活性。

结论

Material Anything 代表了 3D 内容创作的一次重大飞跃。通过将材质生成视为条件扩散问题,并解决通道深度 (通过三头 U-Net) 和光照模糊性 (通过置信度掩码) 的具体挑战,作者创建了一个强大的工具,弥合了几何形状与照片级真实感之间的鸿沟。

对于学生和研究人员来说,这篇论文展示了调整预训练 2D 模型用于 3D 任务的力量,并强调了深思熟虑的数据模拟 (如置信度掩码策略) 在处理嘈杂的现实世界输入时的重要性。随着虚拟现实和游戏世界的规模不断扩大,像 Material Anything 这样的工具对于大规模填充逼真的物体将至关重要。