两全其美：结合物理与高斯技术打造逼真的数字布料

数字服装一直是计算机图形学中的一个棘手问题。如果你玩现代电子游戏或观看视觉特效分解，你可能会注意到，虽然面部已经变得与现实难以区分，但服装往往落后一步。它要么看起来像一个僵硬的塑料外壳，要么运动方式怪异，要么缺乏真实织物那种毛茸茸的触感和“柔软度”。

传统上，我们不得不在两个不完美的选项中做出选择: 运动良好但缺乏细节纹理的基于网格的模拟，或者看起来极其逼真但在运动时会分崩离析的体积捕捉。

但是，如果你不需要做选择呢？在斯坦福大学和 Meta Reality Labs 的研究人员发表的一篇引人入胜的新论文 “PGC: Physics-Based Gaussian Cloth from a Single Pose” 中，他们提出了一种混合方法。他们找到了一种方法，只需拍摄人物的单帧多视角快照 , 就能生成可模拟、高度细节化且完全可重照亮的数字服装。

在这篇深度文章中，我们将解构他们如何成功地将物理模拟的结构可靠性与 3D 高斯泼溅 (3D Gaussian Splatting) 的视觉保真度融合在一起。

Figure 1: PGC 流程采用单帧静态多视角捕捉，并输出可模拟、可重照亮的服装。

问题所在: 几何与外观

要理解这篇论文的重要性，我们首先需要了解当前技术的局限性。

网格的局限性

标准的数字服装建立在网格 (meshes) 之上——即定义衬衫或连衣裙形状的三角形网络。网格非常适合物理模拟。我们有数十年的算法 (如 XPBD 或 FEM) ，可以计算出当角色移动时，网格应该如何折叠、起皱和垂坠。

然而，网格仅仅是表面。它们无法解释“绒毛 (fuzz) ”。真正的织物，如羊毛或针织品，拥有扁平三角形无法表现的松散纤维、飞散纤维和微观几何结构。为了让网格看起来像布料，我们通常会在上面粘贴 2D 纹理。这对光滑的丝绸很有效，但对于针织开衫来说，它通常看起来像贴了壁纸的多边形。

高斯的局限性

这就轮到 3D 高斯泼溅 (3DGS) 登场了。3DGS 不使用三角形，而是将场景表示为数百万个 3D 斑点 (高斯球) ，每个都有自己的颜色、不透明度和比例。这种技术在捕捉“毛茸茸”的细节和体积效果方面令人难以置信。

问题在于？高斯球是非结构化的。它们不会像织物一样自然地粘在一起。如果你试图为一个高斯云做动画，它们不知道自己应该是一件衬衫；它们可能会分离或以丑陋的方式扭曲。此外，标准的高斯泼溅会“烘焙 (bake in) ”光照。如果你在明亮的房间里扫描一件衬衫，数字版本将永远看起来像是在明亮的房间里，即使你把角色放在黑暗的洞穴中也是如此。

解决方案: 混合方法

研究人员提出了一种将服装视为混合信号的方法。他们意识到服装外观可以分为两类:

低频信息: 由光照引起的整体形状、大褶皱和阴影。这最好由网格和基于物理的渲染 (PBR) 来处理。
高频信息: 精细纹理、接缝、杂乱纤维和织物绒毛。这最好由高斯泼溅来处理。

通过结合这两者，PGC (Physics-Based Gaussian Cloth，基于物理的高斯布料) 实现了两全其美。

Figure 2: 方法概览。系统提取网格用于物理模拟和远场着色，同时嵌入高斯泼溅用于近场细节。

如上面的概览所示，该过程从单个静态姿态开始。从这次捕捉中，系统构建了一个嵌入网格的高斯表示。这使得系统能够使用物理引擎模拟底层网格，而高斯球则附着在表面上以提供逼真的细节。

核心方法: 解析流程

让我们一步步分解 PGC 的技术架构。

1. 嵌入网格的高斯泼溅 (Mesh-Embedded Gaussian Splats)

标准的 3D 高斯球在空间中自由漂浮。在 PGC 中，每个高斯球都锚定在服装网格上的特定三角形上。

把网格想象成布料的“皮肤”。研究人员在这个网格上采样了数百万个点。在每个点上，他们定义了一个高斯泼溅。关键在于，这些泼溅的位置和旋转是在其父三角形的局部坐标系内定义的。

这是动画的关键。当物理模拟器移动网格三角形时 (因为角色挥动了手臂) ，高斯泼溅会自动随之移动和旋转。

从局部三角形坐标到世界空间的变换由以下方程组处理:

基于网格三角形将局部高斯参数映射到世界空间的变换方程。

这里，\(r'\) 和 \(\mu'\) 代表全局旋转和位置。通过将这些与网格的旋转矩阵 \(R\) 和位置 \(\tau\) 绑定，视觉细节 (高斯球) 与物理模拟 (网格) 实现了完美同步。

2. 基于物理的渲染 (PBR) 和反照率

如果我们简单地在输入图像上训练高斯球，我们就会遇到“烘焙光照”的问题。腋下的阴影会被画在纹理上。如果角色抬起手臂，阴影仍然会在那里，这看起来是错误的。

为了解决这个问题，研究人员在高斯球旁边实施了一个基于物理的渲染 (PBR) 流程。

他们使用一个固有图像分解网络来估计服装的反照率 (albedo) (即没有光照的原始颜色) 。然后，他们使用可微渲染来估计材质属性，例如粗糙度和光泽。

光泽 (Sheen) 的重要性: 织物与光的相互作用不同于塑料或金属。具体来说，布料表现出“光泽”——在掠射角下的强烈光散射 (想想天鹅绒在边缘看起来有多亮) 。标准的 PBR 模型 (如 Lambertian) 无法捕捉到这一点。

研究人员采用了一种特定的布料着色模型 (基于 Disney BRDF 但进行了改进) 来捕捉这种效果。

Figure 3: 着色模型比较。注意‘Ours’模型 (d) 如何捕捉到织物边缘特有的光泽，这与 Lambertian (b) 或标准 Disney BRDF (c) 不同。

在上面的比较中，仔细观察袖子上的红框区域。Lambertian 模型看起来很平坦。PGC 模型 (d) 准确地再现了光线捕捉手臂边缘毛茸茸纤维的方式。

3. 混合渲染方程

这是论文的核心。如何将 PBR 网格渲染与高斯渲染结合起来？

研究人员依赖于频率分解 。他们假设:

远场着色 (低频) : 阴影、全局光照和形状最好由 PBR 网格处理。
近场着色 (高频) : 纹理、飞散纤维和编织图案最好由高斯球处理。

他们将最终图像 \(I\) 分解为低通 \(l(I)\) 和高通 \(h(I)\) 分量:

Equation 4: 将图像分解为高频和低频分量。

在推理过程中 (生成新帧时) ，系统会渲染场景两次。

首先，它渲染 PBR 网格以获得新的光照和阴影 (存储为 \(S_t\)) 。其次，它渲染 高斯球以获得精细细节 (存储为 \(G_t\)) 。

最终图像使用以下逻辑拼接在一起:

Equation 7: 结合高频高斯细节与低频 PBR 着色的最终合成方程。

这里，\(h(G_t)\) 从高斯渲染中提取高频细节 (纹理) ，而 \(l(S_t)\) 从 PBR 渲染中提取光照和颜色。

Figure 6: 分解的可视化。l(S) 捕捉平滑的着色和褶皱，而 h(G) 捕捉锐利的纹理和接缝。

Figure 6 完美地展示了这一点。看 \(l(S)\) 这一列；它看起来像一个平滑、带阴影的视频游戏模型。再看 \(h(G)\)；它看起来像一个幽灵图像，只包含拉链、接缝和织物纹理。当你将它们加在一起时 (\(l(S) + h(G)\)) ，你就得到了一个既逼真又能响应新光照的结果。

实验与结果

研究人员使用四种不同的服装验证了他们的方法: 一件宽松的 T 恤、一件连衣裙、一件抓绒拉链衫和一件针织开衫。设置包括一个拥有 170 个摄像头的多视角捕捉系统，但值得注意的是，他们仅使用单帧进行训练。

消融实验: 为什么要混合？

混合方法真的有必要吗？研究人员将他们的完整方法与“仅 3DGS” (纯高斯) 和“仅 PBR” (纯网格) 进行了比较。

Figure 5: 消融研究显示，仅 3DGS 具有烘焙光照伪影，仅 PBR 缺乏纹理深度，而混合方法则取得了成功。

仅 3DGS (b): 看腋下区域。它有“烘焙”在纹理中的深色阴影。当手臂移动时，那些黑斑随之移动，看起来像污渍而不是阴影。
仅 PBR (c): 这看起来很干净但很假。它缺乏真实布料的深度和毛茸茸感。
Ours (d): 它保留了高斯球的纹理，但阴影是动态且正确的。

与最先进技术 (SOTA) 的比较

该团队将 PGC 与 SCARF 和 Animatable Gaussians (AG) 等领先方法进行了比较。

结果突出了 PGC 的一个主要优势: 处理宽松衣物。像 AG 这样的方法通常依赖身体的皮肤运动来驱动布料，当布料 (如连衣裙) 松散地挂在身体上时，这种方法就会失效。PGC 使用物理模拟器 (XPBD)，所以裙子会自然地摆动和折叠。

Figure 7: 定性比较。注意 PGC (d) 比 SCARF (b) 或 AG (c) 更好地保留了清晰的花卉图案和宽松的连衣裙几何形状。

在上图中，注意花卉图案。在 SCARF (b) 中，它是模糊的。在 AG (c) 中，它更清晰但几何形状是僵硬的。在 PGC (d) 中，图案清晰，且连衣裙自然变形。

重照亮能力

由于低频分量来自 PBR 模型，服装可以放置在任何环境中。系统本质上“擦除”了捕捉时的原始工作室光照，并允许你应用新的 HDR 环境贴图。

Figure 8: 重照亮演示。同样的扫描服装被放置在各种室外和室内环境中，融合自然。

这对于创建数字资产来说是一个巨大的飞跃。通常，如果你在工作室扫描一套戏服，很难将其用于电影的夜景中。PGC 通过解耦纹理与光照解决了这个问题。

定量成功

论文包含了 LPIPS (感知相似度) 和 FSIM (特征相似度) 等指标。在几乎所有指标中，PGC 都优于现有方法，特别是在新姿态下保持视觉质量方面。

Table 1: 定量比较表显示 PGC 实现了更高的特征相似度 (FSIM) 和更低的感知误差 (LPIPS)。

结论与启示

PGC: Physics-Based Gaussian Cloth from a Single Pose 代表了向数字虚拟人“圣杯”迈出的重要一步: 资产易于创建 (单张照片捕捉) 、易于动画化 (基于物理) ，且看起来与现实难以区分 (高斯细节) 。

通过成功地将旧的守卫者 (网格) 与新的竞争者 (高斯) 结合起来，作者为数字时尚创造了一个强大的流程。

关键要点:

单帧输入: 不需要复杂的视频跟踪来创建这些资产。
混合动力: 网格处理物理/光照；高斯处理绒毛/纹理。
频率分解: 将图像分解为高频和低频，允许在不丢失细节的情况下进行重照亮。

虽然仍有一些局限性——例如重建在输入照片中完全被遮挡的区域 (如口袋内部) ——但这种方法为更容易获得且逼真的虚拟试穿、视频游戏角色和 VR 体验打开了大门。“塑料感”数字衬衫的日子可能终于屈指可数了。

问题所在: 几何与外观#

网格的局限性#

高斯的局限性#

解决方案: 混合方法#

核心方法: 解析流程#

1. 嵌入网格的高斯泼溅 (Mesh-Embedded Gaussian Splats)#

2. 基于物理的渲染 (PBR) 和反照率#

3. 混合渲染方程#

实验与结果#

消融实验: 为什么要混合？#

与最先进技术 (SOTA) 的比较#

重照亮能力#

定量成功#

结论与启示#