数字服装一直是计算机图形学中的一个棘手问题。如果你玩现代电子游戏或观看视觉特效分解,你可能会注意到,虽然面部已经变得与现实难以区分,但服装往往落后一步。它要么看起来像一个僵硬的塑料外壳,要么运动方式怪异,要么缺乏真实织物那种毛茸茸的触感和“柔软度”。
传统上,我们不得不在两个不完美的选项中做出选择: 运动良好但缺乏细节纹理的基于网格的模拟,或者看起来极其逼真但在运动时会分崩离析的体积捕捉。
但是,如果你不需要做选择呢?在斯坦福大学和 Meta Reality Labs 的研究人员发表的一篇引人入胜的新论文 “PGC: Physics-Based Gaussian Cloth from a Single Pose” 中,他们提出了一种混合方法。他们找到了一种方法,只需拍摄人物的单帧多视角快照 , 就能生成可模拟、高度细节化且完全可重照亮的数字服装。
在这篇深度文章中,我们将解构他们如何成功地将物理模拟的结构可靠性与 3D 高斯泼溅 (3D Gaussian Splatting) 的视觉保真度融合在一起。

问题所在: 几何与外观
要理解这篇论文的重要性,我们首先需要了解当前技术的局限性。
网格的局限性
标准的数字服装建立在网格 (meshes) 之上——即定义衬衫或连衣裙形状的三角形网络。网格非常适合物理模拟。我们有数十年的算法 (如 XPBD 或 FEM) ,可以计算出当角色移动时,网格应该如何折叠、起皱和垂坠。
然而,网格仅仅是表面。它们无法解释“绒毛 (fuzz) ”。真正的织物,如羊毛或针织品,拥有扁平三角形无法表现的松散纤维、飞散纤维和微观几何结构。为了让网格看起来像布料,我们通常会在上面粘贴 2D 纹理。这对光滑的丝绸很有效,但对于针织开衫来说,它通常看起来像贴了壁纸的多边形。
高斯的局限性
这就轮到 3D 高斯泼溅 (3DGS) 登场了。3DGS 不使用三角形,而是将场景表示为数百万个 3D 斑点 (高斯球) ,每个都有自己的颜色、不透明度和比例。这种技术在捕捉“毛茸茸”的细节和体积效果方面令人难以置信。
问题在于?高斯球是非结构化的。它们不会像织物一样自然地粘在一起。如果你试图为一个高斯云做动画,它们不知道自己应该是一件衬衫;它们可能会分离或以丑陋的方式扭曲。此外,标准的高斯泼溅会“烘焙 (bake in) ”光照。如果你在明亮的房间里扫描一件衬衫,数字版本将永远看起来像是在明亮的房间里,即使你把角色放在黑暗的洞穴中也是如此。
解决方案: 混合方法
研究人员提出了一种将服装视为混合信号的方法。他们意识到服装外观可以分为两类:
- 低频信息: 由光照引起的整体形状、大褶皱和阴影。这最好由网格和基于物理的渲染 (PBR) 来处理。
- 高频信息: 精细纹理、接缝、杂乱纤维和织物绒毛。这最好由高斯泼溅来处理。
通过结合这两者,PGC (Physics-Based Gaussian Cloth,基于物理的高斯布料) 实现了两全其美。

如上面的概览所示,该过程从单个静态姿态开始。从这次捕捉中,系统构建了一个嵌入网格的高斯表示。这使得系统能够使用物理引擎模拟底层网格,而高斯球则附着在表面上以提供逼真的细节。
核心方法: 解析流程
让我们一步步分解 PGC 的技术架构。
1. 嵌入网格的高斯泼溅 (Mesh-Embedded Gaussian Splats)
标准的 3D 高斯球在空间中自由漂浮。在 PGC 中,每个高斯球都锚定在服装网格上的特定三角形上。
把网格想象成布料的“皮肤”。研究人员在这个网格上采样了数百万个点。在每个点上,他们定义了一个高斯泼溅。关键在于,这些泼溅的位置和旋转是在其父三角形的局部坐标系内定义的。
这是动画的关键。当物理模拟器移动网格三角形时 (因为角色挥动了手臂) ,高斯泼溅会自动随之移动和旋转。
从局部三角形坐标到世界空间的变换由以下方程组处理:

这里,\(r'\) 和 \(\mu'\) 代表全局旋转和位置。通过将这些与网格的旋转矩阵 \(R\) 和位置 \(\tau\) 绑定,视觉细节 (高斯球) 与物理模拟 (网格) 实现了完美同步。
2. 基于物理的渲染 (PBR) 和反照率
如果我们简单地在输入图像上训练高斯球,我们就会遇到“烘焙光照”的问题。腋下的阴影会被画在纹理上。如果角色抬起手臂,阴影仍然会在那里,这看起来是错误的。
为了解决这个问题,研究人员在高斯球旁边实施了一个基于物理的渲染 (PBR) 流程。
他们使用一个固有图像分解网络来估计服装的反照率 (albedo) (即没有光照的原始颜色) 。然后,他们使用可微渲染来估计材质属性,例如粗糙度和光泽。
光泽 (Sheen) 的重要性: 织物与光的相互作用不同于塑料或金属。具体来说,布料表现出“光泽”——在掠射角下的强烈光散射 (想想天鹅绒在边缘看起来有多亮) 。标准的 PBR 模型 (如 Lambertian) 无法捕捉到这一点。
研究人员采用了一种特定的布料着色模型 (基于 Disney BRDF 但进行了改进) 来捕捉这种效果。

在上面的比较中,仔细观察袖子上的红框区域。Lambertian 模型看起来很平坦。PGC 模型 (d) 准确地再现了光线捕捉手臂边缘毛茸茸纤维的方式。
3. 混合渲染方程
这是论文的核心。如何将 PBR 网格渲染与高斯渲染结合起来?
研究人员依赖于频率分解 。 他们假设:
- 远场着色 (低频) : 阴影、全局光照和形状最好由 PBR 网格处理。
- 近场着色 (高频) : 纹理、飞散纤维和编织图案最好由高斯球处理。
他们将最终图像 \(I\) 分解为低通 \(l(I)\) 和高通 \(h(I)\) 分量:

在推理过程中 (生成新帧时) ,系统会渲染场景两次。
首先,它渲染 PBR 网格以获得新的光照和阴影 (存储为 \(S_t\)) 。 其次,它渲染 高斯球以获得精细细节 (存储为 \(G_t\)) 。
最终图像使用以下逻辑拼接在一起:

这里,\(h(G_t)\) 从高斯渲染中提取高频细节 (纹理) ,而 \(l(S_t)\) 从 PBR 渲染中提取光照和颜色。

Figure 6 完美地展示了这一点。看 \(l(S)\) 这一列;它看起来像一个平滑、带阴影的视频游戏模型。再看 \(h(G)\);它看起来像一个幽灵图像,只包含拉链、接缝和织物纹理。当你将它们加在一起时 (\(l(S) + h(G)\)) ,你就得到了一个既逼真又能响应新光照的结果。
实验与结果
研究人员使用四种不同的服装验证了他们的方法: 一件宽松的 T 恤、一件连衣裙、一件抓绒拉链衫和一件针织开衫。设置包括一个拥有 170 个摄像头的多视角捕捉系统,但值得注意的是,他们仅使用单帧进行训练。
消融实验: 为什么要混合?
混合方法真的有必要吗?研究人员将他们的完整方法与“仅 3DGS” (纯高斯) 和“仅 PBR” (纯网格) 进行了比较。

- 仅 3DGS (b): 看腋下区域。它有“烘焙”在纹理中的深色阴影。当手臂移动时,那些黑斑随之移动,看起来像污渍而不是阴影。
- 仅 PBR (c): 这看起来很干净但很假。它缺乏真实布料的深度和毛茸茸感。
- Ours (d): 它保留了高斯球的纹理,但阴影是动态且正确的。
与最先进技术 (SOTA) 的比较
该团队将 PGC 与 SCARF 和 Animatable Gaussians (AG) 等领先方法进行了比较。
结果突出了 PGC 的一个主要优势: 处理宽松衣物。像 AG 这样的方法通常依赖身体的皮肤运动来驱动布料,当布料 (如连衣裙) 松散地挂在身体上时,这种方法就会失效。PGC 使用物理模拟器 (XPBD),所以裙子会自然地摆动和折叠。

在上图中,注意花卉图案。在 SCARF (b) 中,它是模糊的。在 AG (c) 中,它更清晰但几何形状是僵硬的。在 PGC (d) 中,图案清晰,且连衣裙自然变形。
重照亮能力
由于低频分量来自 PBR 模型,服装可以放置在任何环境中。系统本质上“擦除”了捕捉时的原始工作室光照,并允许你应用新的 HDR 环境贴图。

这对于创建数字资产来说是一个巨大的飞跃。通常,如果你在工作室扫描一套戏服,很难将其用于电影的夜景中。PGC 通过解耦纹理与光照解决了这个问题。
定量成功
论文包含了 LPIPS (感知相似度) 和 FSIM (特征相似度) 等指标。在几乎所有指标中,PGC 都优于现有方法,特别是在新姿态下保持视觉质量方面。

结论与启示
PGC: Physics-Based Gaussian Cloth from a Single Pose 代表了向数字虚拟人“圣杯”迈出的重要一步: 资产易于创建 (单张照片捕捉) 、易于动画化 (基于物理) ,且看起来与现实难以区分 (高斯细节) 。
通过成功地将旧的守卫者 (网格) 与新的竞争者 (高斯) 结合起来,作者为数字时尚创造了一个强大的流程。
关键要点:
- 单帧输入: 不需要复杂的视频跟踪来创建这些资产。
- 混合动力: 网格处理物理/光照;高斯处理绒毛/纹理。
- 频率分解: 将图像分解为高频和低频,允许在不丢失细节的情况下进行重照亮。
虽然仍有一些局限性——例如重建在输入照片中完全被遮挡的区域 (如口袋内部) ——但这种方法为更容易获得且逼真的虚拟试穿、视频游戏角色和 VR 体验打开了大门。“塑料感”数字衬衫的日子可能终于屈指可数了。
](https://deep-paper.org/en/paper/2503.20779/images/cover.png)