引言

想象一下,用智能手机快速拍几张自己的照片——正面、背面,也许还有侧面——几秒钟内,你就拥有了一个完全 3D 的数字替身。这不仅仅是一个静态雕像,而是一个完全绑定、可动画的化身,穿着和你一模一样的衣服,随时可以被放入 VR 聊天室或视频游戏中。

多年来,这一直是 3D 计算机视觉领域的“圣杯”。然而,现实往往是在质量和速度之间进行权衡。你要么在工作室里使用昂贵的相机阵列生成高质量的化身 (摄影测量) ,要么使用需要针对每个人花费数小时进行优化训练的神经网络,以学习特定 T 恤的褶皱方式。这两种方式都无法扩展给普通用户使用。

最近一篇题为 FRESA (Feedforward Reconstruction of Personalized Skinned Avatars) 的论文改变了这一局面。它提出了一种以“前馈” (feed-forward) 方式重建个性化化身的方法——这意味着它可以即时运行,无需为每个新人重新训练网络。

FRESA 预告图,展示了手机照片转换为动画化身的过程。

如上图所示,FRESA 接收随意的手机照片,输出的网格不仅捕捉了几何形状,而且已准备好进行运动。在这篇文章中,我们将解构 FRESA 如何解决数字人重建中最困难的问题: 处理宽松的衣服,预测衣服如何运动,并且在 20 秒内完成这一切。

核心问题: 为什么这很难?

要理解 FRESA 的重要性,我们需要了解当前技术的局限性。

大多数可动画化身依赖于 线性混合蒙皮 (Linear Blend Skinning, LBS) 。 这是一种标准的动画技术,其中 3D 网格由底层的骨骼控制。皮肤上的每个顶点根据“蒙皮权重”跟随一根或多根骨骼运动。

当我们从裸体 (容易建模) 转向穿衣人体时,问题就出现了。

  1. 拓扑结构 (Topology): 穿裙子的人与穿牛仔裤的人有着截然不同的形状。标准的人体模板 (如 SMPL) 无法考虑到这一点。
  2. 蒙皮 (Skinning): 如果你使用标准模板权重将裙子顶点连接到“左大腿”骨骼,当化身行走时,裙子会像糖纸一样被拉伸和撕裂。蒙皮权重需要针对服装进行个性化处理。
  3. 速度 (Speed): 现有的解决上述问题的方法通常需要“基于优化”的手段,即人工智能需要花费数小时研究一个人的特定视频来弄清楚其几何形状。

FRESA 通过学习一个 通用先验 (Universal Prior) 解决了这三个问题。该模型不是从头开始学习每个新用户,而是在成千上万的人体数据上进行了训练,以理解衣服通常是什么样子的以及如何运动。

方法概述: FRESA 流程

FRESA 的流程是将复杂问题分解为可管理阶段的大师级典范。作者不再单纯地从 2D 图像预测 3D 形状,而是采用 规范化 (Canonicalization) 继而 重建 (Reconstruction) 的过程。

FRESA 方法概览图。

如图 2 所示,工作流包含三个主要阶段:

  1. 3D 规范化: 获取姿态图像并将其“去姿态” (unposing) 为标准的 T 型姿态。
  2. 通用模型编码: 聚合来自多帧的特征以去除噪声。
  3. 联合解码: 同时预测形状、蒙皮权重和形变。

让我们逐步分解这些步骤。

1. 3D 规范化: “去姿态”的艺术

要学习一个通用模型,你需要进行同类比较。你无法轻易地将坐着的人与跳跃的人进行比较。你需要他们都在一个中性的“规范化”空间 (通常是 T 型姿态) 中。

FRESA 首先获取输入图像 (RGB) 并估计其法线图 (Normal maps,表面细节) 和分割图 (Segmentation maps,身体部位标签)。

接下来是巧妙的部分: 去姿态 (Unposing) 。 系统估计照片中人物的姿态,并在数学上反转骨骼变换,将像素扭曲回 T 型姿态。

其数学基础是逆线性混合蒙皮 (LBS) 运算:

LBS 和逆 LBS 公式。

这里,\(u\) 是去姿态后的顶点,\(\hat{u}\) 是有姿态的顶点。通过应用骨骼变换的逆矩阵 (\(T\)),他们可以将几何体扭曲回中心。

挑战: 要完美地进行去姿态,你需要完美的蒙皮权重。但在我们重建化身之前,我们还没有蒙皮权重!

解决方案: 作者使用了来自标准人体模板的“朴素”蒙皮权重。这导致去姿态后的图像混乱且充满噪点——有时身体部位会被拉伸或扭曲。然而,由于模型是像素对齐的 (左手总是位于左手区域) ,神经网络可以学习在后续步骤中修复这些伪影。

去姿态方法的比较。

如上图 6 所示,“Initial Unposing” (第三列) 看起来有点粗糙。但与试图盲目猜测特征的“Forward Warp” (第二列) 相比,去姿态提供了一个结构基础,模型可以在此基础上打磨出干净的输出 (第四列) 。

2. 通用穿衣人体模型

一旦系统拥有了这些“去姿态”的特征图 (法线和分割) ,它就会将它们输入到一个 多帧编码器 (Multi-Frame Encoder) 中。

为什么要多帧?如果你只有一张照片,你可能看不到人的左侧,或者衬衫上的褶皱看起来可能像是永久的形状变化。通过使用几帧 (\(N=5\) 是一个最佳点) ,模型可以聚合信息。

编码器提取高分辨率特征 (用于褶皱等细节) 和低分辨率特征 (用于整体形状) 并融合它们。

特征提取公式。

然后,这些特征在所有输入帧中进行平均,以创建一个单一的 双平面特征表示 (Bi-plane Feature Representation) (\(B\))。可以将其视为化身的一张压缩的、丰富的“身份证”,其中包含所有几何和语义数据。

双平面特征聚合公式。

下方的图 5 展示了这种聚合的威力。当 \(N=1\) (单帧) 时,网格充满噪点。当你增加帧数 (\(N=5\) 或 \(10\)) 时,系统产生的“臆测”更少,重建更准确,平滑了朴素去姿态带来的伪影。

多帧聚合对网格质量的影响。

3. 联合解码: 形状、权重和运动

这是 FRESA 的核心。大多数方法只输出一个网格。FRESA 使用双平面特征来解码三个不同但耦合的组件。

A. 规范化几何 (\(f_g\))

首先,它使用一种称为 DMTet (Deep Marching Tetrahedra) 的表示法重建静态 T 型姿态网格。这允许生成具有任意拓扑结构的高分辨率表面 (它可以处理敞开的夹克、裙子等) 。

几何解码公式。

在这里,解码器预测有向距离函数 (Signed Distance Function, \(s\)) 和顶点位移 (\(\Delta g\)),以便从网格中雕刻出化身。

几何解码器的网络架构。

B. 个性化蒙皮权重 (\(f_s\))

这是一个改变游戏规则的步骤。FRESA 没有假设化身像裸体人类一样运动,而是预测衣服上每个顶点的特定蒙皮权重 (\(w\))。

蒙皮权重预测公式。

蒙皮权重解码器的网络架构。

这为什么重要?请看下方的图 7。如果你使用标准的“最近邻”权重 (左侧) ,腋下区域会不自然地拉伸。使用 FRESA 的个性化权重 (中间几列) ,运动非常自然,与其真值 (GT) 非常接近。

蒙皮权重的视觉比较。

C. 姿态相关的形变 (\(f_c\))

即使有良好的蒙皮,LBS 也是一种线性操作——它是刚性的。真正的衣服在你移动时会折叠、起皱和滑动。为了捕捉这一点,FRESA 添加了一个形变模块。它查看化身需要执行的 目标姿态,并预测顶点应该如何偏移 (\(\Delta v_t\)) 以产生褶皱或修正体积。

形变特征提取公式。 形变预测公式。

形变解码器的网络架构。

结果在图 8 中可视化。请注意形变模块如何修正了手肘的“橡胶管”外观,并为袖子添加了逼真的垂坠感。

可视化姿态相关形变的效果。

整合所有部分

最终的动画顶点位置是通过组合这三个预测结果计算得出的: 基础网格、姿态相关的形变和个性化蒙皮权重,所有这些都通过 LBS 公式进行处理:

最终动画网格公式。

训练这头巨兽

训练这个系统非常棘手,因为我们通常只有“有姿态”的真值扫描 (人们运动时的 3D 扫描) ,但模型是在“规范化” (T 型姿态) 空间中工作的。对于穿着特定服装的人的完美 T 型姿态,并不存在真值数据。

研究人员使用了 多阶段训练过程 :

  1. 规范化空间阶段: 他们通过使用缓慢、昂贵的优化方法仔细地对 3D 扫描进行去姿态处理,创建了“伪真值 (Pseudo Ground Truths)”。这给了模型一个粗略的目标来学习 T 型姿态几何。 规范化阶段的损失函数。

  2. 有姿态空间阶段: 一旦模型理解了基本形状,他们就进行端到端的训练。他们获取预测的化身,将其重新摆放姿态以匹配特定的视频帧,并将其与该帧的实际 3D 扫描进行比较。 有姿态阶段的损失函数。

他们还对蒙皮权重进行了正则化,以确保它们不会偏离人体模板 太远: 蒙皮权重正则化损失。

最后,使用边缘损失来防止尖刺状的伪影: 边缘损失公式。

实验与结果

为了训练这个通用先验,团队建立了一个名为“Dome Data”的大型数据集,包含使用高端摄影测量设备捕捉的 1100 名受试者。

Dome Data 数据集样本。

定量结果

结果令人印象深刻,尤其是在速度方面。虽然像 Vid2AvatarPuzzleAvatar 这样的基于优化的方法需要数小时 (3 到 8 小时) 来生成化身,但 FRESA 只需 18 秒

比较 FRESA 与现有方法的表格。

在几何质量 (通过法线误差和点到表面距离测量) 方面,FRESA 显著优于现有的前馈方法 (如 ARCH++) ,并能与缓慢的、基于优化的方法相媲美。

定性结果

视觉对比突显了动画质量的差异。在下图中,请看“Ours”列与基线方法的对比。形变更加平滑,在复杂的姿态下,衣服能更好地保持其体积感。

化身的定性比较。

对手机照片的泛化能力

也许最令人兴奋的结果是零样本泛化。该模型是在高质量的 Dome 数据上训练的,但在随意的手机照片上效果出奇地好。它甚至不需要正面和背面的照片完全对齐或在同一时间拍摄。

对手机照片和 RenderPeople 的泛化。

结论

FRESA 代表了 3D 化身制作普及化的一次重大飞跃。通过摆脱针对每个主体的优化,并利用强大的、可学习的通用先验,它使得近乎实时地重建个性化、可动画的化身成为可能。

关键要点:

  • 速度: 前馈架构允许在几秒钟内完成推理,而不是几小时。
  • 个性化: 联合学习蒙皮权重可以实现逼真的化身运动,即使是穿着宽松的衣服。
  • 鲁棒性: 规范化和多帧聚合策略使系统对充满噪点的输入具有弹性。

虽然仍存在局限性——它难以处理极度宽松的衣服 (如长裙) 或需要物理模拟而不仅仅是依赖姿态的复杂头发动态——但 FRESA 为未来铺平了道路,在这个未来里,将数字化的自己带入元宇宙就像拍一张自拍一样简单。

展示头发和宽松服装局限性的失败案例。