引言
想象一下,戴上像 Apple Vision Pro 这样的增强现实 (AR) 头显,与朋友或虚拟助手的全息投影进行交谈。为了获得身临其境的体验,这个虚拟化身 (Avatar) 需要看起来逼真、动作自然,而且——至关重要的是——必须实时响应。
虽然我们在数字人渲染方面已经取得了令人难以置信的进步,但在高保真图形与移动硬件上的实时性能之间仍然存在巨大的差距。当前的行业标准通常需要巨大的计算能力,或者依赖于难以扩展的人工制作的绑定 (rigs) 。在学术界,像 NeRF (神经辐射场) 这样的神经方法虽然提供了真实感,但对于移动设备来说往往太慢了。
TaoAvatar 应运而生,这是阿里巴巴集团研究人员开发的一个新系统。TaoAvatar 利用了 3D 高斯泼溅 (3DGS) 的速度,并将其与巧妙的“教师-学生”学习框架相结合,创造出既逼真又轻量级的全通过话虚拟化身。

如图 1 所示,该系统将多视角视频序列作为输入,并输出一个可驱动的虚拟化身,该化身能够在高端 AR 设备上以 90 FPS 的帧率运行,并以 2K 立体分辨率进行渲染。在这篇文章中,我们将剖析 TaoAvatar 的架构,解释它如何平衡视觉保真度和计算效率。
背景: 数字人的挑战
要理解 TaoAvatar 的重要性,我们需要看看现有方法的局限性。
参数化模型 (SMPL/SMPLX)
计算机图形学长期以来一直依赖于像 SMPL 或 SMPLX 这样的参数化模型。这些是源自数千次扫描的人体数学模型。它们允许你使用少量参数来控制 3D 网格的姿态 (骨骼) 和形状 (体型) 。
- 优点: 非常容易控制和制作动画。
- 缺点: 它们通常是“裸体”网格。它们难以表现宽松的衣服 (如裙子) 、头发或精细的细节。
隐式与显式表示
最近的 AI 研究已转向 隐式表示 (如 NeRF) ,其中神经网络预测空间中某一点的颜色和密度。虽然这些方法能产生令人惊叹的图像,但“体渲染”的过程 (每像素需沿光线采样数百个点) 在计算上非常昂贵。
3D 高斯泼溅 (3DGS) 是一种 显式表示 。 场景不是由神经网络回答查询来表示,而是由 3D 椭球体 (高斯体) 云表示,每个高斯体都有位置、旋转、缩放、不透明度和颜色。这些可以极快地光栅化 (绘制到屏幕上) 。
问题所在
虽然 3DGS 速度很快,但制作动画却很难。如果一个人移动手臂,数百万个高斯体需要正确移动。简单地将高斯体附着在骨架上 (线性混合蒙皮) 通常会导致伪影,特别是对于应该独立于骨骼结构产生褶皱或摆动的衣服。
TaoAvatar 通过创建一个混合系统解决了这个问题: 它使用一个高度详细的网格作为基础并绑定高斯体,然后使用深度学习来实时处理复杂的非刚性变形 (如布料物理) 。
TaoAvatar 方法
TaoAvatar 的核心理念是将高频细节 (难以快速渲染的部分) 与基础几何体解耦,然后使用高效的神经网络重新整合它们。该流程主要包含三个阶段:
- 模板重建: 创建一个“着装”的 SMPLX++ 模型。
- 教师网络: 一个繁重的高质量网络,用于学习复杂的变形。
- 学生网络: 一个轻量级网络,向教师学习以便在移动设备上运行。
让我们逐一拆解。
1. 着装参数化模板 (SMPLX++)
标准的 SMPLX 模型是不够的,因为它们不包含衣服。如果你把裙子的纹理放在裸体网格上,看起来就像人体彩绘。
TaoAvatar 引入了 SMPLX++ 。 研究人员使用 NeuS2 (一种神经表面重建技术) 重建处于 T-pose (参考帧) 下的人体几何形状。然后,他们分割出非身体组件——如头发、裙子和鞋子——并将它们绑定到标准的 SMPLX 骨架上。

如上图 7 所示,该流程分割网格并应用“自动蒙皮”,将运动权重从身体骨架传递到衣服上。这创建了一个个性化的模板,它不仅可以移动,还包含了服装的几何形状。
为什么这更好?请看下图 8。标准的 SMPLX (左) 完全丢失了裙子。其他方法如 MeshAvatar 试图从头开始创建网格,但失去了对手部和脸部的精确控制。SMPLX++ (右) 在准确捕捉服装体积的同时,保留了标准模型的表现力。

2. 将高斯体绑定到网格
准备好 SMPLX++ 网格后,系统需要添加 3D 高斯体提供的高保真纹理和体积。TaoAvatar 没有让高斯体在空间中自由漂浮,而是将它们绑定到网格三角形上。
对于网格中的每个三角形,系统初始化 \(k\) 个高斯体。至关重要的是,这些高斯体的属性 (位置、旋转、缩放) 是相对于三角形的局部坐标系定义的。这意味着当网格移动时 (例如,虚拟化身举起手臂) ,高斯体也会自然地跟随。
从局部三角形坐标到世界空间的变换由以下方程控制:

这里,\(\mathbf{p}\) 是由重心坐标 \((u, v)\) 确定的三角形表面上的点。\(\mathbf{R}\) 代表三角形的局部旋转框架。
一旦建立了局部位置,就可以计算高斯体的最终世界属性:

在这个方程中:
- \(\mathbf{u}_w\): 高斯体的最终世界位置。
- \(\mathbf{r}_w\): 世界旋转。
- \(\mathbf{s}_w\): 世界缩放 (按平均边长 \(e\) 缩放) 。
- \(\gamma \mathbf{R}\mathbf{n}\): 沿法向量的偏移,赋予表面体积感。
3. 教师-学生框架
这是论文中最具创新性的部分。由骨架驱动的网格可以进行刚性移动,但无法模拟非刚性变形——比如当你转身时裙子的摆动,或者弯腰时衬衫的褶皱。
为了解决这个问题,作者使用了知识蒸馏策略。

参考 图 2 (分支 b) , “教师”是一个基于 StyleUnet 的强大深度学习模型。
- 它以“位置图” (编码姿态网格的图像) 作为输入。
- 它输出 非刚性变形图 。 这本质上是 2D 图像,告诉系统如何偏移高斯体以产生褶皱和摆动。
- 问题: 教师网络庞大且缓慢,无法在 AR 头显上运行。
这就引出了 图 2 (分支 c) : “学生”。 学生是一个微小、轻量级的多层感知机 (MLP)。学生网络不处理繁重的图像图,而是直接获取姿态参数 (关节角度) 和潜在编码 (latent code) 。它试图预测教师会产生的相同变形。
烘焙非刚性变形
将知识从教师转移到学生的过程称为“烘焙”。研究人员训练学生网络来模仿教师的输出。
学生网络架构紧凑,专为速度而设计:

学生预测网格顶点的偏移量 (\(\Delta \bar{\mathbf{v}}_i\))。通过根据姿态修改底层网格形状,绑定的高斯体随之移动,无需繁重的物理模拟即可模拟布料动态。
为了确保学生学习正确,使用了几个损失函数。 非刚性损失 确保学生预测的偏移量与教师的匹配:

此外, 语义损失 用于防止衣服穿入身体 (3D 动画中的常见问题) 。它确保语义标签 (识别哪部分是皮肤 vs. 布料) 保持一致。

这种烘焙过程的影响在 图 12 中清晰可见。请注意“Mesh (w Non.)” (带非刚性变形的网格) 与刚性版本相比,如何正确地使裙子区域变形。

4. 混合变形补偿 (Blend Shape Compensation)
即使有学生网络预测网格变形,一些高频细节 (如微妙的光照变化或非常细微的褶皱) 可能会丢失,因为学生是一个简化模型。
为了修复这个问题,TaoAvatar 引入了 可学习的高斯混合变形 (Learnable Gaussian Blend Shapes) 。 混合变形是面部动画中的标准技术 (例如,“微笑”形状 + “皱眉”形状) 。在这里,作者将其应用于高斯体。
系统根据姿态学习高斯位置 (\(\delta \mathbf{u}\)) 和颜色 (\(\delta \mathbf{c}\)) 的特定偏移。

这里,\(\mathbf{z}_h\) 和 \(\mathbf{z}_b\) 是头部和身体的系数。这些偏移被添加到最终的世界计算中,使虚拟化身能够拥有网格本身无法支持的高度细节化的表情和光照效果。

实验与结果
研究人员使用一个名为 TalkBody4D 的新数据集验证了 TaoAvatar,该数据集侧重于具有丰富手势的全身说话场景。
性能 vs. 质量
最显著的结果是效率。如 表 1 所示,TaoAvatar (Student) 在 RTX4090 上以 156 FPS 的速度运行,而教师模型仅为 16 FPS。关键是,质量下降极小。学生模型在视觉质量 (PSNR/SSIM 指标) 方面优于现有的最先进方法 (如 AnimatableGS 和 GaussianAvatar) ,同时速度要快得多。

视觉对比
从定性上看,TaoAvatar 捕捉到了其他方法遗漏的细节。在 图 3 中,你可以看到竞争方法通常会模糊面部或无法逼真地渲染服装纹理。TaoAvatar 保持了清晰的面部特征和逼真的衣物褶皱。

此外,该方法足够鲁棒,可以处理训练集中未出现的具有挑战性的夸张姿势,如 图 4 所示。

消融实验
系统的每个部分都重要吗?作者进行了消融实验 (移除部分以查看会有什么破坏) 。
- w/o Mesh Non-rigid (无网格非刚性) : 如果移除学生的网格变形,衣服会变得僵硬且不准确 (图 6 中的红框) 。
- w/o Gaussian Non-rigid (无高斯非刚性) : 如果移除混合变形补偿,你会丢失精细的表面细节。

应用: 数字人代理
这项研究的最终目标是部署。作者成功将 TaoAvatar 集成到在 Apple Vision Pro 上运行的流水线中。
该流水线如 图 13 所示,连接了用于文本生成的大语言模型 (LLM)、文本转语音 (TTS) 引擎和 TaoAvatar 渲染引擎。由于学生模型非常轻量,整个“对话”循环——从音频生成到 3D 渲染——都在设备上实时发生。

结论
TaoAvatar 代表了 AR 和 VR 通信向前迈出的重要一步。通过结合参数化网格 (SMPLX++) 的结构控制与 3D 高斯泼溅的渲染速度,并通过教师-学生蒸馏过程连接它们,作者破解了一个难题: 高保真度 + 实时性能 。
在移动硬件上以 90 FPS 运行这些虚拟化身的能力,为全息远程呈现、交互式游戏 NPC 以及感觉真正存在于我们物理空间中的虚拟助手打开了大门。虽然仍存在一些局限性,例如处理极端的服装动态 (如暴风雨中飘逸的长裙) ,但这里展示的“烘焙”方法为移动图形学的未来描绘了一幅蓝图。
](https://deep-paper.org/en/paper/2503.17032/images/cover.png)