在视频游戏、VR 和元宇宙飞速发展的世界中,3D 内容创作正在蓬勃兴起。我们拥有令人难以置信的工具,可以从文本或图像生成静态 3D 模型,从而产生数以百万计的数字资产。然而,一个巨大的瓶颈依然存在: 运动 。
静态 3D 模型本质上就是一座数字雕像。为了让它动起来——让它跑、跳或跳舞——它必须经历两个复杂的过程: 绑定 (rigging) (构建数字骨骼) 和 蒙皮 (skinning) (定义表面如何随骨骼移动) 。传统上,这是熟练技术美术师的领域,每个角色需要耗费数小时的手工劳动。即便是现有的自动化工具,通常也难以处理非标准的身材形状,或者没有以完美“T-pose” (T 字姿势) 站立的角色。
在本文中,我们将深入探讨 Make-It-Animatable , 这是一篇新的研究论文,它提出了一个统一的框架,能够接收 任何 3D 类人角色——无论是高分辨率网格 (Mesh) 还是一团 3D 高斯泼溅 (3D Gaussian Splats) ——并在不到一秒的时间内让其准备好进行动画制作。

如图 1 所示,该系统具有极强的鲁棒性,足以处理各种形状,从逼真的人类到风格化的卡通人物,无论它们的输入姿态如何。
瓶颈: 为什么自动绑定如此困难?
在剖析解决方案之前,我们需要了解问题所在。角色动画依赖于 线性混合蒙皮 (Linear Blend Skinning, LBS) 。
LBS 方程
从数学上讲,角色的变形通常被描述为动力学的低秩近似。我们不需要单独计算每个顶点移动的位置,而是控制一小组 骨骼 (Bones) (即骨架) 。角色皮肤上的每个顶点都被分配了 混合权重 (Blend Weights) , 这决定了特定骨骼对该顶点有多大的影响。

对于一个自动绑定角色的系统,它必须预测:
- 关节位置: 膝盖、手肘和脊柱在哪里?
- 静止姿态 (Rest Pose): 如果输入的角色正在弯曲二头肌,系统必须弄清楚手臂伸直时是什么样子 (即静止姿态) 。
- 混合权重: 当“大腿”骨骼旋转时,网格的哪些部分会移动?
现有的解决方案通常在以下两种方式中失败:
- 基于模板的方法 (如拟合 SMPL 模型) 鲁棒性强但僵化。如果你的角色是一个头很大腿很短的哥布林,模板将无法匹配。
- 以前的自动绑定方法 (如 RigNet) 通常要求输入处于标准的 T-pose,或者无法处理手指等精细细节。
Make-It-Animatable 填补了这些空白。如下表 1 所示,它是为数不多的无模板方法之一,可以处理任意姿态,支持手部动画,并且适用于网格和 3D 高斯泼溅 (3DGS) 。

核心方法: 一个统一的框架
研究人员提出了一个将输入 3D 模型视为粒子集合的框架。这种“基于粒子”的方法非常巧妙,因为它创建了一个统一的表示,无论输入是网格 (顶点) 还是 3D 高斯泼溅 (点) 。
该架构分为三个主要阶段,如下图所示:
- 形状编码 (Shape Encoding) : 将 3D 几何体转化为神经表示。
- 解码动画资产 (Decoding Animation Assets) : 预测混合权重和骨骼属性。
- 结构感知建模 (Structure-Aware Modeling) : 利用运动学逻辑优化骨骼。

让我们逐步分解这些组件。
1. 基于粒子的形状自编码器
第一个挑战是理解几何结构。系统从输入角色的表面采样点。为了处理点采样带来的几何细节损失,研究人员引入了 几何感知注意力 (Geometry-Aware Attention) 。
标准的点云编码器 (如 PointNet++) 关注空间坐标。然而,仅凭坐标可能是模棱两可的——大腿内侧的点在空间上与另一条腿上的点很近,但它们属于不同的骨骼。
为了解决这个问题,模型注入了 表面法线 (surface normal) 信息。但简单地将法线添加到输入向量中是不够的;充满噪声的网格可能会导致过拟合。相反,他们使用了一种注意力机制,允许网络 决定 何时查看法线。

如上图所示,网络学会了在空间坐标容易混淆的区域 (如双腿之间的间隙或腋下) 对法线给予高度关注 (黄色区域) 。
编码过程产生了一个神经场 \(\mathbf{F}\),它是对角色形状的一种紧凑、智能的描述。
2. 由粗到精的形状表示
自动绑定中的一个主要问题是“手指问题”。与身体相比,手指非常微小。如果你均匀地采样点,你可能在手指上只能得到一两个点,这使得预测手部骨骼变得不可能。
作者使用了一种 由粗到精 (Coarse-to-Fine) 的策略来解决这个问题:
- 粗略阶段: 模型接收均匀采样的输入并预测粗略的关节位置。它还应用 规范变换 (Canonical Transformation) 将角色旋转至面向前方,消除方向上的歧义。
- 精细阶段 (分层采样) : 利用粗略阶段得出的粗略关节位置,系统重新对角色进行采样,特意在手部等复杂关节附近放置更多的点。

这确保了神经场 \(\mathbf{F}\) 包含足够的高频细节来准确绑定手指,而无需为整个身体处理数百万个点。
3. 骨骼的结构感知建模
一旦形状被编码,我们如何获得骨骼?一个朴素的方法是要求网络独立回归每个骨骼的位置。然而,骨骼是分层树状结构;手的位置取决于手肘的位置,而手肘又取决于肩膀。
如果独立预测它们,你会得到“破碎”的骨骼,骨头之间无法连接。
研究人员引入了一个 结构感知 Transformer (Structure-Aware Transformer) 。 受预测“下一个 token”的大型语言模型 (LLM) 启发,该 Transformer 执行 “下一个子骨骼预测 (next-child-bone prediction) ” 。

其工作原理如下:
- 可学习查询: 系统为每个骨骼分配一个可学习的查询向量 (例如,“左前臂查询”) 。
- 因果注意力: 在预测特定骨骼的属性时,Transformer 会查看形状特征 \(\mathbf{F}\) 以及 其 父 骨骼的潜在特征。
- 运动学树掩码: 一个掩码确保骨骼只关注其祖先,强制执行骨架的逻辑结构。
这种方法确保了预测的骨骼在拓扑上是有效的,并且肢体连接正确。
4. 解码动画资产
最后,系统需要输出动画所需的实际文件。
- 混合权重: 一个权重解码器查询每个顶点位置的神经场,以输出连续的权重图。
- 骨骼属性: 骨骼解码器输出关节的头/尾位置以及 姿态到静止 (Pose-to-Rest) 变换 。
姿态到静止变换至关重要。如果你输入一个将剑举过头顶的角色,系统必须计算所需的旋转,以便将该手臂带回中立的 T-pose。作者发现,将此预测为 对偶四元数 (dual quaternions) (刚性变换的一种数学表示) 比标准的旋转矩阵能产生更平滑的优化效果。
实验结果
研究人员将 Make-It-Animatable 与商业工具 (Mixamo, Meshy, Tripo) 以及最先进的学术方法 (RigNet, TARig) 进行了比较。
视觉质量与鲁棒性
在与 Meshy 和 Tripo 等生成式 AI 工具的比较中,差异显而易见。在下方的图 4 中,请看“Bones” (骨骼) 和“Animating Results” (动画结果) 列。Meshy (顶部) 未能创建手指骨骼,并且在肩膀变形方面表现挣扎。Tripo (底部) 创建了断开的骨骼。Make-It-Animatable (Ours) 生成了包含完整手部关节的干净骨骼。

该方法也优于之前的学术标准 RigNet 。 RigNet 经常产生混乱的权重 (蒙皮) ,导致网格在移动时撕裂或扭曲。

处理棘手案例
这篇论文最令人印象深刻的方面之一是其鲁棒性。该系统不仅限于标准人类。它可以处理:
- 高多边形模型: “悟空”模型 (图 S10, d) 拥有超过 100 万个面。由于该方法是基于粒子的,它可以在几秒钟内处理完毕。
- 不对称性: 拥有一个巨大的手臂和一个正常手臂的赛博格角色 (图 S10, e) 。
- 额外结构: 通过微调最后一层,系统甚至可以绑定带有尾巴或长兔耳的角色 (图 S10, g & h) 。

速度与效率
对于学生和开发者来说,效率是关键。许多神经方法处理单个资产需要数分钟。Make-It-Animatable 实现了亚秒级的推理速度。

如图表所示,RigNet 的处理时间随着模型分辨率的增加而爆炸式增长 (高分辨率网格需要近 30 分钟) 。而本文提出的方法保持平稳,处理 12,000 个顶点大约只需 0.6 秒 。
结论与未来展望
Make-It-Animatable 代表了自动化角色创作的重大飞跃。通过摆脱僵化的模板并利用基于粒子的结构感知神经网络,作者创造了一个具有以下特点的工具:
- 快速: 每个角色约 0.5 秒。
- 灵活: 适用于网格和高斯泼溅;可处理“怪异”的形状和姿态。
- 高质量: 包含手指并生成干净、可用的蒙皮权重。
对于对计算机图形学和机器学习感兴趣的学生来说,这篇论文突显了结合 几何深度学习 (神经场、点编码器) 与 领域特定知识 (运动学树、对偶四元数) 的强大力量。
其影响是巨大的。我们正在迈向这样一个未来: 用户可以用文字描述一个角色,以 3D 形式生成它,并立即在游戏引擎中控制它——所有这些都在几秒钟内完成。虽然目前的框架专注于类人双足生物,但“额外骨骼”的实验表明,自动绑定蜘蛛、龙和外星人指日可待。
](https://deep-paper.org/en/paper/2411.18197/images/cover.png)