从雕像到演员：'Make-It-Animatable' 如何在一秒内完成角色绑定

在视频游戏、VR 和元宇宙飞速发展的世界中，3D 内容创作正在蓬勃兴起。我们拥有令人难以置信的工具，可以从文本或图像生成静态 3D 模型，从而产生数以百万计的数字资产。然而，一个巨大的瓶颈依然存在: 运动。

静态 3D 模型本质上就是一座数字雕像。为了让它动起来——让它跑、跳或跳舞——它必须经历两个复杂的过程: 绑定 (rigging) (构建数字骨骼) 和 蒙皮 (skinning) (定义表面如何随骨骼移动) 。传统上，这是熟练技术美术师的领域，每个角色需要耗费数小时的手工劳动。即便是现有的自动化工具，通常也难以处理非标准的身材形状，或者没有以完美“T-pose” (T 字姿势) 站立的角色。

在本文中，我们将深入探讨 Make-It-Animatable , 这是一篇新的研究论文，它提出了一个统一的框架，能够接收任何 3D 类人角色——无论是高分辨率网格 (Mesh) 还是一团 3D 高斯泼溅 (3D Gaussian Splats) ——并在不到一秒的时间内让其准备好进行动画制作。

图 1. Make-It-Animatable 框架接收任意 3D 角色 (左) ，并自动生成骨骼、蒙皮权重和姿态重置，以创建完全可动画化的模型 (右) 。

如图 1 所示，该系统具有极强的鲁棒性，足以处理各种形状，从逼真的人类到风格化的卡通人物，无论它们的输入姿态如何。

瓶颈: 为什么自动绑定如此困难？

在剖析解决方案之前，我们需要了解问题所在。角色动画依赖于 线性混合蒙皮 (Linear Blend Skinning, LBS) 。

LBS 方程

从数学上讲，角色的变形通常被描述为动力学的低秩近似。我们不需要单独计算每个顶点移动的位置，而是控制一小组 骨骼 (Bones) (即骨架) 。角色皮肤上的每个顶点都被分配了 混合权重 (Blend Weights) , 这决定了特定骨骼对该顶点有多大的影响。

代表线性混合蒙皮中使用的动力学低秩近似的方程。

对于一个自动绑定角色的系统，它必须预测:

关节位置: 膝盖、手肘和脊柱在哪里？
静止姿态 (Rest Pose): 如果输入的角色正在弯曲二头肌，系统必须弄清楚手臂伸直时是什么样子 (即静止姿态) 。
混合权重: 当“大腿”骨骼旋转时，网格的哪些部分会移动？

现有的解决方案通常在以下两种方式中失败:

基于模板的方法 (如拟合 SMPL 模型) 鲁棒性强但僵化。如果你的角色是一个头很大腿很短的哥布林，模板将无法匹配。
以前的自动绑定方法 (如 RigNet) 通常要求输入处于标准的 T-pose，或者无法处理手指等精细细节。

Make-It-Animatable 填补了这些空白。如下表 1 所示，它是为数不多的无模板方法之一，可以处理任意姿态，支持手部动画，并且适用于网格和 3D 高斯泼溅 (3DGS) 。

表 1. 本文方法 (Ours) 与现有方法在关键特性上的比较。注意该方法的速度和多功能性。

核心方法: 一个统一的框架

研究人员提出了一个将输入 3D 模型视为粒子集合的框架。这种“基于粒子”的方法非常巧妙，因为它创建了一个统一的表示，无论输入是网格 (顶点) 还是 3D 高斯泼溅 (点) 。

该架构分为三个主要阶段，如下图所示:

形状编码 (Shape Encoding) : 将 3D 几何体转化为神经表示。
解码动画资产 (Decoding Animation Assets) : 预测混合权重和骨骼属性。
结构感知建模 (Structure-Aware Modeling) : 利用运动学逻辑优化骨骼。

图 2. 框架的完整流程。它从粗略定位过渡到精细形状编码，随后使用结构感知 Transformer 解码为权重和骨骼。

让我们逐步分解这些组件。

1. 基于粒子的形状自编码器

第一个挑战是理解几何结构。系统从输入角色的表面采样点。为了处理点采样带来的几何细节损失，研究人员引入了 几何感知注意力 (Geometry-Aware Attention) 。

标准的点云编码器 (如 PointNet++) 关注空间坐标。然而，仅凭坐标可能是模棱两可的——大腿内侧的点在空间上与另一条腿上的点很近，但它们属于不同的骨骼。

为了解决这个问题，模型注入了 表面法线 (surface normal) 信息。但简单地将法线添加到输入向量中是不够的；充满噪声的网格可能会导致过拟合。相反，他们使用了一种注意力机制，允许网络决定何时查看法线。

图 S12. 注意力分数的可视化。较亮的颜色表示网络更依赖法线向量的区域，例如大腿内侧和腋下，以区分不同的身体部位。

如上图所示，网络学会了在空间坐标容易混淆的区域 (如双腿之间的间隙或腋下) 对法线给予高度关注 (黄色区域) 。

编码过程产生了一个神经场 \(\mathbf{F}\)，它是对角色形状的一种紧凑、智能的描述。

2. 由粗到精的形状表示

自动绑定中的一个主要问题是“手指问题”。与身体相比，手指非常微小。如果你均匀地采样点，你可能在手指上只能得到一两个点，这使得预测手部骨骼变得不可能。

作者使用了一种 由粗到精 (Coarse-to-Fine) 的策略来解决这个问题:

粗略阶段: 模型接收均匀采样的输入并预测粗略的关节位置。它还应用 规范变换 (Canonical Transformation) 将角色旋转至面向前方，消除方向上的歧义。
精细阶段 (分层采样) : 利用粗略阶段得出的粗略关节位置，系统重新对角色进行采样，特意在手部等复杂关节附近放置更多的点。

图 S1. 训练策略分为粗略阶段 (均匀采样、旋转增强) 和精细阶段 (分层采样、规范对齐) 。

这确保了神经场 \(\mathbf{F}\) 包含足够的高频细节来准确绑定手指，而无需为整个身体处理数百万个点。

3. 骨骼的结构感知建模

一旦形状被编码，我们如何获得骨骼？一个朴素的方法是要求网络独立回归每个骨骼的位置。然而，骨骼是分层树状结构；手的位置取决于手肘的位置，而手肘又取决于肩膀。

如果独立预测它们，你会得到“破碎”的骨骼，骨头之间无法连接。

研究人员引入了一个 结构感知 Transformer (Structure-Aware Transformer) 。受预测“下一个 token”的大型语言模型 (LLM) 启发，该 Transformer 执行 “下一个子骨骼预测 (next-child-bone prediction) ” 。

图 3. 结构感知 Transformer。它使用掩码因果注意力来确保子骨骼 (如手) 是在父骨骼 (如手臂) 的上下文基础上预测的。

其工作原理如下:

可学习查询: 系统为每个骨骼分配一个可学习的查询向量 (例如，“左前臂查询”) 。
因果注意力: 在预测特定骨骼的属性时，Transformer 会查看形状特征 \(\mathbf{F}\) 以及其父骨骼的潜在特征。
运动学树掩码: 一个掩码确保骨骼只关注其祖先，强制执行骨架的逻辑结构。

这种方法确保了预测的骨骼在拓扑上是有效的，并且肢体连接正确。

4. 解码动画资产

最后，系统需要输出动画所需的实际文件。

混合权重: 一个权重解码器查询每个顶点位置的神经场，以输出连续的权重图。
骨骼属性: 骨骼解码器输出关节的头/尾位置以及 姿态到静止 (Pose-to-Rest) 变换 。

姿态到静止变换至关重要。如果你输入一个将剑举过头顶的角色，系统必须计算所需的旋转，以便将该手臂带回中立的 T-pose。作者发现，将此预测为 对偶四元数 (dual quaternions) (刚性变换的一种数学表示) 比标准的旋转矩阵能产生更平滑的优化效果。

实验结果

研究人员将 Make-It-Animatable 与商业工具 (Mixamo, Meshy, Tripo) 以及最先进的学术方法 (RigNet, TARig) 进行了比较。

视觉质量与鲁棒性

在与 Meshy 和 Tripo 等生成式 AI 工具的比较中，差异显而易见。在下方的图 4 中，请看“Bones” (骨骼) 和“Animating Results” (动画结果) 列。Meshy (顶部) 未能创建手指骨骼，并且在肩膀变形方面表现挣扎。Tripo (底部) 创建了断开的骨骼。Make-It-Animatable (Ours) 生成了包含完整手部关节的干净骨骼。

图 4. 与 Meshy 和 Tripo 的比较。本文提出的方法 (最右侧) 生成了包含手指的完整骨骼，并产生了自然的跑步动画，而其他方法则失败或结果生硬。

该方法也优于之前的学术标准 RigNet 。 RigNet 经常产生混乱的权重 (蒙皮) ，导致网格在移动时撕裂或扭曲。

图 5. 与 RigNet 的比较。本文方法得出的混合权重更加平滑且符合解剖学结构，使得肢体弯曲时的变形效果更好。

处理棘手案例

这篇论文最令人印象深刻的方面之一是其鲁棒性。该系统不仅限于标准人类。它可以处理:

高多边形模型: “悟空”模型 (图 S10, d) 拥有超过 100 万个面。由于该方法是基于粒子的，它可以在几秒钟内处理完毕。
不对称性: 拥有一个巨大的手臂和一个正常手臂的赛博格角色 (图 S10, e) 。
额外结构: 通过微调最后一层，系统甚至可以绑定带有尾巴或长兔耳的角色 (图 S10, g & h) 。

图 S10. 成功处理的挑战性案例展示: (a) 手指，(b) 特殊比例，(c) 复杂的输入姿态，(d) 高多边形网格，(e) 不对称性，以及 (g/h) 尾巴和耳朵等额外肢体。

速度与效率

对于学生和开发者来说，效率是关键。许多神经方法处理单个资产需要数分钟。Make-It-Animatable 实现了亚秒级的推理速度。

图 S9. 推理时间比较。即使顶点数量增加，Make-It-Animatable (绿线) 始终保持在 1 秒以下，而 RigNet (蓝线) 的扩展性较差。

如图表所示，RigNet 的处理时间随着模型分辨率的增加而爆炸式增长 (高分辨率网格需要近 30 分钟) 。而本文提出的方法保持平稳，处理 12,000 个顶点大约只需 0.6 秒 。

结论与未来展望

Make-It-Animatable 代表了自动化角色创作的重大飞跃。通过摆脱僵化的模板并利用基于粒子的结构感知神经网络，作者创造了一个具有以下特点的工具:

快速: 每个角色约 0.5 秒。
灵活: 适用于网格和高斯泼溅；可处理“怪异”的形状和姿态。
高质量: 包含手指并生成干净、可用的蒙皮权重。

对于对计算机图形学和机器学习感兴趣的学生来说，这篇论文突显了结合 几何深度学习 (神经场、点编码器) 与 领域特定知识 (运动学树、对偶四元数) 的强大力量。

其影响是巨大的。我们正在迈向这样一个未来: 用户可以用文字描述一个角色，以 3D 形式生成它，并立即在游戏引擎中控制它——所有这些都在几秒钟内完成。虽然目前的框架专注于类人双足生物，但“额外骨骼”的实验表明，自动绑定蜘蛛、龙和外星人指日可待。

瓶颈: 为什么自动绑定如此困难？#

LBS 方程#

核心方法: 一个统一的框架#

1. 基于粒子的形状自编码器#

2. 由粗到精的形状表示#

3. 骨骼的结构感知建模#

4. 解码动画资产#

实验结果#

视觉质量与鲁棒性#

处理棘手案例#

速度与效率#

结论与未来展望#