超越单一大脑——分布式 MLP 如何彻底变革实时人类化身

创造能够实时移动和反应的逼真数字人类，是计算机图形学领域的“圣杯”级挑战之一。无论是为了元宇宙、电子游戏还是虚拟现实远程呈现，我们都希望化身看起来真实——甚至连衬衫上的褶皱都清晰可见——并且能以高帧率渲染。

最近，3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 作为网格 (Meshes) 和神经辐射场 (NeRFs) 的强大替代方案脱颖而出。然而，目前的方法面临着一个令人沮丧的权衡: 你要么拥有一个快速但细节模糊的化身，要么拥有一个高保真但运行速度仅为缓慢的 10 帧每秒 (FPS) 的化身。

在这篇深度文章中，我们将探索论文 “Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs” 中提出的一种新方法。研究人员提出了一种新颖的架构，摒弃了由单一神经网络控制整个身体的想法。相反，他们将工作负载分配给锚定在身体表面的许多小型网络。结果如何？化身能够以 166 FPS 的速度渲染，且细节比以往的最先进方法更加清晰。

对比展示了该方法以 166 FPS 渲染高细节画面，而以前的方法仅为 10 FPS。

问题所在: 速度与质量的权衡

要理解这篇论文的重要性，我们需要先看看神经化身通常是如何构建的。大多数现代方法使用 线性混合蒙皮 (Linear Blend Skinning, LBS) 来处理骨骼的大致运动，并结合神经网络根据当前姿势预测细节 (如衣物褶皱或肌肉隆起) 。

在 3D 高斯泼溅的背景下，化身由成千上万个 3D 高斯体组成——这些椭球体具有位置、旋转、缩放、颜色和不透明度等属性。随着人类的移动，这些属性需要随之改变。

单一 MLP 的瓶颈

以前的方法通常使用单一的多层感知机 (MLP) 或大型卷积神经网络 (CNN) 来预测整个身体的这些变化。

小型单一 MLP: 如果使用小型、快速的网络，它没有足够的“脑力” (容量) 来记忆全身的高频细节，如徽标文字或细微的皱纹。结果是虽然实现了实时性能，但画面模糊。
大型 CNN (例如 AnimatableGaussians) : 如果使用巨大的网络 (如 StyleUNet) ，你可以获得漂亮的细节，但计算量太大，无法实时渲染。

这篇论文的作者提出了一个关键问题: 为什么要强迫一个网络去学习整个身体的外观？

解决方案: 空间分布 MLP

这项工作的核心创新是 空间分布 MLP (Spatially Distributed MLPs) 。研究人员没有将姿势输入到一个中央网络中，而是在人体模型的表面放置了许多不同的“锚点 (Anchor Points) ”。每个锚点都有自己微小的 MLP。

工作原理

想象一下，在一个模型人偶身上贴满 300 张小贴纸。每张贴纸都包含一个专门的神经网络，它只关心其直接附近的皮肤或衣物的外观。

管线概览，展示了锚点、分布 MLP 和插值过程。

如上图 2 所示，该管线的工作流程如下:

输入: 系统获取当前的姿势向量 \(\boldsymbol{\theta}\) (源自骨骼) 。
分布式处理: 该姿势被输入到位于锚点的 MLP 中。
局部预测: 每个 MLP 输出一组特定于该区域的系数。
插值: 因为一个高斯体 (化身的一个独特的点) 很少正好位于锚点之上，它会查找最近的锚点并对它们的输出进行插值。

这种“分而治之”的策略显著减轻了学习负担。每个 MLP 只需要掌握一小块局部外观，从而使系统能够捕捉高频细节，且无需巨大的计算成本。

插值的数学原理

让我们分解一下数学架构。我们有 \(F\) 个锚点。位于第 \(j\) 个锚点的 MLP，表示为 \(\mathcal{E}^j\)，接收姿势 \(\boldsymbol{\theta}\) 并输出锚点系数 \(\mathbf{w}_a^j\):

公式 1: 锚点处的 MLP 输出。

现在，对于位于位置 \(\mathbf{x}_0\) (其中性位置) 的特定高斯体，我们需要确定它的系数。我们不能只选一个锚点，那样会产生接缝。相反，我们使用 反距离加权 (Inverse Distance Weighting) 来对最近的三个锚点的系数进行插值。

公式 2: 通过插值计算高斯系数。

这里，\(\gamma(\mathbf{x}, \mathbf{y})\) 是点之间距离的倒数。这确保了当你远离某个锚点时，其 MLP 的影响会平滑减弱。

基 (Basis) 策略: 防止模糊

这里有一个微妙但关键的设计选择。你可能会想，“为什么不直接让 MLP 输出颜色和不透明度呢？”

如果 MLP 输出原始属性 (如“红色”或“透明度”) ，对其进行插值会平滑数据，实际上会抹杀研究人员试图保留的清晰细节。平滑插值等于模糊。

为了解决这个问题，作者使用了 基-系数 (Basis-Coefficient) 方法:

可学习的基: 每个高斯体存储一组“基”值 (\(\delta\Lambda^k\)) 。可以将这些视为该特定高斯体可能发生的根本变化的字典。这些是自由学习的，可以是亦非常锐利/独特的。
平滑系数: MLP 输出的是系数 (权重) ，这些系数是平滑插值的。

最终的属性偏移 \(\delta\Lambda\) 是由平滑系数加权的清晰基定义的线性组合:

公式 3: 结合系数与基函数。

最后，这些偏移量被添加到中性高斯属性 (\(\Lambda_0\)) 中，以获得当前姿势下的最终外观:

公式 4: 将偏移量添加到中性属性。

通过插值指令 (系数) 而不是结果 (颜色) ，系统在保持身体过渡平滑的同时，允许单个高斯体表现出在其基中定义的锐利、高频细节。

几何控制: 固定高斯体

虽然上述方法解决了外观 (颜色/纹理) 问题，但还存在一个几何挑战。3D 高斯体是非结构化的点。在训练过程中，如果不加约束，它们往往会漂移到身体体积内部或不规则地聚集在一起。当化身做出拉伸皮肤的新颖姿势时，这会导致伪影。

为了解决这个问题，作者引入了 控制点 (Control Points) 。

插图展示了控制点 (粉色) 和高斯体 (绿色) 之间的关系。

与外观锚点类似，控制点也是在网格表面采样的。高斯体的位置偏移不是自由学习的；它是从附近控制点的位置偏移插值而来的。

控制点的位置偏移 \(\delta \mathbf{x}_c\) 是使用类似的基-系数方法计算的:

公式 5: 计算控制点位置偏移。

然后，高斯体的物理位移 \(\delta \mathbf{x}\) 通过对这些控制点进行插值推导得出:

公式 6: 插值控制点偏移以找到高斯位置。

这种约束迫使高斯体作为一个表面层一致地移动，而不是作为一团独立的粒子。它起到了正则化的作用，极大地提高了对新姿势的泛化能力。

训练目标

为了训练这个复杂的系统，研究人员结合使用了多种损失函数。

他们明确强制要求相邻的控制点应具有相似的运动矢量，以防止撕裂或不稳定的几何形状:

公式 7: 控制点平滑损失。

他们还限制了高斯体的大小，以防止它们变成掩盖细节的巨大“团块”:

公式 8: 尺度约束损失。

总损失结合了 L1 重建损失、LPIPS (感知损失) 和上述约束:

公式 9: 总损失函数。

实验与结果

该架构的结果令人印象深刻，特别是在与竞争对手进行“速度与质量”比率对比时。

视觉质量

研究人员将他们的方法与 3DGS-Avatar、MeshAvatar 和 AnimatableGaussians 等最先进的方法进行了比较。

定性比较显示所提出的方法 (Ours) 保留了卓越的细节。

在图 4 中，请注意衬衫上的文字 (上排) 和裤子上的皱纹 (下排) 。

3DGS-Avatar & MeshAvatar: 经常无法捕捉细微的皱纹或文字，导致看起来“褪色”或模糊。
AnimatableGaussians: 产生与地面真值 (GT) 相似的高质量细节，但需要繁重的计算。
Ours (本文方法) : 在视觉保真度上匹配甚至超过 AnimatableGaussians，清晰地捕捉到了文字“LIFE WITHOUT LIMITS”。

定量指标

视觉证据得到了数据的支持。在 LPIPS (越低越好，表示与现实的感知相似度越高) 和 FID (Fréchet Inception Distance) 方面，所提出的方法始终得分最高。

表格显示了在训练姿势下的定量比较。

更重要的是，该方法的泛化能力很好。当化身处于 新颖姿势 (Novel Poses) (训练期间未见过的姿势) 时，它仍能保持稳定性和质量。

表格显示了在新颖姿势下的定量比较。

速度因素

这是决定性的一击。高质量固然好，但如果渲染一帧需要 100 毫秒就不行了。

AnimatableGaussians: ~10 FPS (非实时) 。
Ours: 166 FPS 。

这种巨大的速度提升之所以成为可能，是因为分布式 MLP 小巧且高效。此外，基于位置的插值意味着系统不必为每个像素或高斯体查询一个巨大的网络；它每帧只需计算一次锚点。

消融实验: 验证设计

研究人员进行了消融实验，以证明其复杂管线的每个部分都是必要的。

1. 为什么要使用基 (Basis) ? 在下方的图 6 中，你可以看到如果移除基-系数策略并尝试直接输出属性会发生什么。衬衫的褶皱 (中间面板) 变成了无法辨认的模糊团块。基的使用实现了右图所示的清晰度。

对比显示移除基函数会导致衣物细节丢失。

2. 为什么要使用控制点? 在图 7 中，“w/o control point (无控制点) ”的例子显示了严重的伪影，特别是在背部的徽标周围。如果没有控制点将几何体锚定在表面，高斯体就会漂移，破坏纹理的一致性。

对比显示移除控制点时的几何伪影。

3. MLP 的数量 他们还测试了多少个分布 MLP 是最佳的。太少 (50 个) ，你会丢失细节。太多 (800 个) ，你会浪费计算能力而并未获得太多质量提升。他们最终确定 300 个 MLP 是速度与保真度之间的最佳平衡点 (Sweet Spot) 。

表格对比了不同 MLP 数量下的性能。

结论

论文 “Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs” 展示了数字人类架构的巧妙转变。通过摆脱单体神经网络并采用分布式的、基于位置的方法，作者实现了两全其美: 逼真的细节和高帧率。

关键要点:

分布式更佳: 将身体分解为由小型 MLP 管理的局部区域比使用一个大型网络更高效。
插值系数，而非颜色: 为了在确保平滑过渡的同时保持细节清晰，需要学习一组基并对权重进行插值。
几何很重要: 使用控制点约束高斯位置对于防止动画过程中的伪影至关重要。

这项工作为能够在消费级 VR 硬件中实际使用的高度逼真化身铺平了道路，因为在那里每一毫秒的渲染时间都至关重要。虽然目前的方法没有模拟复杂的布料物理 (如风中飘扬的裙子) ，但它为实时应用中的关节可动人类化身设定了新标准。

使用该方法重建的各种化身的蒙太奇展示。

问题所在: 速度与质量的权衡#

单一 MLP 的瓶颈#

解决方案: 空间分布 MLP#

工作原理#

插值的数学原理#

基 (Basis) 策略: 防止模糊#

几何控制: 固定高斯体#

训练目标#

实验与结果#

视觉质量#

定量指标#

速度因素#

消融实验: 验证设计#

结论#