引言

在 AR/VR 和元宇宙飞速发展的背景下，对个性化、照片级真实的 3D 化身 (Avatar) 的需求正在激增。我们都渴望拥有一个数字孪生体，它不仅看起来像我们，还能像我们在现实世界中一样轻松更换服装。

虽然 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 的最新进展已经实现了静态场景令人难以置信的实时渲染，但编辑这些表示形式仍然是一个巨大的难题。如果你曾尝试过“编辑”点云，你就会明白其中的痛苦: 它缺乏结构。另一方面，传统的网格 (Mesh) 虽然易于编辑，但往往难以捕捉现实世界中服装和头发那种模糊、复杂的细节。

TetGS (四面体约束高斯泼溅) 应运而生，这是北京大学和阿里巴巴集团的研究人员提出的一种新方法。该框架试图弥合结构控制与照片级渲染之间的鸿沟。

图 1. 给定一段短 RGB 视频，该方法可以通过文本或图像引导生成可编辑的 3D 化身。

如图 1 所示，该方法接收一段简单的单目视频，允许用户执行文本引导或图像引导的编辑——例如将毛衣换成校队夹克或风衣——同时保持高保真度。在这篇文章中，我们将详细拆解 TetGS 的工作原理，它为何能解决“不可控高斯”的问题，以及它是如何实现如此清晰的效果的。

问题所在: 无结构泼溅的混乱

要理解这篇论文的重要性，我们首先需要看看标准 3D 高斯泼溅的局限性。3DGS 将场景表示为数百万个离散的 3D 椭球体 (高斯) 。它在重建 (拍照并制作 3D 模型) 方面表现出色，但在编辑方面却很糟糕。

为什么？因为 3DGS 本质上是一个无结构的点云。点与点之间没有底层的网格连接。当你尝试使用生成式 AI (如扩散模型) 编辑 3DGS 模型时，梯度——告诉点该往哪里移动的信号——会变得充满噪声。这通常会导致:

针状伪影: 高斯点射向四面八方。
模糊: 纹理失去清晰度。
缺乏几何形状: 模型看起来像一团彩色雾气，而不是一个实体对象。

研究人员假设，要获得良好的编辑效果，你需要将几何形状 (Shape) 与外观 (Texture) 解耦。

解决方案: TetGS (四面体约束高斯泼溅)

这篇论文的核心创新在于 TetGS 表示法。研究人员不再让高斯泼溅在空间中自由漂浮，而是将其嵌入到一个结构化的四面体网格 (Tetrahedral Grid) 中。

可以将四面体网格想象成由金字塔 (四面体) 而不是表面三角形组成的 3D 网格。这个网格填充了 3D 空间。

图 3. 四面体约束高斯图解。每个高斯核都被嵌入到一个唯一的四面体中。

如图 3 所示，每个高斯都被分配给一个特定的四面体。它的位置 (\(\mu\)) 是根据该四面体的顶点计算出来的。

这为什么重要? 它将渲染图元 (高斯) 绑定到了可变形的几何体 (四面体) 上。如果你让网格变形 (改变衬衫的形状) ，高斯会自动随之移动。这提供了网格的结构性，同时保留了泼溅的渲染质量。

绑定网格顶点 (\(v^{M}\)) 到四面体顶点 (\(v^{T}\)) 的数学关系使用了有向距离函数 (SDF) ，定义如下:

将网格顶点通过 SDF 值与四面体顶点联系起来的方程。

这个方程确保了“表面” (SDF 为零的地方) 被明确定义，从而为高斯提供了一个精确的栖息表面。

流程: 从视频到可编辑的化身

整个工作流是一个三阶段的过程: 实例化、局部空间适应和纹理生成 。

图 2. 提出的混合四面体约束高斯泼溅 (TetGS) 流程概览。

第一阶段: 高质量 3D 化身实例化

在进行编辑之前，系统需要理解“基础”化身。输入是某人的 360 度简单视频。

系统首先使用隐式 SDF 场 (一种学习人体 3D 形状的神经网络) 重建人物。这确保了表面光滑且准确。一旦几何形状已知，它就会通过将该几何形状转换为四面体网格并填充高斯来初始化 TetGS。

这种初始重建的架构结合了几何网络和外观网络:

图 10. 带有 SDF 场的隐式重建架构。

为了处理现实世界视频的缺陷 (如光照不均或扫描中的孔洞) ，作者使用了特定的损失函数来正则化法线 (表面方向) ，确保化身看起来不会凹凸不平或反转。

法线正则化损失方程。法线方向损失方程。

第二阶段: 局部空间适应 (几何编辑)

这是见证奇迹的时刻。假设你想把化身的 T 恤换成“羽绒服”。这就需要改变 3D 形状 (几何) 。

标准方法会尝试一次性移动所有东西，这往往会破坏面部或手部。TetGS 使用局部四面体划分 。

掩码 (Masking) : 系统识别身体的哪些部分是“服装” (可编辑) ，哪些是“身体” (保持固定) 。
划分 (Partitioning) : 对应于“保持”区域的四面体被冻结。它们的顶点不能移动。
变形 (Deformation) : “编辑”区域的四面体允许根据文本提示进行变形。

图 4. 四面体划分过程和顶点分组演示。

图 4 完美地展示了这一点。红点代表冻结的顶点 (脸部/颈部) ，而绿点可以自由移动。这确保了在改变衣服形状的同时保留人物的身份特征。

双重空间约束

为了确保新形状看起来逼真，优化过程由扩散模型 (SDS 损失) 引导。然而，仅在全局范围内应用这是不够的。作者引入了双重约束 :

全局 SDS: 确保整体化身看起来协调。
局部 SDS: 专门关注编辑区域，以捕捉新服装的精细细节。

全局 SDS 损失方程。局部 SDS 损失方程。

此外，表面感知正则化 (Surface-aware regularization) 确保新衣服的几何形状不会意外相交或遮挡我们想要保留的部分。

表面感知正则化损失方程。

总损失函数结合了这些元素来驱动几何变换:

总损失方程。

第三阶段: 由粗到精的纹理生成

一旦几何形状变成了夹克，它看起来仍然像被拉伸的旧 T 恤。它需要新的纹理。作者认为一次性完成这一步会导致伪影。相反，他们将其解耦为两个子步骤。

步骤 A: 受限 TetGS (粗略通道)

最初，他们“限制”了高斯。他们强制 3D 高斯表现得像表面上平坦的 2D 圆盘 (面元) ，并移除了视点相关效应 (如光泽) 。

然后，他们使用法线引导修复器 (Normal-guided Inpainter) 。他们获取新形状的渲染图，识别未着色区域，并使用生成模型 (如 ControlNet) 根据表面法线“绘制”新纹理。

图 12. 使用修复的粗略纹理生成阶段概览。

这个过程将修复后的“幻觉”纹理与现有的渲染混合，以创建一个稳定的基础。

混合修复图像和原始图像的方程。粗略纹理生成期间的训练目标方程。

步骤 B: 属性激活 (精细通道)

粗略通道提供了稳定的纹理，但缺乏 3DGS 的照片级真实感。在最后一步中，系统“释放”限制。高斯被允许再次变成 3D 椭球体，并且它们的视点相关颜色属性 (球谐函数) 被激活。

系统使用增强的多视图引导来细化这些属性，带回诸如织物纹理和光照交互等高频细节。

实验结果

它真的有效吗？结果表明，该方法比以前的方法有了显著的飞跃。

定性比较

在图 5 中，我们可以看到系统的多功能性。它可以处理裙子、夹克和短裤，完美地保持人物的姿势和身份。

图 5. 编辑前后的多视图渲染和底层几何形状。

将 TetGS 与最先进的基线方法如 GaussianEditor 和 DGE 进行比较 (图 6) ，揭示了结构约束的好处。请注意，基线方法通常会产生“尖刺”伪影或模糊的纹理，而 TetGS 产生的服装则干净、清晰。

图 6. 与文本引导方法 GaussianEditor 和 DGE 的定性比较。

定量分析

视觉上的改进得到了数据的支持。表 1 显示，TetGS 实现了显著更低的 FID (Frechet Inception Distance) ，该指标衡量图像与真实情况的接近程度。分数越低表示照片级真实感越好。

表 1. 与 3D 化身编辑方法的定量比较。

消融研究

作者还证明了他们解耦流程的必要性。

无 TetGS: 直接优化点会导致噪声 (图 18，注: 原文此处引用可能是笔误，应指图 7) 。
无局部适应: 几何形状变形不足以匹配提示 (例如，夹克看起来像画上去的 T 恤) 。
无属性激活: 纹理看起来平坦且卡通化。

图 7. 使用 TetGS 进行解耦编辑的消融研究。表 2. 提出的编辑流程的消融研究。

图像引导编辑 (虚拟试穿)

一个特别酷的应用是虚拟试穿。你可以为系统提供一张服装的参考图像，而不是文本提示。通过使用基于图像的虚拟试穿模型 (IDM-VTON) 来引导纹理生成，TetGS 可以将特定的现实世界物品包裹在 3D 化身上。

图 16. 更多参考图像引导的 3D 化身编辑结果。

为了实现这一点，他们添加了一个特定的损失项，使生成的化身法线与参考图像预期的法线对齐，确保垂坠感和褶皱与目标服装相匹配。

虚拟试穿损失方程。

结论

TetGS 框架代表了生成式 3D 媒体向前迈出的明智一步。通过承认 3D 高斯泼溅虽然擅长渲染但需要结构辅助，作者结合了两个世界的优点: 网格的显式可编辑性 (通过四面体) 和高斯的视觉保真度。

给学生和研究人员的关键启示:

结构至关重要: 3D 空间中的无约束优化通常会导致混乱。将高斯约束在网格上可以稳定学习过程。
解耦问题: 试图同时学习形状和颜色是很困难的。先解决几何问题，然后是粗略纹理，最后是精细纹理，这样能产生更好的结果。
混合表示: 3D 图形的未来可能不仅仅是纯网格或纯 NeRF/高斯，而是利用各自优势的混合系统。

这项技术为便捷的 3D 内容创作铺平了道路，允许用户通过简单的手机视频创建和定制高保真的化身。

引言#

问题所在: 无结构泼溅的混乱#

解决方案: TetGS (四面体约束高斯泼溅)#

流程: 从视频到可编辑的化身#

第一阶段: 高质量 3D 化身实例化#

第二阶段: 局部空间适应 (几何编辑)#

双重空间约束#

第三阶段: 由粗到精的纹理生成#

步骤 A: 受限 TetGS (粗略通道)#

步骤 B: 属性激活 (精细通道)#

实验结果#

定性比较#

定量分析#

消融研究#

图像引导编辑 (虚拟试穿)#

结论#

引言