引言
在 AR/VR 和元宇宙飞速发展的背景下,对个性化、照片级真实的 3D 化身 (Avatar) 的需求正在激增。我们都渴望拥有一个数字孪生体,它不仅看起来像我们,还能像我们在现实世界中一样轻松更换服装。
虽然 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 的最新进展已经实现了静态场景令人难以置信的实时渲染,但编辑这些表示形式仍然是一个巨大的难题。如果你曾尝试过“编辑”点云,你就会明白其中的痛苦: 它缺乏结构。另一方面,传统的网格 (Mesh) 虽然易于编辑,但往往难以捕捉现实世界中服装和头发那种模糊、复杂的细节。
TetGS (四面体约束高斯泼溅) 应运而生,这是北京大学和阿里巴巴集团的研究人员提出的一种新方法。该框架试图弥合结构控制与照片级渲染之间的鸿沟。

如图 1 所示,该方法接收一段简单的单目视频,允许用户执行文本引导或图像引导的编辑——例如将毛衣换成校队夹克或风衣——同时保持高保真度。在这篇文章中,我们将详细拆解 TetGS 的工作原理,它为何能解决“不可控高斯”的问题,以及它是如何实现如此清晰的效果的。
问题所在: 无结构泼溅的混乱
要理解这篇论文的重要性,我们首先需要看看标准 3D 高斯泼溅的局限性。3DGS 将场景表示为数百万个离散的 3D 椭球体 (高斯) 。它在重建 (拍照并制作 3D 模型) 方面表现出色,但在编辑方面却很糟糕。
为什么?因为 3DGS 本质上是一个无结构的点云。点与点之间没有底层的网格连接。当你尝试使用生成式 AI (如扩散模型) 编辑 3DGS 模型时,梯度——告诉点该往哪里移动的信号——会变得充满噪声。这通常会导致:
- 针状伪影: 高斯点射向四面八方。
- 模糊: 纹理失去清晰度。
- 缺乏几何形状: 模型看起来像一团彩色雾气,而不是一个实体对象。
研究人员假设,要获得良好的编辑效果,你需要将几何形状 (Shape) 与外观 (Texture) 解耦。
解决方案: TetGS (四面体约束高斯泼溅)
这篇论文的核心创新在于 TetGS 表示法。研究人员不再让高斯泼溅在空间中自由漂浮,而是将其嵌入到一个结构化的四面体网格 (Tetrahedral Grid) 中。
可以将四面体网格想象成由金字塔 (四面体) 而不是表面三角形组成的 3D 网格。这个网格填充了 3D 空间。

如图 3 所示,每个高斯都被分配给一个特定的四面体。它的位置 (\(\mu\)) 是根据该四面体的顶点计算出来的。
- 这为什么重要? 它将渲染图元 (高斯) 绑定到了可变形的几何体 (四面体) 上。如果你让网格变形 (改变衬衫的形状) ,高斯会自动随之移动。这提供了网格的结构性,同时保留了泼溅的渲染质量。
绑定网格顶点 (\(v^{M}\)) 到四面体顶点 (\(v^{T}\)) 的数学关系使用了有向距离函数 (SDF) ,定义如下:

这个方程确保了“表面” (SDF 为零的地方) 被明确定义,从而为高斯提供了一个精确的栖息表面。
流程: 从视频到可编辑的化身
整个工作流是一个三阶段的过程: 实例化、局部空间适应和纹理生成 。

第一阶段: 高质量 3D 化身实例化
在进行编辑之前,系统需要理解“基础”化身。输入是某人的 360 度简单视频。
系统首先使用隐式 SDF 场 (一种学习人体 3D 形状的神经网络) 重建人物。这确保了表面光滑且准确。一旦几何形状已知,它就会通过将该几何形状转换为四面体网格并填充高斯来初始化 TetGS。
这种初始重建的架构结合了几何网络和外观网络:

为了处理现实世界视频的缺陷 (如光照不均或扫描中的孔洞) ,作者使用了特定的损失函数来正则化法线 (表面方向) ,确保化身看起来不会凹凸不平或反转。

第二阶段: 局部空间适应 (几何编辑)
这是见证奇迹的时刻。假设你想把化身的 T 恤换成“羽绒服”。这就需要改变 3D 形状 (几何) 。
标准方法会尝试一次性移动所有东西,这往往会破坏面部或手部。TetGS 使用局部四面体划分 。
- 掩码 (Masking) : 系统识别身体的哪些部分是“服装” (可编辑) ,哪些是“身体” (保持固定) 。
- 划分 (Partitioning) : 对应于“保持”区域的四面体被冻结。它们的顶点不能移动。
- 变形 (Deformation) : “编辑”区域的四面体允许根据文本提示进行变形。

图 4 完美地展示了这一点。红点代表冻结的顶点 (脸部/颈部) ,而绿点可以自由移动。这确保了在改变衣服形状的同时保留人物的身份特征。
双重空间约束
为了确保新形状看起来逼真,优化过程由扩散模型 (SDS 损失) 引导。然而,仅在全局范围内应用这是不够的。作者引入了双重约束 :
- 全局 SDS: 确保整体化身看起来协调。
- 局部 SDS: 专门关注编辑区域,以捕捉新服装的精细细节。

此外,表面感知正则化 (Surface-aware regularization) 确保新衣服的几何形状不会意外相交或遮挡我们想要保留的部分。

总损失函数结合了这些元素来驱动几何变换:

第三阶段: 由粗到精的纹理生成
一旦几何形状变成了夹克,它看起来仍然像被拉伸的旧 T 恤。它需要新的纹理。作者认为一次性完成这一步会导致伪影。相反,他们将其解耦为两个子步骤。
步骤 A: 受限 TetGS (粗略通道)
最初,他们“限制”了高斯。他们强制 3D 高斯表现得像表面上平坦的 2D 圆盘 (面元) ,并移除了视点相关效应 (如光泽) 。
然后,他们使用法线引导修复器 (Normal-guided Inpainter) 。 他们获取新形状的渲染图,识别未着色区域,并使用生成模型 (如 ControlNet) 根据表面法线“绘制”新纹理。

这个过程将修复后的“幻觉”纹理与现有的渲染混合,以创建一个稳定的基础。

步骤 B: 属性激活 (精细通道)
粗略通道提供了稳定的纹理,但缺乏 3DGS 的照片级真实感。在最后一步中,系统“释放”限制。高斯被允许再次变成 3D 椭球体,并且它们的视点相关颜色属性 (球谐函数) 被激活。
系统使用增强的多视图引导来细化这些属性,带回诸如织物纹理和光照交互等高频细节。
实验结果
它真的有效吗?结果表明,该方法比以前的方法有了显著的飞跃。
定性比较
在图 5 中,我们可以看到系统的多功能性。它可以处理裙子、夹克和短裤,完美地保持人物的姿势和身份。

将 TetGS 与最先进的基线方法如 GaussianEditor 和 DGE 进行比较 (图 6) ,揭示了结构约束的好处。请注意,基线方法通常会产生“尖刺”伪影或模糊的纹理,而 TetGS 产生的服装则干净、清晰。

定量分析
视觉上的改进得到了数据的支持。表 1 显示,TetGS 实现了显著更低的 FID (Frechet Inception Distance) ,该指标衡量图像与真实情况的接近程度。分数越低表示照片级真实感越好。

消融研究
作者还证明了他们解耦流程的必要性。
- 无 TetGS: 直接优化点会导致噪声 (图 18,注: 原文此处引用可能是笔误,应指图 7) 。
- 无局部适应: 几何形状变形不足以匹配提示 (例如,夹克看起来像画上去的 T 恤) 。
- 无属性激活: 纹理看起来平坦且卡通化。

图像引导编辑 (虚拟试穿)
一个特别酷的应用是虚拟试穿。你可以为系统提供一张服装的参考图像,而不是文本提示。通过使用基于图像的虚拟试穿模型 (IDM-VTON) 来引导纹理生成,TetGS 可以将特定的现实世界物品包裹在 3D 化身上。

为了实现这一点,他们添加了一个特定的损失项,使生成的化身法线与参考图像预期的法线对齐,确保垂坠感和褶皱与目标服装相匹配。

结论
TetGS 框架代表了生成式 3D 媒体向前迈出的明智一步。通过承认 3D 高斯泼溅虽然擅长渲染但需要结构辅助,作者结合了两个世界的优点: 网格的显式可编辑性 (通过四面体) 和高斯的视觉保真度。
给学生和研究人员的关键启示:
- 结构至关重要: 3D 空间中的无约束优化通常会导致混乱。将高斯约束在网格上可以稳定学习过程。
- 解耦问题: 试图同时学习形状和颜色是很困难的。先解决几何问题,然后是粗略纹理,最后是精细纹理,这样能产生更好的结果。
- 混合表示: 3D 图形的未来可能不仅仅是纯网格 或 纯 NeRF/高斯,而是利用各自优势的混合系统。
这项技术为便捷的 3D 内容创作铺平了道路,允许用户通过简单的手机视频创建和定制高保真的化身。
](https://deep-paper.org/en/paper/2504.20403/images/cover.png)