引言

在快速发展的计算机图形学与计算机视觉领域,很少有技术能像 三维高斯溅射 (3D Gaussian Splatting, 3DGS) 那样引起如此广泛的关注。自 2023 年问世以来,它凭借照片级的新视角合成能力和实时渲染速度,让研究人员与开发者印象深刻。对许多人而言,它就是期待已久、实用且高效的神经辐射场 (NeRFs) 继任者。

然而,当人们开始将 3DGS 推向极限时,缺陷逐渐暴露。尽管它在训练数据中相似的相机视角下表现惊艳,但一旦观察尺度发生变化,性能就会严重下滑。放大时,物体可能变得过于纤细且带有噪点;缩小时,精细细节则容易模糊成泛光的伪影。

这正是论文 “Mip-Splatting: Alias-free 3D Gaussian Splatting” 要解决的问题。作者找出了这些缩放伪影的根源,并提出了一个优雅且有理论支持的解决方案。他们的方法——Mip-Splatting——在原始 3DGS 管线基础上改进,使其能够稳健应对相机距离与焦距的变化,从而在各种尺度下生成清晰、无伪影的图像。

让我们将这个问题可视化:

一张四格图,展示 3DGS 在不同缩放下的效果。

图 1: 标准 3DGS 在训练尺度 (a) 下表现良好,但缩小时 (c) 轮辐变粗,放大 (d) 则变得过细且充满噪声。

本文将一步步解析 Mip-Splatting 论文。我们首先解释三维高斯溅射的原理,再分析它在不同尺度下失效的原因,最后介绍 Mip-Splatting 的双重解决方案: 针对放大的 三维平滑滤波器 和针对缩小的 二维 Mip 滤波器


背景: 三维高斯溅射的工作原理

与基于网格的渲染或神经网络不同,三维高斯溅射用大量半透明、各向异性的斑点——高斯体——来表示场景。

每个高斯体由以下参数定义:

  • 位置 (\(\mathbf{p}_k\)): 它在三维空间中的坐标。
  • 协方差 (\(\boldsymbol{\Sigma}_k\)): 一个 3×3 矩阵,定义形状与大小。
  • 颜色 (\(c_k\)): 可能依赖视角,使用球谐函数建模。
  • 不透明度 (\(\alpha_k\)): 透明程度。

数学上,一个高斯体表示为:

三维高斯体的公式。

从三维到二维

3DGS 渲染速度很快,因为它采用 **光栅化 **(类似于游戏引擎) ,而不是 NeRFs 的较慢光线追踪。

  1. 变换到相机空间
    所有高斯体从世界坐标系变换到所选相机空间:

    变换公式。

  2. 投影到二维
    每个三维高斯体会在图像平面上变成一个二维高斯体:

    投影公式。

  3. 溅射与 Alpha 混合
    将这些二维高斯体“溅射”到屏幕上,从前到后进行 Alpha 混合:

    Alpha 混合公式。


问题所在: 屏幕空间膨胀

若投影后的高斯体小于一个像素,可能会出现空洞。为避免这种情况,原始 3DGS 使用固定模糊——二维膨胀,即在协方差矩阵上加上 \(s\mathbf{I}\):

二维膨胀公式。

这种方法虽然能稳定训练,但也带来了与尺度相关的伪影。


核心问题: 放大与缩小

在训练尺度下,一个正常的高斯体与一个退化的超薄高斯体,由于固定膨胀,渲染效果几乎一致。这导致了 收缩偏差——训练往往产生大量超小高斯体。

放大: 侵蚀与高频噪声

放大时,投影尺寸增大,但膨胀量保持不变 (此时可忽略不计) 。高斯体间出现细微间隙,造成侵蚀伪影与噪声:

  • 细长物体显得不自然地稀疏。
  • 出现高频斑点噪声。

缩小: 膨胀、亮度与锯齿

缩小时,高斯体变小,但膨胀量依旧很大:

  • 膨胀伪影: 精细细节显得臃肿。
  • 能量扩散: 亮度被人为提高。
  • 锯齿: 高频细节与像素采样冲突,产生锯齿边缘。

Mip-Splatting: 双重解决方案

1. 三维平滑滤波器——放大问题的解法

基于 奈奎斯特–香农采样定理,作者限制了训练数据中的最小可分辨细节。

确定采样极限
每个高斯体在世界空间的采样间隔 \(\hat{T}\) 计算如下:

采样间隔公式。

从所有可看到该高斯体的训练相机中,选出最高采样频率 \(\hat{\nu}_k\):

最大采样频率公式。

应用滤波器
将每个高斯体 \(\mathcal{G}_k\) 与一个低通高斯滤波器 \(\mathcal{G}_{\text{low}}\) 卷积:

卷积公式。

由于高斯卷积等于协方差相加:

三维平滑最终公式。

这样可以确保高斯体不会比最佳训练视角的物理分辨率更锐利,从而消除侵蚀与高频噪声。


示意图: 多个相机的采样率。

图 3: 不同相机有不同采样间隔,最小间隔决定最大可解析细节。


2. 二维 Mip 滤波器——缩小问题的解法

为替代固定膨胀,作者引入一种 物理驱动的抗锯齿滤波器

mipmapping 启发,该方法模拟相机像素在其区域内对光线的积分过程。理想情况是盒式滤波,但作者使用了与单像素大小匹配的高斯近似:

二维 Mip 滤波公式。

与膨胀不同,这种方法与像素网格间距相匹配,防止锯齿产生,同时避免过度模糊与亮度膨胀。


实验与结果

缩小测试: Blender 数据集

在全分辨率下训练,在低分辨率下渲染:

Blender 缩小测试结果表。

表 1: 缩小时,3DGS 的 PSNR 明显下降;Mip-Splatting 仍保持较高水平。

Blender 缩小测试视觉对比。

图 4: Mip-Splatting 在低分辨率下保留精细结构;其他方法出现模糊或失真。


放大测试: Mip-NeRF 360 数据集

在 \(\frac{1}{8}\) 分辨率下训练,在更高尺度下渲染:

Mip-NeRF 360 放大测试结果表。

表 2: Mip-Splatting 在不同放大倍率下保持清晰细节;其他方法则遭遇侵蚀或噪声。

Mip-NeRF 360 放大测试视觉对比。

图 5: Mip-Splatting 避免伪影,与真实图像高度一致。


同分布性能

在标准同尺度基准测试中,Mip-Splatting 的表现与 3DGS 相当——证明在尺度保持不变时不会牺牲质量。


结论

Mip-Splatting 是优秀研究的代表: 发现关键缺陷,追溯原因,并提出有理论支持的改进方法。

它用以下两种方法取代了临时的膨胀处理:

  • 三维平滑滤波器 —— 将场景细节限制在训练数据分辨率内,解决放大伪影。
  • 二维 Mip 滤波器 —— 提供物理正确的抗锯齿,解决缩小伪影。

Mip-Splatting 让 3DGS 可适应任意尺度——这对相机自由移动的 VR、游戏与视觉特效等应用至关重要。

使用 Mip-Splatting,无论放大还是缩小,都能保持 3DGS 惊人的清晰度。