引言
在快速发展的计算机图形学与计算机视觉领域,很少有技术能像 三维高斯溅射 (3D Gaussian Splatting, 3DGS) 那样引起如此广泛的关注。自 2023 年问世以来,它凭借照片级的新视角合成能力和实时渲染速度,让研究人员与开发者印象深刻。对许多人而言,它就是期待已久、实用且高效的神经辐射场 (NeRFs) 继任者。
然而,当人们开始将 3DGS 推向极限时,缺陷逐渐暴露。尽管它在训练数据中相似的相机视角下表现惊艳,但一旦观察尺度发生变化,性能就会严重下滑。放大时,物体可能变得过于纤细且带有噪点;缩小时,精细细节则容易模糊成泛光的伪影。
这正是论文 “Mip-Splatting: Alias-free 3D Gaussian Splatting” 要解决的问题。作者找出了这些缩放伪影的根源,并提出了一个优雅且有理论支持的解决方案。他们的方法——Mip-Splatting——在原始 3DGS 管线基础上改进,使其能够稳健应对相机距离与焦距的变化,从而在各种尺度下生成清晰、无伪影的图像。
让我们将这个问题可视化:
图 1: 标准 3DGS 在训练尺度 (a) 下表现良好,但缩小时 (c) 轮辐变粗,放大 (d) 则变得过细且充满噪声。
本文将一步步解析 Mip-Splatting 论文。我们首先解释三维高斯溅射的原理,再分析它在不同尺度下失效的原因,最后介绍 Mip-Splatting 的双重解决方案: 针对放大的 三维平滑滤波器 和针对缩小的 二维 Mip 滤波器。
背景: 三维高斯溅射的工作原理
与基于网格的渲染或神经网络不同,三维高斯溅射用大量半透明、各向异性的斑点——高斯体——来表示场景。
每个高斯体由以下参数定义:
- 位置 (\(\mathbf{p}_k\)): 它在三维空间中的坐标。
- 协方差 (\(\boldsymbol{\Sigma}_k\)): 一个 3×3 矩阵,定义形状与大小。
- 颜色 (\(c_k\)): 可能依赖视角,使用球谐函数建模。
- 不透明度 (\(\alpha_k\)): 透明程度。
数学上,一个高斯体表示为:
从三维到二维
3DGS 渲染速度很快,因为它采用 **光栅化 **(类似于游戏引擎) ,而不是 NeRFs 的较慢光线追踪。
变换到相机空间
所有高斯体从世界坐标系变换到所选相机空间:投影到二维
每个三维高斯体会在图像平面上变成一个二维高斯体:溅射与 Alpha 混合
将这些二维高斯体“溅射”到屏幕上,从前到后进行 Alpha 混合:
问题所在: 屏幕空间膨胀
若投影后的高斯体小于一个像素,可能会出现空洞。为避免这种情况,原始 3DGS 使用固定模糊——二维膨胀,即在协方差矩阵上加上 \(s\mathbf{I}\):
这种方法虽然能稳定训练,但也带来了与尺度相关的伪影。
核心问题: 放大与缩小
在训练尺度下,一个正常的高斯体与一个退化的超薄高斯体,由于固定膨胀,渲染效果几乎一致。这导致了 收缩偏差——训练往往产生大量超小高斯体。
放大: 侵蚀与高频噪声
放大时,投影尺寸增大,但膨胀量保持不变 (此时可忽略不计) 。高斯体间出现细微间隙,造成侵蚀伪影与噪声:
- 细长物体显得不自然地稀疏。
- 出现高频斑点噪声。
缩小: 膨胀、亮度与锯齿
缩小时,高斯体变小,但膨胀量依旧很大:
- 膨胀伪影: 精细细节显得臃肿。
- 能量扩散: 亮度被人为提高。
- 锯齿: 高频细节与像素采样冲突,产生锯齿边缘。
Mip-Splatting: 双重解决方案
1. 三维平滑滤波器——放大问题的解法
基于 奈奎斯特–香农采样定理,作者限制了训练数据中的最小可分辨细节。
确定采样极限
每个高斯体在世界空间的采样间隔 \(\hat{T}\) 计算如下:
从所有可看到该高斯体的训练相机中,选出最高采样频率 \(\hat{\nu}_k\):
应用滤波器
将每个高斯体 \(\mathcal{G}_k\) 与一个低通高斯滤波器 \(\mathcal{G}_{\text{low}}\) 卷积:
由于高斯卷积等于协方差相加:
这样可以确保高斯体不会比最佳训练视角的物理分辨率更锐利,从而消除侵蚀与高频噪声。
图 3: 不同相机有不同采样间隔,最小间隔决定最大可解析细节。
2. 二维 Mip 滤波器——缩小问题的解法
为替代固定膨胀,作者引入一种 物理驱动的抗锯齿滤波器。
受 mipmapping 启发,该方法模拟相机像素在其区域内对光线的积分过程。理想情况是盒式滤波,但作者使用了与单像素大小匹配的高斯近似:
与膨胀不同,这种方法与像素网格间距相匹配,防止锯齿产生,同时避免过度模糊与亮度膨胀。
实验与结果
缩小测试: Blender 数据集
在全分辨率下训练,在低分辨率下渲染:
表 1: 缩小时,3DGS 的 PSNR 明显下降;Mip-Splatting 仍保持较高水平。
图 4: Mip-Splatting 在低分辨率下保留精细结构;其他方法出现模糊或失真。
放大测试: Mip-NeRF 360 数据集
在 \(\frac{1}{8}\) 分辨率下训练,在更高尺度下渲染:
表 2: Mip-Splatting 在不同放大倍率下保持清晰细节;其他方法则遭遇侵蚀或噪声。
图 5: Mip-Splatting 避免伪影,与真实图像高度一致。
同分布性能
在标准同尺度基准测试中,Mip-Splatting 的表现与 3DGS 相当——证明在尺度保持不变时不会牺牲质量。
结论
Mip-Splatting 是优秀研究的代表: 发现关键缺陷,追溯原因,并提出有理论支持的改进方法。
它用以下两种方法取代了临时的膨胀处理:
- 三维平滑滤波器 —— 将场景细节限制在训练数据分辨率内,解决放大伪影。
- 二维 Mip 滤波器 —— 提供物理正确的抗锯齿,解决缩小伪影。
Mip-Splatting 让 3DGS 可适应任意尺度——这对相机自由移动的 VR、游戏与视觉特效等应用至关重要。
使用 Mip-Splatting,无论放大还是缩小,都能保持 3DGS 惊人的清晰度。