引言
在计算机图形学和计算机视觉飞速发展的世界中,很少有技术能像 3D Gaussian Splatting (3DGS,3D 高斯溅射) 最近这样引起如此大的轰动。它为神经辐射场 (NeRFs) 提供了一个绝佳的替代方案,通过将场景表示为数百万个 3D 高斯椭球,实现了复杂场景的实时渲染。它速度快、质量高,且具有显式表达的特性。
但正如任何基础技术一样,尘埃落定之后,研究人员开始发问: 高斯分布真的是这项任务的最佳图元吗?
高斯分布在数学上很方便,但它们是僵化的。它们具有“薄尾 (thin tails) ”特征,这意味着它们的影响力从中心向外下降得非常快。为了表示复杂的形状或大面积的同质区域 (如蓝天) ,标准的 3DGS 通常不得不将数千个高斯叠加在一起。此外,3DGS 是纯加性的——它只能将正密度“溅射 (splat) ”到屏幕上。它不能“挖空”或减去光线。
这就引出了一位新的竞争者: Student Splatting and Scooping (SSS) 。
在这篇文章中,我们将深入探讨一篇提出对 3DGS 框架进行根本性推广的论文。作者认为,我们不应受限于高斯分布,也不应受限于仅正向的溅射。通过切换到 Student-t 分布 (Student’s t-distribution) 并引入 负密度 (Scooping / 挖掘) , SSS 在实现了最先进渲染质量的同时,显著减少了参数的使用——有时能将所需图元的数量减少 80% 以上。
让我们来解析它是如何工作的,背后的数学原理,以及为什么它可能代表着神经渲染的未来。
背景: 3DGS 的局限性
为了理解为什么需要 SSS,我们首先需要看看它取代了什么。3D 高斯溅射将场景表示为 3D 高斯的集合。每个高斯都有位置、协方差 (形状) 、不透明度和颜色。
在数学上,3DGS 将场景视为一个未归一化的高斯混合模型:

在这里,\(w_i\) 是从不透明度和颜色推导出的权重因子。渲染图像时,这些 3D 椭球体被投影到 2D 相机平面上 (这个过程称为 splatting / 溅射) ,并从前向后进行 alpha 混合。

这个公式本质上是一个加权和。它效果很好,但也有局限性:
- 僵化性: 高斯分布具有固定的“钟形曲线”形状。它们无法改变尾部的“厚度”。
- 加性: 权重 \(w_i\) 必须为正。你只能向像素添加颜色;你不能减去当前图元背后的贡献。
这导致了低效率。为了对一个并不完美符合高斯形状的物体 (大多数形状都是如此) 进行建模,3DGS 必须使用许多微小的高斯来近似其体积。
SSS 中的“Student”: 一种更灵活的图元
这篇论文的第一个主要贡献是用 Student-t 分布 替换了高斯分布。
你可能还记得统计学课上的 t 分布,它是当样本量较小时使用的高斯分布的“表亲”。然而,在这里,它的超能力在于其 可学习的自由度 , 用 \(\nu\) (nu) 表示。
参数 \(\nu\) 控制分布尾部的“肥厚程度”。
- 当 \(\nu \to \infty\) 时,t 分布变成 高斯分布 (薄尾) 。
- 当 \(\nu \to 1\) 时,它变成 柯西分布 (Cauchy distribution) (非常厚的尾部) 。
这种灵活性允许单个图元进行变形。它可以是尖锐且集中的,也可以是宽阔且分散的。

如 图 1 所示,注意红色虚线 (\(\nu = 100\),实际上就是高斯分布) 是如何非常快地下降到零的。而绿线 (\(\nu = 1\)) 则向外延伸得更远。
这对渲染有什么影响?一个“厚尾”图元可以用比高斯分布更高的密度覆盖更大的屏幕区域。这意味着你需要更少的图元来表示像墙壁或天空这样的大面积均匀区域。
论文中使用的 3D Student-t 分布的数学公式如下:

通过使 \(\nu\)、\(\mu\) (位置) 和 \(\Sigma\) (协方差) 都可学习,SSS 实际上是在为场景中的每一个溅射点从无限的分布族中选择最佳的图元形状。
投影到 2D
为了使 3D 渲染引擎保持快速,我们必须能够解析地 (闭式形式) 将这些 3D 形状投影到 2D。如果我们必须对每条光线进行数值积分,那就太慢了。
幸运的是,Student-t 分布与高斯分布有一个共同的特性: 它在仿射变换和边缘化下是封闭的。作者推导出了 3D t 分布在 2D 图像平面上的闭式投影:

这个公式允许 SSS 利用与 3DGS 相同的高效光栅化管线,保持了使溅射技术如此具有吸引力的实时渲染速度。
溅射与挖掘: 负密度的力量
第二个主要创新是 Scooping (挖掘/铲除) 。
在标准的 3DGS 中,图元是加性的。想象一下在画布上绘画: 你可以添加颜料层,但你很难刮掉颜料来露出后面的东西,或者在体积中创建一个“洞”。
作者提出了一个非单调的混合模型。他们允许组件的权重为 负值 。

然而,天真地实现这一点 (如上图所示) 会产生复杂性,因为会出现交互项 (\(O(n^2)\)) 。相反,作者坚持线性公式,但在优化过程中允许不透明度值下降到负值范围。
为什么要用负密度?
负密度的作用类似于几何中的布尔减法运算。它允许模型从正区域中“挖 (scoop) ”出密度。
这对于表示复杂的拓扑结构 (如环形或中空物体) 非常高效。你不需要在圆圈中排列几十个正向高斯来在中间创建一个洞,你可以放置 一个 大的正向图元来表示物体,并在中心放置 一个 负向图元来“挖”出这个洞。

图 2 完美地说明了这一点。看图 (d)。SSS 仅用 两个 组件 (一正一负) 就捕捉到了圆环形状。标准的仅正向溅射 (图 c) 至少需要五个组件才能开始近似这个洞,即便如此,效果也很混乱。
在渲染时,负组件本质上是从累积的光线中减去颜色和不透明度,允许用更少的总图元来更清晰地定义边缘和空白空间。
优化: 用 SGHMC 驯服猛兽
能力越强,复杂性越高。SSS 引入了新的可学习参数 (如 \(\nu\)) 并允许负密度。这创造了一个高度耦合的优化景观。
例如,改变尾部厚度 (\(\nu\)) 会根本性地改变位置 (\(\mu\)) 和协方差 (\(\Sigma\)) 与损失函数的交互方式。标准的随机梯度下降 (SGD,用于 3DGS) 在这种程度的耦合下经常陷入局部极小值。它倾向于输出堆积在一起的分布,而不是探索 t 分布的全部潜力。
为了解决这个问题,作者采用了 随机梯度哈密顿蒙特卡洛 (Stochastic Gradient Hamiltonian Monte Carlo, SGHMC) 。
基于物理的采样
SGHMC 将优化变量 \(\theta\) (参数) 视为在损失函数定义的景观中移动的粒子。它引入了辅助变量: 动量 (momentum) (\(r\)) 和 摩擦力 (friction) 。

系统根据物理动力学演变。动量项允许参数在损失景观的小凸起上“滑行” (逃离局部极小值) ,而摩擦项确保系统最终稳定下来 (收敛) 。
论文中推导出的更新规则如下:

在这里,\(N\) 代表注入系统的高斯噪声。这种噪声至关重要——它将优化转化为采样过程,允许模型探索 \(\nu\) 和 \(\mu\) 的不同配置,而不是贪婪地冲向最近的解。
摩擦力调度
作者使用了一种自适应方案 (即上式中的 sigmoid 函数 \(\sigma(o)\)) 。他们仅对不透明度非常低的组件应用摩擦和噪声。这本质上是在告诉系统: “如果一个溅射点是透明且无用的,就剧烈摇晃它并四处移动。如果一个溅射点是实心且有用的,就让它仔细微调其位置。”
回收组件
由于 SSS 非常高效,许多组件最终会变得透明 (无用) 。SSS 没有直接杀死它们 (如在 3DGS 中那样) ,而是 回收 它们。它识别出需要更多细节的高不透明度组件,并将透明组件移动到该位置。
为了确保这种移动不会破坏图像,他们最小化了分裂前后积分颜色分布的差异。这涉及一些使用 Beta 函数的复杂数学运算:

这种原则性的方法确保了即使模型动态地重新排列其图元,总密度也能保持一致。
实验与结果
那么,所有这些数学运算是否转化为了更好的图像呢?答案是肯定的。
研究人员在多个数据集上测试了 SSS,对比了标准 3DGS 和其他最先进的变体 (如 Mip-NeRF 360, 3DHGS 和 GES) 。
1. 视觉质量
SSS 始终能比基线方法恢复更精细的细节并更好地处理高频纹理。

在 图 3 中,放大看 (d) 列中的卡车挡风玻璃。SSS 在恢复反射方面表现最佳。在 (a) 列中,SSS 捕捉到了其他方法平滑掉的盒盖上的细微凹痕。
2. 参数效率 (杀手级特性)
这才是 SSS 真正大放异彩的地方。由于灵活的 t 分布和挖掘能力,SSS 可以用少得多的组件来表示场景。
作者进行了实验,人为限制了允许的组件数量。

如 图 4 所示,即使组件数量 (x 轴) 减少,SSS 曲线 (青色) 仍保持高位。在 Tanks & Temples 数据集 (中间图表) 上,低组件数的 SSS 甚至匹敌高组件数的 3DGS 的质量。
在定量上,SSS 在达到与 3DGS 相当的结果的同时,在某些场景中将组件数量减少了多达 82% 。 这表明在压缩和轻量级渲染应用 (例如在移动设备上) 方面具有巨大潜力。
3. 效率的可视化
我们可以在下面的对比中看到这种效率的实际效果。

在 图 5 中,看看天空和远处的山脉。在受限组件 (上排) 的情况下,标准 3DGS 会产生模糊、嘈杂的伪影。GES (Generalized Exponential Splatting) 则过于平滑。然而,SSS 清晰地分离了天空和山丘并保留了细节,即使只有 252k 个组件的“预算”。
4. 定量指标
表格证实了视觉分析的结果。在 Mip-NeRF 360 数据集上,SSS 实现了最高的 PSNR (峰值信噪比) 和 SSIM (结构相似性) ,以及最低的 LPIPS (感知误差) 。

注意在 表 1 中,SSS 击败了高度优化的 “3DGS-MCMC” 方法,证明了图元的改变 (Student-t) 和负密度的增加所带来的好处不仅仅是更好的采样。
消融研究: 什么起作用?
作者分解了他们的贡献,看看是什么驱动了性能提升。

- SGD + 正向 t 分布: 优于 3DGS,证明 t 分布本质上优于高斯分布。
- SGHMC + 正向 t 分布: 质量显著提升,证明新采样器对于训练这些灵活分布是必要的。
- 完整模型 (含负密度) : 性能最佳,证实了“挖掘”增加了最后一层表达能力。
采样效应
论文中一个有趣的分析是可视化优化算法如何探索参数空间。

图 4 (来自补充材料) 展示了学习到的自由度 (\(\nu\)) 的分布。
- 红线 (SGD) 严重聚集在特定值周围。它陷入了困境。
- 青线 (SSS/SGHMC) 则分散开来。它探索了 t 分布族的全部范围,为场景的不同部分寻找最佳的尾部厚度。这证实了 SGHMC 采样器成功地解耦了参数并避免了模式崩溃。
结论与启示
Student Splatting and Scooping (SSS) 代表了高斯溅射范式的显著成熟。通过观察到 3DGS 只是混合模型的一个特定、受限的实例 (仅高斯、仅正向) ,作者为更具表现力的神经表示打开了大门。
主要收获:
- 别太“正态”: Student-t 分布推广了高斯分布,提供了一个“肥厚度”参数,极大地提高了参数效率。
- 少即是多: 通过使用负密度 (“Scooping/挖掘”) ,模型可以用比加性构建周围体积更少的图元来刻画拓扑结构。
- 物理辅助学习: 当模型变得更加复杂且参数变得耦合时,像 SGHMC 这样复杂的采样方法至关重要。
对于神经渲染领域的学生和研究人员来说,SSS 指向了一个未来,在那儿我们的图元更智能,混合模型非单调,渲染比以往任何时候都更高效。随着 3DGS 继续被集成到从 VR 到自动驾驶的各个领域,SSS 提供的参数效率增益可能是将这些模型部署在受限硬件上的关键。
](https://deep-paper.org/en/paper/2503.10148/images/cover.png)