引言
在 3D 计算机视觉和图形学的世界里,准确地表示形状是成功的一半。虽然点云和网格是经典格式,但隐式神经表示 (Implicit Neural Representations) 已经席卷了该领域。特别是,神经符号距离函数 (Neural Signed Distance Functions, SDFs) 已成为表示水密、高保真表面的黄金标准。
SDF 是一个数学函数,它能告诉你 3D 空间中任意一点距离物体表面的距离。如果你在物体内部,该值为负;如果你在外部,该值为正;如果你正好在表面上,该值为零。
但这其中有个陷阱。训练神经网络从原始数据 (如点云) 中学习完美的 SDF 众所周知地困难。目前使用的标准损失函数通常无法保证生成数学上有效的距离场,从而导致伪影、“幽灵”几何体或训练不稳定性。
在这篇文章中,我们将深入探讨 HotSpot , 这是一篇来自加州大学圣地亚哥分校的精彩论文。作者提出了一种利用热力学概念——具体来说是热扩散物理学——来优化 SDF 的新颖方法。通过用“热损失”取代标准的几何约束,他们实现了理论上保证的收敛性,并显著改善了复杂形状的重建效果。

问题所在: 必要条件 vs. 充分条件
为了训练神经网络来表示 SDF,我们通常依赖程函方程 (Eikonal equation) 。
在数学上,一个真实的符号距离函数 \(f(x)\) 必须满足其梯度模长几乎处处为 1 的属性。直观地说,这意味着如果你在空间中远离表面移动 1 个单位,距离值应该正好变化 1 个单位。
\[||\nabla f(x)|| = 1\]标准方法 (如 IGR 或 SAL) 试图通过在训练目标中添加“程函损失”来强制执行这一点:

问题在于: 满足程函方程是 SDF 的必要条件,但它不是充分条件。
可以这样想: 所有的正方形都是矩形。如果你想找一个正方形,你可能会寻找一个有四个直角的形状 (“矩形条件”) 。然而,找到一个矩形并不能保证你找到了一个正方形——你可能找到了一个长方形。
同样,有许多函数满足 \(||\nabla f(x)|| = 1\),但它们不是有效的距离函数。它们可能具有奇怪的奇异点或不正确的零水平集 (幻影表面) 。

如图 2 所示,最小化程函损失允许那些虽然满足“程函”性质但并非距离函数的解存在。
为了从实践角度说明这一点,请看下面的图 3 。 我们要神经网络学习“真值”距离 (虚线 V 形) 。程函损失 (红色) 创建了一个几乎处处梯度为 1 的函数 (斜率是恒定的) ,但它剧烈震荡或产生尖锐的扭结。它在局部满足数学要求,但在全局上失败了。

此外,优化程函损失在数值上是不稳定的。它基于双曲偏微分方程 (PDE),这种方程会保留误差而不是平滑误差。如果网络在一个区域犯了一个小错误,该错误会沿着特征线 (射线) 无限向外传播。
HotSpot 解决方案: 屏蔽泊松方程
研究人员提出了一种名为 HotSpot 的方法,它使用了一种完全不同的物理直觉: 热传递 。
他们利用了距离与屏蔽泊松方程 (Screened Poisson Equation) 之间的关系。想象物体表面是一个固定在特定温度的热源。3D 空间的其余部分是一个吸热介质。该方程描述了热量如何在空间中扩散。
屏蔽泊松方程定义为:

这里,\(h(x)\) 是“热场”,\(\lambda\) (lambda) 是吸收系数。边界条件指出,在表面 \(\Gamma\) 上,热量 \(h(x) = 1\),而在远离物体的地方,热量降至 0。
从热到距离
为什么这与距离场有关?有一个经典的数学结果 (Varadhan, 1967) 将这个热场与到表面的距离 \(d_\Gamma(x)\) 联系起来:

该方程表明,随着吸收系数 \(\lambda\) 变得非常大,对数变换后的热场将精确收敛到距离函数。
其直觉在下方的图 4 中进行了可视化。
- 顶部 (1D): 随着 \(\lambda\) 增加,重建的距离 (蓝色曲线) 越来越紧密地贴合真值 V 形。
- 底部 (2D): 热量从房子形状的边界扩散开来。在高 \(\lambda\) 下,热衰减剧烈,提供了精确的距离梯度。

设计损失函数
目标是训练神经网络 \(u(x)\) 来输出 SDF。作者没有强迫 \(u(x)\) 直接满足程函方程,而是强迫它满足屏蔽泊松方程的物理规律。
他们定义了网络输出 \(u\) 与热量 \(h\) 之间的关系:

通过将其代入泊松方程的能量泛函中,他们推导出了一个新的损失函数, \(L_{heat}\) :

当网络最小化此损失时,它实际上是在求解热方程。总损失函数变为边界损失 (将零水平集固定在点云上) 、程函损失 (用于正则化) 和这个新热损失的加权和:

为什么 HotSpot 效果更好
从纯程函约束转向基于热的约束带来了三大优势: 充分性、稳定性和拓扑结构 。
1. 渐近充分条件
与程函损失不同,HotSpot 公式提供了一个渐近充分条件 。 作者在数学上证明了,随着 \(\lambda\) 增加,解被限制在接近真实距离函数的范围内。

这意味着网络不仅仅是“被允许”成为距离函数;它是被迫收敛于它。
2. 优化稳定性
屏蔽泊松方程是椭圆型的,这意味着它具有平滑性质。在程函 (双曲型) 世界中,函数中的一个小凸起会产生延伸至无穷远的误差“激波”。在热 (椭圆型) 世界中,局部误差会随着距离的增加呈指数衰减。
图 5 可视化了梯度流 (训练期间函数的更新方式) 。
- 左 (仅程函) : 更新是混乱的。
- 右 (HotSpot) : 更新是平滑且单调的,自然地推动函数趋向正确的 V 形距离轮廓。

3. 处理复杂拓扑
标准的 SDF 方法通常难以处理“高亏格”形状——即具有许多孔洞的物体,如晶格或甜甜圈。它们倾向于“封闭”孔洞或在应该有空隙的地方创建薄膜,因为它们隐式地过于激进地最小化表面积。
HotSpot 自然地惩罚表面积,但在这样做时不会扭曲距离场。它尊重热扩散过程所隐含的拓扑结构。
实验结果
作者将 HotSpot 与 DiGS、StEik 和 SAL 等最先进的方法进行了对比测试。
2D 重建
在 2D 实验中,模型必须重建复杂的矢量形状。当其他方法平滑掉角落或未能捕捉错综复杂的断开部分时,HotSpot 保持了高保真度。

消融实验 (移除特定损失组件) 表明,热损失是捕捉正确拓扑结构的关键因素 (见下方的尖锐三角形) 。没有它,方法会陷入局部最优,产生“凹痕”或多余的墙壁。

3D 高亏格形状
最引人注目的结果来自具有复杂孔洞的 3D 形状。在下面的示例中,请看 Genus6 (顶行) 和 Kangaroo (中行) 。
- SAL, DiGS, StEik: 它们难以定义孔洞,经常将其填满或产生噪声伪影。
- HotSpot (Ours): 它捕捉到了 Genus 形状的干净环路和 Kangaroo 的晶格结构,且训练迭代次数显著减少 (10k vs 20k) 。

对于 Voronoi 球体 (下图) 也是如此。HotSpot 干净地分离了晶格的内层和外层,而基线方法则产生“混乱和嘈杂的内部”。

更好的距离场 = 更快的渲染
SDF 通常使用球体追踪 (Sphere Tracing) 进行渲染,这是一种沿着光线前进直到碰到表面的算法。步长取决于 SDF 返回的距离值。如果 SDF 不准确 (返回的值大于真实距离) ,光线可能会过冲。如果太小,光线步伐细微,浪费计算资源。
因为 HotSpot 学习到了更准确的距离场,球体追踪收敛得快得多。如下方的热图所示,与 SAL 或 DiGS 相比,HotSpot (较暗的像素) 渲染图像时每像素所需的迭代次数更少。

结论
HotSpot 论文强调了神经几何深度学习中的一个基本问题: 仅仅因为损失函数在数学上看起来是正确的 (如程函方程) ,并不意味着它在计算上足以解决问题。
通过将几何问题转化为热力学问题,作者利用热方程的良好性质稳定了优化过程。
- 保证收敛: 它渐近地逼近真实距离。
- 稳定性: 它平滑误差而不是传播误差。
- 准确性: 它能处理让其他方法崩溃的复杂、多孔形状。
对于 3D 视觉领域的学生和研究人员来说,这项工作是一个很好的提醒: 有时解决几何问题的最好方法是像处理物理问题一样处理它。
本文中的所有图像和公式均摘自 Wang 等人的研究论文 “HotSpot: Signed Distance Function Optimization with an Asymptotically Sufficient Condition”。
](https://deep-paper.org/en/paper/2411.14628/images/cover.png)