简介

无人机彻底改变了我们捕捉世界的方式。从检查巨大的桥梁到测绘城市景观和保护文化遗产，能够在 3D 空间中任意位置放置相机的能力是无价的。然而，将这些航拍照片转化为精确、逼真的 3D 模型是一场计算噩梦，尤其是当现实世界并非静止不动时。

传统的摄影测量方法以及最近的神经辐射场 (NeRFs) 已经突破了可能的界限。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 席卷了该领域，提供了 NeRF 梦寐以求的实时渲染速度。但这里有个问题: 大多数算法假设世界是完全静止的，并且我们拥有完美的相机覆盖范围。

实际上，无人机拍摄的镜头是“野外”环境下的。汽车驶过，行人穿过画面，由于障碍物或电池限制，无人机可能无法捕捉到建筑物的每一个角度。当你将这种不完美的数据输入标准 3DGS 时，结果往往充满了移动物体留下的“鬼影”伪影，或者在视角稀疏的地方出现几何变形。

DroneSplat 登场。

图 1 展示了 DroneSplat 的核心能力。左侧是输入的繁忙场景图像。右侧，DroneSplat 成功移除了动态车辆，而标准 3DGS 产生了鬼影伪影。

在这篇深入探讨中，我们将研究一种专为处理现实世界无人机图像的混乱情况而设计的新框架。我们将了解 DroneSplat 如何智能地屏蔽移动的“干扰物” (distractors) ，并利用体素引导优化在相机角度受限的情况下重建几何结构。

双重挑战: 动态性与稀疏性

要理解为什么需要 DroneSplat，我们首先需要认识到当前重建方法的脆弱性。像 3DGS 这样的算法通过寻找多张图像之间的一致性来工作。如果空间中的一个点从三个不同角度看起来都一样，算法就会自信地在那里放置一个 3D 高斯体。

然而，“野外”无人机图像引入了两个主要的破坏因素，如下图所示:

图 2 说明了两个主要挑战: 动态干扰物 (出现在不同位置的移动人/车) 和受限的视角约束 (极少相机覆盖的区域) 。

1. 场景动态 (干扰物)

想象一下无人机盘旋在停车场上方。第一秒，一辆红车正在进入停车场。十秒后，车停好了。对算法来说，这很令人困惑。代表那辆车的像素改变了位置，违反了“多视角一致性”假设。标准算法试图对此进行平均，导致最终 3D 模型中出现模糊、半透明的鬼影。

2. 视角稀疏性

无人机机动性强，但不是魔法。在单次飞行路径中，无人机可能沿直线飞过街道。这会产生许多图像，但它们可能都是从相似的方向看场景。这种“受限视角约束”给 3DGS 带来了问题，因为它倾向于过拟合训练图像。如果没有来自多侧的视角来约束几何形状，3DGS 经常会产生“漂浮物 (floaters) ”——这些伪影从训练角度看是正确的，但当你旋转模型时，它们实际上悬浮在半空中。

DroneSplat 框架

DroneSplat 通过从根本上改变 3DGS 管道处理数据的方式来解决这些问题。它不仅仅将每个像素一视同仁；它积极地判断哪些像素是可靠的 (静态的) ，哪些不是 (动态的) ，同时利用几何先验在稀疏区域引导重建。

图 3 提供了 DroneSplat 管道的高级概览，从输入图像到多视角立体视觉 (MVS) 点云、体素引导的高斯泼溅以及自适应局部-全局掩膜循环。

该框架建立在两大支柱之上: 用于动态物体的自适应局部-全局掩膜和用于几何结构的体素引导高斯泼溅 。让我们逐一分解。

第一部分: 用自适应掩膜解决动态问题

去除移动物体的标准方法是使用语义分割网络 (比如一个知道“车”长什么样的 AI) 并将它们掩盖掉。但这很脆弱。如果你想保留停着的车但移除移动的车怎么办？标准的语义掩膜会将两者都移除。

DroneSplat 采用了一种更聪明的方法，结合了残差 (错误率) 和分割。

残差的逻辑

当 3D 模型渲染图像时，它会将其与地面真值照片进行比较。场景的静态部分通常匹配得很好 (低残差) 。移动物体，因为它们不在 3D 模型中的同一位置，会产生高误差 (高残差) 。

研究人员基于 L1 损失和结构相似性 (D-SSIM) 计算组合残差:

公式 7 展示了组合归一化残差的计算。

然而，你不能只选一个“错误数值”就说高于它的都是车。错误率随着模型的训练而变化，并且场景之间各不相同。这需要一种自适应的方法。

自适应局部掩膜

作者观察到一个统计趋势: 静态物体的残差通常落在特定的统计范围内 (均值加方差) ，而动态物体则是离群值。

DroneSplat 不是使用硬编码的阈值，而是在每次迭代中为每张图像计算动态阈值 \(\mathcal{T}^L\)。

公式 12 定义了基于残差期望和方差的自适应局部阈值，并根据训练进度进行调整。

通过应用此阈值，系统生成一个局部掩膜 。它识别出那些统计上误差过高、不属于静态场景的区域。

图 12 可视化了自适应阈值处理。直方图显示像素残差。红线代表自适应阈值，成功地将静态背景与高残差的动态物体分离开来。

如上面的直方图所示，静态背景 (左侧的大凸起) 与动态物体 (右侧的长尾巴) 截然不同。DroneSplat 剪掉了尾巴。

视觉效果非常显著。硬阈值可能会遗漏移动物体的一部分或意外删除复杂的静态纹理，而自适应掩膜随训练演变。

图 4 比较了硬阈值处理与自适应局部掩膜。自适应方法 (d) 比静态阈值 (c) 更准确地捕捉了移动物体的形状。

互补全局掩膜

局部方法有一个缺陷: 红绿灯问题 。想象一辆车沿街行驶，然后在红灯前停了 10 秒。在这 10 秒内，这辆车实际上是“静止的”。局部残差方法可能会因为这几帧中的误差较低而判定该车是永久场景的一部分。

为了解决这个问题，DroneSplat 引入了使用 Segment Anything Model v2 (SAM 2) 的全局掩膜 。

如果在某些帧 (当它在移动时) 中一个对象被识别为干扰物 (高残差) ，系统将其标记为“跟踪候选对象”。
它使用 SAM 2 在视频序列中前后跟踪该特定对象。
即使对象停止移动，SAM 2 知道它是之前移动的同一个对象，系统会将其掩盖。

图 14 说明了互补全局掩膜。一辆白色车辆 (残差中高亮为黄色) 即使在静止时也被跟踪并掩盖 (蓝框) ，从而更新了全局掩膜集。

通过结合局部统计和全局视频理解，系统既能捕捉快速移动的干扰物，也能捕捉棘手的“走走停停”的物体。

第二部分: 用体素引导优化解决稀疏性问题

现在移动物体消失了，我们留下了静态场景。但如前所述，无人机镜头往往缺乏标准 3DGS 所需的完美 360 度覆盖。

标准 3DGS 随机或稀疏地初始化点 (使用基本的 SfM) 。当视角受限时，优化过程会陷入混乱，将这些点拉伸成巨大、扁平的泼溅以覆盖空白空间，导致糟糕的几何形状。

DroneSplat 通过强制执行几何先验来解决这个问题。

步骤 A: 多视角立体视觉 (MVS) 初始化

作者没有从零开始，而是使用了一种最先进的 MVS 方法，称为 DUSt3R 。这个深度学习模型从无人机图像预测密集点云。这就像在 3DGS 模型开始训练之前给它一张关于几何结构大致位置的“小抄”。

步骤 B: 几何感知点采样

来自 DUSt3R 的点云非常密集——通常太密集了 (数百万个点) 。在每一个点上初始化一个高斯体会耗尽 GPU 显存并拖慢训练。

DroneSplat 使用了一种智能采样策略。它将世界划分为体素 (3D 网格单元) ，并基于置信度和 FPFH (快速点特征直方图) 来选择点。FPFH 是一种描述点“几何趣味性”的指标 (例如，是角落、边缘还是平坦的墙壁) 。

图 15 比较了原始密集点云 (a) 与采样点云 (b)。采样版本保留了结构完整性和几何形状，同时显著减少了点数。

这确保了初始化的“高斯体”被准确放置在需要表现复杂形状的地方，而不会在平坦表面上浪费资源。

步骤 C: 体素引导优化

这是关键的约束。即使有良好的初始化，如果不仔细监控，3DGS 可能会在训练期间“破坏”几何结构。

DroneSplat 设定了严格的边界。因为初始化来自可靠的点云，系统假设真实表面就在那些初始点附近。它将场景划分为体素并将高斯体分配给它们。

如果一个高斯体试图移动太远或变得太大 (离开其分配的体素) ，系统将其标记为“不受约束”。梯度 (告诉高斯体如何变化的信号) 会根据高斯体漂移的距离受到惩罚。如果漂移太远，它会被分裂或修剪。

图 16 展示了体素引导优化的影响。在 (b) 中，普通优化在天空中产生了“漂浮物”和碎片。在 (c) 中，DroneSplat 的体素引导使几何结构紧贴建筑物和地面。

这迫使 3DGS 模型尊重 MVS 先验提供的底层几何结构，防止了稀疏视角场景中常见的“爆炸”伪影。

实验结果

研究人员针对广泛的基准验证了 DroneSplat，包括 RobustNeRF、NeRF On-the-go 以及其他基于高斯的方法，如 WildGaussians。他们还引入了一个包含多样化城市场景的新 DroneSplat 数据集 。

1. 消除干扰物

在涉及动态场景的测试中，DroneSplat 展示了卓越的清除移动物体同时保留背景细节的能力。

图 18 展示了定性比较。注意“凉亭 (Pavilion) ”和“路口 (Intersection) ”行。基准方法经常留下模糊的鬼影或删除静态结构 (如柱子) 。DroneSplat (右二) 生成了干净、清晰的背景。

定量指标 (PSNR, SSIM, LPIPS) 证实了这种视觉改善。下表强调 DroneSplat 始终获得最高的峰值信噪比 (PSNR) ，表明图像保真度更好。

图 6 展示了定量数据。与所有基准相比，DroneSplat 在低、中、高动态场景中均取得了最高分。

2. 处理稀疏视角

对于受限视角实验 (仅使用 6 张输入图像！) ，差异同样巨大。基于 NeRF 的方法通常完全无法捕捉几何结构，而标准 3DGS 产生充满噪点的结果。

图 20 比较了稀疏重建。在“理工大学 (Polytech) ”场景 (底行) 中，请看橙色高亮框。DroneSplat 在其他方法崩溃成噪点的地方保持了锐利的边缘和连贯的结构。

体素引导策略确保即使数据极少，模型也“知道”建筑物应该在哪里。

图 9 展示了 UrbanScene3D 数据集上的额外结果。DroneSplat 取得了比 InstantSplat 和 Scaffold-GS 等竞争性稀疏方法更高的结构相似性 (SSIM) 。

结论与未来展望

DroneSplat 代表了在不受控环境中进行 3D 重建的重大进步。通过承认现实世界是混乱的——充满了移动的汽车、行人以及不完美的飞行路径——研究人员构建了一个足够鲁棒的系统以供实际应用。

这项工作的关键结论是:

不要相信每个像素: 基于残差和统计的自适应掩膜比用于识别移动物体的固定阈值更可靠。
上下文很重要: 使用视频分割 (SAM 2) 让系统理解停下来的车仍然是车，解决了“间歇性运动”问题。
几何优先: 在稀疏视角条件下，仅依靠光度 (颜色) 优化是不够的。利用几何先验 (来自 MVS) 并通过体素约束优化提供了精确 3D 建模所需的护栏。

对于计算机视觉领域的学生和研究人员来说，DroneSplat 展示了混合方法的力量——结合高斯泼溅的速度、多视角立体视觉的几何推理以及分割模型的语义理解，来解决野外环境的复杂性。

简介#

双重挑战: 动态性与稀疏性#

1. 场景动态 (干扰物)#

2. 视角稀疏性#

DroneSplat 框架#

第一部分: 用自适应掩膜解决动态问题#

残差的逻辑#

自适应局部掩膜#

互补全局掩膜#

第二部分: 用体素引导优化解决稀疏性问题#

步骤 A: 多视角立体视觉 (MVS) 初始化#

步骤 B: 几何感知点采样#

步骤 C: 体素引导优化#

实验结果#

1. 消除干扰物#

2. 处理稀疏视角#

结论与未来展望#

简介