引言

在快速发展的机器人领域,构建高保真 3D 地图的能力至关重要。无论是检查仓库的无人机,还是探索灾区的四足机器人,机器人都依赖这些地图来理解环境。近年来, 3D 高斯泼溅 (Gaussian Splatting, GSplat) 已成为一种强大的场景表示技术,提供了超越传统点云或体素地图的照片级逼真质量和实时渲染速度。

然而,一个显著的瓶颈依然存在: 多机器人协作 。 当多个机器人探索大片区域时,它们各自生成自己的局部“子地图”。为了创建一个连贯的全局地图,必须将这些局部子地图拼接在一起——这一过程被称为配准 (registration)

传统上,配准地图需要以下两点之一:

  1. 先验知识: 大致知道机器人的相对起始位置 (初始化) 。
  2. 共享数据: 获取每个机器人的原始相机图像和位姿以寻找重叠部分。

在许多现实场景中,这两者都不可用。通信带宽可能很低,无法共享原始视频数据,且室内可能无法接收 GPS 信号。

这就引出了 SIREN (Semantic, Initialization-free REgistratioN,即语义、免初始化配准)。

图 1: SIREN 实现了多机器人高斯泼溅地图的鲁棒配准。

如上图所示,SIREN 是一个新的流程,能够获取两个完全断开连接的子地图 (例如来自机器人 \(R_0\) 和机器人 \(R_1\) 的地图) ,并在不需要相机位姿、原始图像或任何初始对齐猜测的情况下完美融合它们。它通过将重点从纯几何转移到语义——理解场景中有什么,而不仅仅是点在哪里——来实现这一点。

地图配准的挑战

要理解 SIREN 的价值,我们必须了解为什么合并 3D 地图如此困难。这实际上是一个 3D 拼图游戏。你有两个场景碎片 (子地图) ,它们有重叠部分,但方向不同、比例不同,并且处于任意的坐标系中。

几何局限性

像迭代最近点算法 (ICP) 这样的经典算法试图滑动这些地图,直到几何形状吻合。然而,ICP 是“局部”的——如果你开始时地图没有大致对齐,它就会失败,可能会将地图锁定在一个荒谬的配置中 (局部极小值) 。

辐射场障碍

对于现代神经辐射场 (NeRFs) 和高斯泼溅,这个问题更加棘手。这些表示针对视图合成进行了优化,并不一定具有精确的几何结构。之前配准 NeRF 或 GSplat 的方法通常需要原始训练图像来对场景进行光度对齐。如果机器人只传输压缩后的地图而不是数 GB 的原始视频,那些方法就毫无用处了。

SIREN 架构

SIREN 通过利用层级信息克服了这些限制: 语义 \(\rightarrow\) 几何 \(\rightarrow\) 光度

该算法分三个不同的阶段运行,旨在从粗略的全局层面到精细的像素层面解决配准问题。

图 2: SIREN 包含三个步骤: 语义特征提取、粗略配准和精细光度配准。

让我们详细拆解 SIREN 方法论的这三大支柱。

1. 语义特征提取与匹配

对齐两个未知地图最稳健的方法是识别独特的物体。如果两个地图都包含一个“灭火器”和一个“红色出口标志”,那么对齐这些特定物体就能提供非常强的粗略对齐,无论地图如何旋转。

SIREN 将高维语义特征直接嵌入到高斯泼溅模型中。每个 3D 高斯椭球体不仅包含颜色和不透明度,还携带从视觉语言模型 (如 CLIP) 导出的语义向量。

训练语义 GSplats

研究人员在标准 GSplat 颜色属性旁边训练了一个语义场。他们使用对比损失函数来确保渲染出的 3D 语义特征与基础模型从训练图像中提取的 2D 语义特征相匹配。

该过程的损失函数定义为:

语义损失方程

这里,\(\mathcal{L}_{\mathrm{gs}}\) 是标准高斯泼溅损失,而附加项使用余弦相似度 \(\phi\) 最小化渲染的语义特征 \(\hat{\mathcal{I}}_f\) 与真实特征 \(\mathcal{I}_f\) 之间的差异。

匹配

一旦地图训练完成,SIREN 会提取“富含特征”的高斯体——那些与特定语义概念 (例如“椅子”、“植物”) 强烈对应的高斯体。然后,它基于这些语义向量的余弦相似度,在源地图和目标地图之间进行匹配。这创建了一组候选对应关系 \(\mathcal{E}\),将地图 A 中的一个高斯体链接到地图 B 中的一个高斯体,因为它们可能代表同一物体的同一部分。

2. 粗略高斯-高斯配准

有了一组候选匹配后,下一步是几何配准 。 目标是找到一个变换——包含缩放 (\(s_c\))、旋转 (\(R\)) 和平移 (\(t\))——来对齐匹配的高斯体。

SIREN 将此公式化为一个优化问题。它试图最小化匹配点之间的距离以及它们协方差 (形状) 的差异,并由语义相似度 \(w_{ij}\) 进行加权。

优化目标是:

方程 5: 粗略配准目标函数

该方程最小化两件事:

  1. 位置差异: \(\| s_c R p_i + t - q_j \|^2_2\) (均值位置之间的距离) 。
  2. 形状差异: Frobenius 范数项检查源高斯旋转后的形状 (协方差) 是否与目标高斯匹配。

闭式解

通常,求解这些参数需要迭代求解器,速度慢且容易出错。本文的一个主要贡献是推导出了针对该特定问题公式的闭式解 。 这意味着可以使用线性代数 (奇异值分解) 瞬间计算出最佳对齐。

推导出的解允许显式计算旋转 \(R_c^*\)、缩放 \(s_c^*\) 和平移 \(t_c^*\):

方程 6: 粗略配准的闭式解

为了使这一过程对异常值 (例如,将厨房里的“椅子”与餐厅里的“椅子”错误匹配) 具有鲁棒性,作者使用了 RANSAC (随机采样一致性) 。这种统计方法重复选取小的匹配子集,以找到满足大多数数据的变换,从而有效地过滤掉错误的语义匹配。

3. 精细光度配准

语义和粗略几何对齐让地图“大体一致”。然而,对于高保真融合,“大体”是不够的。融合后的地图需要看起来天衣无缝。

SIREN 通过光度配准实现了这一点。它使用粗略对齐来建立一个公共坐标系。然后,它利用高斯泼溅的独特能力: 新视角合成

  1. 渲染合成图像: SIREN 在估计的相同相机位姿下,从源地图和目标地图渲染图像。
  2. 特征匹配: 它在这些渲染图像上使用标准的计算机视觉特征提取器 (如 SuperPoint) ,以找到语义可能遗漏的精确视觉地标 (角点、边缘、纹理) 。
  3. 光束法平差 (Bundle Adjustment): 它运行轻量级的运动恢复结构 (SfM) 优化来微调相对变换。

这一步修正了粗略步骤无法解决的微小旋转或平移误差,确保地板的纹理或盒子上的文字在两个地图之间完美对齐。

实验与结果

研究人员将 SIREN 与一系列最先进的基准方法进行了测试,包括 PhotoRegGaussReg 以及 ICP 的变体。测试涵盖了标准数据集 (Mip-NeRF360) 和由波士顿动力 Spot (四足机器人) 、无人机和机械臂收集的真实世界数据。

几何精度

与传统方法相比,SIREN 的几何精度令人震惊。

表 I: Mip-NeRF360 数据集上的几何性能

在表 I 中,查看平移误差 (TE)旋转误差 (RE) 列。在“卡车 (Truck)”场景中,PhotoReg 和 RANSAC-GR 等方法显示出巨大的误差 (平移误差 > 2000) 。SIREN 将其降低到了个位数 (6.8 - 8.0)。

在最具挑战性的场景中,论文报告 SIREN 大约实现了:

  • 旋转误差降低 90 倍
  • 平移误差降低 300 倍
  • 缩放误差降低 44 倍

视觉保真度

数据固然重要,但在视觉建图中,渲染结果才是铁证。

图 4: 融合后的 GSplat 地图渲染图像对比。

在图 4 中,我们可以看到“游戏室”、“卡车”和“房间”场景的对比。

  • 绿色方框: 突出显示细节区域。
  • PhotoReg: 经常导致严重的模糊 (重影) ,表明地图没有正确重叠。
  • SIREN-R (右): 生成清晰、连贯的图像。卡车和家具的几何结构得以保留,表明两个子地图已高精度融合。

移动机器人建图

团队部署了一个四足机器人和一个无人机来绘制厨房、车间和公寓的地图。这些环境是非结构化且“杂乱”的,是典型的现实世界机器人任务场景。

图 6: 厨房、车间和公寓场景融合后的 GSplat 地图渲染图像。

如图 6 所示,即使在这些复杂的环境中,SIREN 也能成功配准地图。“Ground Truth (真实值) ” (左) 与“SIREN-R” (右) 非常接近。像 GaussReg 这样的竞争方法通常会引入伪影或无法对齐场景的高频细节 (如架子上的物品) 。

应用: 协作操作

这项技术最引人注目的应用之一是多臂操作 。 机械臂通常工作空间有限。要绘制一张大桌子的地图,你可能需要两个机器人。

图 8: 由两个机械臂训练的桌面场景局部地图的渲染图像。

图 8 完美地展示了这一场景:

  • 独立子地图: 左边的机器人可以清晰地看到桌子的左侧,但右侧模糊或缺失 (够不着) 。右边的机器人情况正好相反。
  • 融合地图: SIREN 将这些部分视图拼接在一起。
  • 微调 (Finetuning): 右下角的面板显示了额外微调步骤后的结果。SIREN 可以从融合地图生成合成数据来重新训练 GSplat,去除“漂浮物” (空白空间中的雾状伪影) ,并创建桌面的干净全局地图。

图 9: 微调前后的对比。

能够在不需要回去重新拍照的情况下微调地图是一个显著的优势。图 9 详细展示了微调如何使视觉效果更清晰,去除原始子地图中固有的噪点。

结论

SIREN 代表了机器人建图的一大进步。通过将配准与对相机位姿或先验初始化的需求解耦,它赋予了机器人新的自主水平。它们可以依靠所见事物的内容——语义——而不是外部跟踪系统来探索、绘制并融合它们对世界的理解。

语义鲁棒性 (用于全局对齐) 和光度精度 (用于局部微调) 的结合被证明是一种制胜策略。随着机器人越来越多地走出实验室,进入灾区、建筑工地和家庭等非结构化环境,像 SIREN 展示的这种能力对于连贯的大规模空间理解将至关重要。