创建一个真实世界空间的精细、可交互的 3D 模型,一直是计算机视觉领域的终极目标。想象一下,用手机为你的公寓拍摄一段视频,就能即刻拥有一个可以在 VR 中漫步的逼真数字孪生——或者一个机器人利用同一段视频来构建精确的导航地图。这就是**即时三维重建 **(on-the-fly 3D reconstruction) 的前景,这项技术对 AR/VR、机器人和“真实到模拟” (real-to-sim) 内容创作至关重要。

挑战何在?要做好这件事,需要在三个相互竞争的目标之间取得平衡:** 速度**、准确性鲁棒性。多年来,研究人员一直面临着艰难的权衡:

  • 逐场景优化方法: 这类方法就像一丝不苟的艺术家,通常使用*同步定位与建图 *(SLAM) 等经典技术从头开始精心构建一个场景。它们可以实现惊人的高保真效果,但速度慢且计算成本高,当视频存在运动模糊或光照不佳时,往往会遇到困难。

  • 前馈基础模型: 这类模型就像在海量互联网规模数据集上训练出来的天才。它们可以观察一个图像序列并即时生成一个 3D 场景。它们工作速度快,对各种输入具有鲁棒性,并且无需精细的逐场景调优。然而,其结果往往缺乏较慢优化方法所具备的精细细节和全局一致性。

我们是要选择一个精美但创建缓慢的 3D 模型,还是一个快速但模糊的模型?有了 ARTDECO,我们或许不必再做选择。这个统一的框架结合了前馈模型的效率和 SLAM 的可靠性,实现了高质量、实时的三维重建。

一张拼贴图,展示了厨房、办公室、店面和户外街景的高质量三维重建效果,彰显了 ARTDECO 的能力。

图 1: ARTDECO 能够从单目图像中实现高保真、可交互的三维重建,并在室内外场景中兼具效率与鲁棒性。


背景: 现代三维重建的基石

在深入了解 ARTDECO 之前,让我们先回顾一下它所基于的关键概念。

1. 三维高斯溅射 (3DGS) :
神经辐射场 (NeRFs) 曾一度在逼真场景创建领域独占鳌头,它将场景表示为一个由神经网络处理的连续三维场——训练慢,渲染也慢。3DGS 通过用数百万个微小的各向异性三维高斯 (可以把它们想象成空间中的半透明斑点) 取代连续场,彻底改变了这一领域。这种显式表示方法实现了实时渲染 (100+ FPS) ,同时达到或超过了 NeRF 级别的质量,非常适合交互式应用。

2. SLAM (同步定位与建图) :
作为一个经典的机器人学和计算机视觉问题,SLAM 在跟踪相机运动的同时构建场景地图。传统 SLAM 能产生精确的轨迹,但点云稀疏——不足以呈现沉浸式视觉效果。

3. 三维基础模型:
在海量图像和三维内容数据集上训练的大型神经模型,学习到关于世界结构的强大先验知识。它们可以从单目输入中估计相机位姿、深度图和几何形状,为解决单相机 (单目) 设置中常见的模糊性问题提供强有力的起点。

核心思想:
ARTDECO 并非选择单一范式,而是构建了一个协同工作管线,使各组件的优势互补,覆盖彼此的短板。


ARTDECO 方法: 三步曲

ARTDECO 通过三个相互关联的模块处理视频流:

  1. 前端: 实时跟踪与帧选择。
  2. 后端: 带有闭环检测的全局轨迹优化。
  3. 建图: 增量式、结构化的三维高斯场景构建。

一张示意图,展示了 ARTDECO 管线的前端和后端模块,说明了帧选择、闭环检测和束调整。

图 2: (a) 前端 — 使用匹配模块对帧进行分类和跟踪。(b) 后端 — 集成闭环检测和束调整以实现全局一致性。

第一步: 前端——解析视频流

前端负责观察输入的视频帧,估计相机运动,并确定每一帧的作用。

位姿估计:
ARTDECO 在匹配模块中使用 MASt3R 基础模型,预测当前帧与最新关键帧之间的稠密双视图对应关系和点图。它通过最小化残差重投影误差来估计相对相机位姿,并根据每个点的不确定性加权,以避免不可靠的匹配 (尤其是在物体边界附近) 。

帧分类:
帧分为以下三类:

  • 关键帧 (KF) : 拥有显著新视角的锚点帧——发送到后端和建图模块。
  • 建图帧 (MF) : 具有足够视差,可增加几何细节的帧——发送到建图和后端模块。
  • 普通帧: 仅用于优化现有高斯的帧——在不增加新几何结构的情况下提升细节。

这样可高效利用数据: 需要时添加几何结构,其余情况下持续细化优化。


第二步: 后端——保持整体一致性

随着轨迹变长,微小误差会累积,导致漂移。后端用于缓解这一问题。

闭环检测与全局束调整:
当系统回到已访问过的位置时,就有机会校正漂移。首先,*聚合选择性匹配核 *(ASMK) 快速定位候选的历史关键帧。然后,另一个三维基础模型 π³ 验证候选帧与当前视图之间的几何一致性。

确认的闭环将被添加到因子图中,并通过全局束调整同时优化所有位姿。这保证了多视图下的几何一致性,并显著提升定位精度。


第三步: 建图模块——构建高斯世界

该模块利用所有类型的帧构建三维高斯场景。

建图过程示意图,展示了如何使用多分辨率输入来添加和优化具有细节层次控制的三维高斯。

图 3: 使用高斯拉普拉斯算子进行多分辨率分析,以确定新增高斯的位置。具备 LoD 感知的渲染根据相机距离控制密度。

概率性高斯插入:
高斯会被插入到最需要的区域——高细节区域或渲染与真实帧差异较大的地方。这一过程使用高斯拉普拉斯 (LoG) 算子:

\[ P_a(u,v) = \max\Big(\min(\|\nabla^2(G_{\sigma}) * I(u,v)\|, 1) - \min(\|\nabla^2(G_{\sigma}) * \tilde{I}(u,v)\|, 1), 0\Big) \]

分层细节等级 (LoD) :
高斯被组织为不同分辨率层级,每个层级有最大可视距离 (\(d_{\max}\)) 。粗高斯用于表示远处结构;精细高斯用于捕捉近处细节。渲染时,仅绘制与相机距离相关的高斯——这样既提高了速度,又消除了闪烁。

结构化初始化:
新的高斯基于 MASt3R 的点图初始化:

  • 位置: 三维点图。
  • 颜色: 源图像像素颜色。
  • 尺度: 来自局部图像梯度,并通过结合每个高斯特征与区域共享体素特征的 MLP 进行优化。
    这种混合设计平衡了局部的独特性与全局的一致性。

实验与结果

ARTDECO 在八个基准测试中进行了评估,涵盖了多样化的室内 (TUM、ScanNet++、VR-NeRF、ScanNet) 和室外 (KITTI、Waymo、Fast-LIVO2、MatrixCity) 数据集。

重建质量:

一张表格,比较了 ARTDECO 与其他方法在室内外数据集上的渲染质量 (PSNR、SSIM、LPIPS) 。

表 1: ARTDECO 在所有指标上均取得了最高的视觉质量,表现为高 PSNR、高 SSIM 和低 LPIPS 值。

不同方法的三维重建效果对比,突显了 ARTDECO 卓越的细节和清晰度。

图 4: ARTDECO 始终能生成清晰、细节丰富的重建结果,精准捕捉纹理和复杂结构。

跟踪精度:

一张表格,比较了 ARTDECO 与其他 SLAM 系统的跟踪精度 (ATE RMSE) 。

表 2: ARTDECO 的跟踪精度可与专门的 SLAM 系统相媲美甚至超越,验证了集成基础模型进行位姿估计与闭环检测的有效性。

消融研究:

消融研究的量化结果,展示了各组件对跟踪与重建性能的影响。

表 3: 移除 LoD 会降低渲染质量;禁用基础模型的闭环检测会增加漂移;忽略建图帧会造成细节丢失。


ARTDECO 效果出众的原因

  1. 混合范式是未来:
    融合基础模型的世界结构先验与 SLAM 的优化能力,兼具鲁棒性与准确性。

  2. 结构化 LoD 表示:
    分层高斯结构是扩展至复杂、大规模环境的关键。

  3. 将基础模型作为专家插件:
    将预训练模型模块化用于匹配和闭环检测,效果极其显著。


结论: 迈向即时数字孪生

ARTDECO 是向“让创建高保真数字孪生像录制视频一样简单”迈出的重要一步。它实现了:

  • SLAM 级别的效率。
  • 前馈模型级别的鲁棒性。
  • 接近逐场景优化的质量。

未来挑战包括应对极端光照变化、无纹理表面和分布外输入。尽管如此,ARTDECO 指向一个未来: 沉浸式、可导航的三维世界可被即时构建,变革 AR/VR、机器人与模拟工作流。