Uni4D 如何在无需训练的情况下从随意拍摄的视频中重建 4D 世界

想象一下，你用手机录制了一段繁忙街角的视频。你拍到了驶过的汽车、过马路的行人，以及耸立在后方静止的建筑物。对你来说，这只是一段视频。但在计算机视觉研究人员眼中，这是一个由 3D 几何和时间构成的复杂谜题——一个“4D”场景。

从单段随意拍摄的视频中重建完整的 4D 模型 (3D 空间 + 时间) 是计算机视觉领域的“圣杯”之一。传统上，这非常困难。你必须弄清楚摄像机在哪里移动，场景的哪些部分是静态背景，哪些是移动的，以及这些移动物体是如何随时间改变形状的。

最近的大多数方法都试图通过端到端地训练庞大的神经网络来解决这个问题。但是，如果我们不需要从头开始训练新模型呢？如果我们所需的工具已经存在，隐藏在我们为其他任务构建的强大的“基础模型”中呢？

这正是 Uni4D 的前提，这是由伊利诺伊大学厄巴纳-香槟分校的研究人员提出的一个新框架。Uni4D 不需要任何训练。相反，它就像一位指挥家，协调一套预训练的视觉基础模型来重建高保真的 4D 场景。

图 1: 从输入视频到 4D 场景。

如图 1 所示，该系统接收标准视频序列，并输出带有动态轨迹覆盖的纹理 3D 重建结果，准确地将静态环境与汽车和行人等移动主体分离开来。

4D 世界的挑战

为什么 4D 建模如此困难？在 3D 重建 (运动恢复结构或 SfM) 中，我们假设世界是刚性的。如果图像中的一个点在移动，那是因为摄像机在移动。这个假设允许算法对点进行三角测量并构建 3D 地图。

然而，在动态场景中，点的移动有两个原因: 摄像机在移动，并且物体本身也在移动 (或变形) 。这产生了一个巨大的歧义。是车向前开了，还是摄像机向后移了？如果没有专门的数据 (如多视角设置) ，从单个视频中解决这个问题在数学上是“病态的 (ill-posed) ”——未知数太多，方程太少。

先前的尝试试图通过从海量数据中学习或对物体做出严格假设 (例如，“这是一个人，所以它必须像人一样移动”) 来解决这个问题。但这些方法往往难以推广到包含任意物体的“野外”视频中。

Uni4D 方法: 集结复仇者联盟

Uni4D 的核心洞察在于，计算机视觉社区已经分别解决了这个谜题的许多部分。我们拥有在以下方面表现出色的模型:

分割 (Segmentation) : 识别物体 (SAM) 。
深度 (Depth) : 估计像素有多远 (UniDepth) 。
追踪 (Tracking) : 跨帧跟踪点 (CoTracker) 。

Uni4D 提出，我们不需要一个新的模型；我们需要一种方法来统一这些现有的线索。该框架将这些基础模型视为提供 4D 世界“投影”的传感器。

视频深度是 4D 几何的投影。
运动追踪是 4D 运动的投影。
分割是动态物体轮廓的投影。

Uni4D 的目标是找到一种 4D 表示，使其在数学上能够同时与所有这些相互冲突的线索达成一致。

图 3: Uni4D 流程图。

图 3 展示了其架构。该过程始于一段随意拍摄的视频。系统将此视频输入到三个不同的“视觉基础线索”流中: 视频深度、运动追踪和分割。然后，这些输入被送入一个多阶段优化管道——而不是神经网络训练循环——逐步构建 4D 模型。

第一步: 提取视觉线索

在进行任何 3D 重建之前，Uni4D 首先处理视频以理解它在看什么。

动态分割: 系统需要知道什么是背景 (静态) 以及什么是物体 (动态) 。它使用 Recognize Anything Model (RAM) 和 GPT-4 来识别视频中的语义类别。然后，它过滤出动态物体 (人、车) ，并使用 Grounding-SAM 和 DEVA 为这些物体随时间变化创建精确的掩码 (masks) 。
密集运动追踪: 为了理解物体如何移动，系统使用了 CoTrackerV3 。该模型跨时间追踪密集的像素网格，相比传统的光流法，能更好地处理遮挡 (当一个物体走到另一个物体后面时) 。
视频深度: UniDepthV2 为每一帧的深度图和摄像机的内参提供初始猜测。

第二步: 能量公式

Uni4D 的核心是一个优化问题。研究人员定义了一个“能量函数”——一个数学方程，用于评分当前的 4D 猜测有多“糟糕”。目标是最小化这个能量。

总能量函数定义为:

总能量方程。

让我们分解这四项，因为它们代表了系统需要平衡的不同约束:

\(E_{BA}\) (静态光束法平差): 该项确保场景的静态部分 (建筑物、道路) 基于摄像机运动正确对齐。
\(E_{NR}\) (非刚性光束法平差): 该项处理移动物体。它测量动态 3D 点与 CoTracker 观察到的 2D 像素轨迹之间的差异。
\(E_{motion}\): 一个正则化项，强制运动必须是逼真的 (平滑且物理上合理的) ，而不是混乱的噪声。
\(E_{cam}\): 一个先验项，假设摄像机运动应该是相对平滑的。

第三步: 多阶段优化

你不能一次性优化所有这些变量；系统很可能会陷入一个糟糕的解 (局部最小值) 。Uni4D 采用了跨越三个不同阶段的“分而治之”策略。

阶段 1: 摄像机初始化

首先，系统需要弄清楚摄像机在哪里。它暂时忽略复杂的动态物体，专注于静态背景。通过结合 UniDepth 的初始深度图和 CoTracker 的运动轨迹，它估计出粗略的摄像机轨迹。

阶段 2: 静态光束法平差

现在，系统细化摄像机位姿和静态几何结构。它最小化 静态光束法平差 项:

静态光束法平差方程。

在这里，系统查看落在静态背景掩码 (\(\mathcal{M}\)) 中的像素轨迹 (\(z\))。它试图最小化 3D 点投影到图像上的位置 (\(\pi_K\)) 与追踪器给出的位置之间的差异。这锁定了稳固的摄像机路径和背景几何结构。

阶段 3: 非刚性光束法平差

锁定摄像机后，系统将注意力转向移动物体。这是最难的部分。系统冻结摄像机参数，仅优化动态几何结构。

它最小化 非刚性 能量项:

非刚性光束法平差方程。

然而，动态重建通常是“病态的”——这意味着有无数种奇怪的形状可以在技术上拟合 2D 视频。为了防止移动物体看起来像爆炸的尖刺，Uni4D 应用了强有力的 运动先验 (Motion Priors) :

运动先验方程。

这包括一个 尽可能刚性 (As-Rigid-As-Possible, ARAP) 项和一个平滑项。

平滑性: 点不应该在帧之间随机瞬移。
ARAP: 即使一个人在走路，他们的局部几何结构 (如手臂上两点之间的距离) 也保持相对恒定。

ARAP 方程。

上面的 ARAP 方程确保相邻点 (\(p_k\) 和 \(p_m\)) 之间的距离从时间 \(t\) 到 \(t+1\) 不会发生剧烈变化。这有效地强制模型将物体视为“柔性固体”，而不是液态的点云。

从稀疏点到密集模型

优化过程产生一个“点云”——漂浮在 3D 空间中的点的集合。为了创建介绍中看到的密集、有纹理的模型，Uni4D 执行了一个融合步骤。它使用优化后的摄像机位姿和稀疏点来校正 UniDepth 的原始密集深度图。

这一点至关重要，因为来自 UniDepth 等模型的原始深度图通常在时间上不一致——它们会随时间闪烁和抖动。

图 8: 深度一致性比较。

在图 8 中，你可以看到这种差异。“Unidepth”的输出 (上图) 从上方 (鸟瞰图) 看时会导致分层、混乱的墙壁。“Ours” (Uni4D) 的输出 (下图) 使用优化后的 4D 模型对齐深度图，从而产生清晰、薄薄的墙壁和平滑的运动轨迹。

实验结果

这种“复仇者联盟”式的策略真的有效吗？研究人员在几个具有挑战性的数据集上测试了 Uni4D，包括 Sintel (合成电影片段) 、DAVIS 和 TUM-Dynamics。

定量成功

结果表明，Uni4D 显著优于现有的方法，如 CasualSAM 和 MonST3R。

图 2: 性能散点图。

在图 2 中，我们看到了在 Sintel 数据集上的比较。X 轴代表摄像机位姿误差 (越低越好) ，Y 轴代表深度误差 (越低越好) 。Uni4D (橙色星星) 位于左下角，表明它在两个类别中都是最准确的。

定性质量

视觉检查揭示了更明显的差异。

图 6: DAVIS 数据集比较。

图 6 比较了 DAVIS 数据集 (一个有人的房间) 上的方法。

CasualSAM: 严重扭曲了房间的几何结构。看“鸟瞰图”——房间是扭曲的。
MonST3R: 在房间的远角处表现挣扎 (噪点几何) ，且动态物体不完整。
Uni4D: 生成了几何上精确的房间 (俯视图中呈方形墙壁) 以及干净、完整的动态物体。

图 5: Bonn 数据集比较。

同样，在 Bonn 数据集的图 5 中，我们看到基线方法经常留下“拖影伪影”——跟随移动人物的幽灵像素。Uni4D 干净地解决了动态和静态几何结构，将人物与背景分离，没有这些伪影。

效率

有人可能会担心，结合这么多大模型会慢得令人望而却步。然而，因为 Uni4D 使用这些模型进行推理 (预处理) ，然后运行标准优化，所以速度保持在合理范围内。

图 9: 运行时间细分。

如图 9 所示，运行时间主要由预处理步骤 (运行 CoTracker 和 UniDepth) 主导。实际的优化阶段 (阶段 1、2 和 3) 相对较快。对于一段 50 帧的视频，整个过程在高端 GPU 上大约需要 5 分钟。虽然不是实时的，但对于任务的复杂性 (4D 重建) 来说，这是相当高效的。

结论

Uni4D 代表了我们解决复杂计算机视觉问题方式的转变。Uni4D 展示了组合的力量，而不是构建一个更大、更黑的盒子并在更多数据上进行训练。通过智能地结合现代基础模型的特定优势——分割、深度和追踪——并将它们与严格的物理约束 (能量最小化) 结合在一起，我们可以解决以前难以处理的问题。

该方法不需要训练数据，可以推广到“野外”视频，并产生空间和时间上连贯的结果。对于学生和研究人员来说，Uni4D 是一个极好的例子，展示了经典几何计算机视觉 (优化、光束法平差) 如何与现代深度学习 (基础模型) 联姻，以实现两全其美。

4D 世界的挑战#

Uni4D 方法: 集结复仇者联盟#

第一步: 提取视觉线索#

第二步: 能量公式#

第三步: 多阶段优化#

阶段 1: 摄像机初始化#

阶段 2: 静态光束法平差#

阶段 3: 非刚性光束法平差#

从稀疏点到密集模型#

实验结果#

定量成功#

定性质量#

效率#

结论#