想象一下,你用智能手机随手拍了一段街头表演或者朋友跳入泳池的视频。现在,想象一下你能够将这段视频定格在任何时刻,旋转摄像机从全新的角度观看动作,甚至在保持背景完好无损的情况下将某个人从场景中完全移除。
这就是 4D 重建的承诺——同时捕捉 3D 几何形状及其随时间的变化。然而,仅凭一段“随手拍摄的单目视频” (这是个专业术语,指用手机等单镜头相机拍摄、没有昂贵演播室设备的视频) 来实现这一点,是计算机视觉领域最困难的问题之一。
在这篇文章中,我们将深入探讨一篇题为 “MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds” 的新论文。研究人员提出了一种新颖的系统,该系统结合了现代 2D AI 模型的力量和一种称为“运动支架 (Motion Scaffold) ”的巧妙 3D 结构,将平面视频转化为完全可漫游的 4D 体验。

如上图所示,MoSca 接收标准视频 (左) ,通过运动支架和融合阶段对其进行处理,从而创建可渲染的动态场景 (右) ,即使是舞龙或人们坐着这样的动作,也可以从新的视角进行观看。
挑战: 为什么这很难?
从照片重建静态物体是一个已解决的问题 (多亏了摄影测量法和 NeRFs) 。但是动态场景对计算机来说是一场噩梦,因为所有东西都在同时变化。
- 歧义性 (Ambiguity) : 如果视频中的像素移动了,是物体动了,还是相机动了?或者两者都动了?
- 遮挡 (Occlusion) : 当一个人走到树后时,摄像机就失去了对他们的追踪。我们如何重建看不见的东西?
- 不适定问题 (Ill-Posed Problem) : 我们试图仅从单一的 2D 视角同时求解 3D 形状、外观、相机姿态和运动。从数学上讲,有无数种解法可以拟合视频,但其中大多数看起来都是垃圾。
MoSca 的作者通过依赖两个关键见解来解决这个问题:
- 站在巨人的肩膀上: 使用预训练的“基础模型” (Foundation Models,即已经理解深度和追踪的大型 AI 模型) 来获得先发优势。
- 简化运动: 他们没有追踪每一个原子,而是使用了 运动支架 (Motion Scaffold) ——一种稀疏的图结构,就像骨架一样引导场景的变形。
MoSca 流程: 概览
该系统是全自动的,由四个主要阶段组成。在深入研究数学原理之前,让我们先看看高层路线图。

- 基础阶段 (A): 系统将视频输入预训练的 2D 模型,以获得深度、光流和点追踪的初始估计。
- 相机初始化 (B): 它计算出相机的位置以及它是如何移动的,而无需像 COLMAP 这样的外部工具 (COLMAP 在动态场景中经常失效) 。
- MoSca 几何阶段 (C): 它构建“运动支架”——这是定义场景如何移动的核心结构。
- 光度融合 (D): 它将 3D 高斯 (颜色和不透明度的小斑点) 附着在支架上,以创建最终的视觉外观。
让我们逐步拆解这些步骤。
第 1 步和第 2 步: 基础与相机求解
利用 2D 先验
研究人员并不是从零开始的。他们使用现成的模型来获取:
- 深度图 (Depth Maps) : 像素距离相机的估计距离。
- 长期轨迹 (Long-term Trajectories) : 在视频时长内追踪特定点 (使用名为 BootsTAPIR 的模型) 。
- 对极误差图 (Epipolar Error Maps) : 帮助区分移动物体和静态背景的线索。
求解相机
在重建场景之前,MoSca 需要知道相机在哪里。虽然许多方法假设你已经有了这些数据,但 MoSca 会自行计算。它识别场景中的“静态”部分 (背景) 并执行 光束法平差 (Bundle Adjustment) 。
他们通过最小化两个误差来优化相机姿态 (\(W\)) 和焦距 (\(K\)) :
- 重投影误差 (Reprojection Error) : 静态点投影回图像时是否停留在正确的位置?
- 深度对齐 (Depth Alignment) : 估计的 3D 结构是否与基础模型提供的深度图匹配?
以下是驱动此初始化的方程。首先是投影损失:

然后是深度对齐损失,它确保场景的尺度保持一致:

这一步有效地锁定了“世界”,以便系统可以专注于移动的物体。
第 3 步: 构建运动支架 (MoSca)
这是论文的核心贡献。现实世界的运动通常是“低秩”且平滑的。即使舞龙者的服装有成千上万个褶皱在混乱地移动,整体运动也是由舞者的身体驱动的。
MoSca 使用 轨迹图 (Graph of Trajectories) 来表示这种底层运动。
节点
图中的一个节点不仅仅是一个点;它是一个 6-DoF (六自由度) 轨迹。它描述了一个特定区域如何随时间 (\(t=1\) 到 \(T\)) 移动和旋转。

- \(\mathbf{Q}_t^{(m)}\): 节点 \(m\) 在时间 \(t\) 的刚性变换 (位置和旋转) 。
- \(r^{(m)}\): 控制半径,定义该节点对其邻居有多大的影响。
拓扑结构 (边)
为了确保场景连贯地移动,节点需要连接起来。如果节点 A 移动,节点 B 可能也应该移动,前提是它们很接近。然而,简单地测量欧几里得距离是危险的——两个点在 3D 空间中可能很近,但属于不相连的物体 (比如一只手经过脸部附近) 。
MoSca 通过基于 曲线距离 (Curve Distance) 度量连接节点来解决这个问题。只有当节点的轨迹在整个视频中都保持接近时,它们才是邻居。

提升到 3D
系统通过使用深度图将基础模型中的 2D 轨迹“提升”到 3D 空间来初始化这些节点。

如果一个点是可见的 (\(\nu_t=1\)) ,他们就对其进行反投影。如果它被遮挡 (\(\nu_t=0\)) ,他们就在最后已知的位置之间进行线性插值。这填补了相机失去物体视野的空白。
第 4 步: 变形的数学原理
一旦我们有了这个支架 (骨架) ,我们如何移动场景的其余部分?我们需要对稀疏节点的运动进行插值以填充密集空间。
对偶四元数混合 (DQB)
标准的线性混合 (平均矩阵) 会导致伪影——物体失去体积或在旋转时出现“糖纸扭曲 (candy-wrapper) ”现象。MoSca 使用 对偶四元数混合 (Dual Quaternion Blending) , 这是一种在 SE(3) 流形上操作的复杂方法。它可以平滑地处理旋转和平移。

这里,\(\hat{\mathbf{q}}_i\) 将节点的变换表示为对偶四元数。系统根据权重 \(w_i\) 混合这些变换。
变形场
对于空间中的任意点 \(\mathbf{x}\),其从源时间 (\(t_{src}\)) 到目标时间 (\(t_{dst}\)) 的运动是通过查看其最近的支架节点并混合它们的运动来计算的。

权重 \(w_i\) 由该点与节点的距离决定,使用高斯衰减 (径向基函数) :

几何优化
在添加颜色之前,系统会优化支架以遵循物理规律。它应用了 尽可能刚性 (ARAP) 正则化。这强制变形在局部保持刚性——意味着支架不应不自然地拉伸或挤压,除非数据严格要求这样做。

他们还强制执行平滑的速度和加速度约束,以防止抖动的运动:

第 5 步: 光度优化 (融合)
现在我们有了一个移动的骨架,我们需要“皮肤”——视觉外观。MoSca 使用 3D 高斯溅射 (3D Gaussian Splatting) , 这是一种最先进的渲染技术。
然而,MoSca 不是只为一帧创建高斯,而是执行 全局融合 。 它从视频的所有帧初始化高斯,并将它们锚定到运动支架上。
动态高斯
每个高斯由标准属性 (颜色、不透明度、缩放) 加上参考时间 \(t^{ref}\) 和可学习的蒙皮权重校正 \(\Delta \mathbf{w}\) 定义。

变形与渲染
为了渲染时间 \(t\) 的场景,系统获取整个视频中的每个高斯,使用支架将其从出生时间 (\(t^{ref}\)) 变形到当前时间 (\(t\)) ,然后渲染图像。

通过融合所有时间步的观测结果,MoSca 可以重建物体在当前帧中可能被遮挡但在前一帧中可见的部分。
最终的优化使用 RGB 损失、深度损失和追踪损失的组合,以确保渲染的图像与输入视频匹配。

实验结果
研究人员在具有挑战性的“野外 (in-the-wild) ”视频上测试了 MoSca,包括电影片段和智能手机拍摄的镜头。
视觉质量
MoSca 展示了处理复杂运动 (如舞龙或拥挤的街道) 的能力,同时保持了逼真的几何形状。

注意上图中,“支架 (Scaffold) ” (图) 如何捕捉本质的运动,而“渲染的 RGB (Rendered RGB) ”则填充了高频细节。
基准测试对比
团队在 DyCheck 数据集上评估了 MoSca,这是动态场景重建的标准基准。他们比较了提供和不提供相机姿态的情况下的性能。

在上面的对比中,请看底行 (“w/o pose”,无姿态) 。其他方法 (如 T-NeRF 或 HyperNeRF) 完全崩溃,产生模糊的混乱或缺失几何形状。MoSca (“Ours”) 即使在移动的汽车内也能保持清晰的细节和正确的结构。
定量结果支持了这一点。MoSca 在 PSNR (峰值信噪比) 和 LPIPS (感知相似性) 方面均达到了最先进的得分。

他们还在 NVIDIA 数据集上进行了测试,该数据集稍微简单一些 (前向摄像头) ,但 MoSca 仍然保持优势或优于竞争对手,特别是在像 LPIPS 这样的细节指标上。

消融实验: 什么最重要?
作者进行了消融实验,以观察哪些组件在起主要作用。
- 移除 节点控制 (Node Control) (图的自适应致密化) 会损害细节。
- 移除 对偶四元数混合 (Dual Quaternion Blending) 会导致伪影。
- 移除 光度优化 (Photometric Optimization) 会导致只有几何网格而没有纹理。

应用: 不仅仅是观看
由于 MoSca 解耦了运动、几何和外观,它允许强大的编辑功能。
- 前景移除: 你可以删除移动的物体以查看背景。
- 遮挡揭示: 通过随时间聚合信息,你可以看到物体移开后其背后的内容。
- 4D 语义: 你可以在 3D 空间中标记物体并随时间追踪它们。
- 4D 编辑: 你可以复制演员或改变他们的轨迹。

结论
MoSca 代表了 3D 视觉领域向前迈出的重要一步。通过将 2D 基础模型的鲁棒性与受物理启发的、基于图的 3D 支架相结合,它将杂乱的随手拍视频转化为结构化的 4D 资产。
虽然它仍然依赖于初始 2D 追踪器的准确性,并且在处理移动阴影或反射等效果时有些吃力,但执行 全局融合——将整个视频的视觉数据聚合成单一连贯模型——的能力,对于内容创作、VR 和具身智能 (Embodied AI) 来说是一个游戏规则改变者。它让我们更接近这样一个世界: 我们的记忆不再仅仅是平面的视频,而是我们可以重访的身临其境的空间。
](https://deep-paper.org/en/paper/2405.17421/images/cover.png)