引言

想象一下,你正在观看一段猫咪伸展身体或有人挥手的视频。现在,想象你可以把手伸进视频里,抓住猫的爪子将其移动到不同的位置,或者重新制作挥手动作,使其呈现出完全不同的模式。这就是动态场景重建 (Dynamic Scene Reconstruction) 的梦想: 将平面视频转化为完全交互式的 3D 数字孪生体。

近年来,一种名为 3D Gaussian Splatting (3DGS) 的技术彻底改变了我们渲染静态 3D 场景的方式。它速度快、质量高且具有照片级真实感。然而,将这项技术扩展到动态场景 (移动的场景) 却遇到了阻碍。目前大多数方法都将运动视为一个“黑盒子”。它们使用神经网络来预测像素如何移动,这在回放时看起来很棒,但无法控制。你可以在 3D 中重播视频,但无法改变其中的动作。

这种控制力的缺失是一个主要瓶颈,对于机器人技术而言尤为如此。机器人需要理解物体的运动方式,以便规划如何操纵它。如果运动信息被隐藏在神经网络内部,机器人就无法利用它。

Motion-Blender Gaussian Splatting (MBGS) 应运而生。在罗格斯大学的一篇新论文中,研究人员提出了一种方法,将 Gaussian Splatting 的渲染能力与经典动画技术的控制力相结合。通过使用“骨骼”和图结构显式地对运动进行建模,他们让我们不仅能重播现实,还能编辑现实。

Figure 1: 本框架的功能。我们的方法通过输入视频将动态场景重建并渲染为 3D 高斯体和运动图。左侧展示了为手和猫学习到的运动图及其对应的渲染场景。我们的方法实现了三个关键应用 (右侧) : O 通过编辑运动图实现新颖姿态动画,O 通过使用机器人运动链作为运动图来合成机器人演示,以及 O 通过模拟图的运动以最小化渲染图像与目标图像之间的差异来预测机器人动作。

如图 1 所示,该框架不仅重建场景,还提取了一个控制结构 (如手的骨架或猫的图结构) ,从而实现了新颖的动画制作、机器人训练数据合成以及视觉规划。

背景: “黑盒”运动的问题

为了理解 MBGS 的重要性,我们首先需要了解动态 Gaussian Splatting 通常是如何工作的。

在标准的 3D Gaussian Splatting 中,一个场景由数百万个 3D 斑点 (高斯体) 表示。每个高斯体都有位置、形状 (协方差) 、颜色和不透明度。为了生成静态图像,计算机将这些斑点“泼溅 (splat) ”到 2D 平面上。

为了处理动态场景 (视频) ,我们需要这些高斯体随时间移动。高斯体在时间 \(t\) 的位置通常由以下方程给出:

Equation 1: Standard dynamic formulation

这里,\(f\) 是一个由 \(\theta\) 参数化的变形函数。在大多数最先进的方法 (如 4D-Gaussians 或 Deformable-GS) 中,\(f\) 是一个神经网络。该网络接收初始位置和时间作为输入,并输出新的位置。

问题在于,神经网络是隐式函数。它们不提供供你操作的“把手”。你不能简单地要求网络“把手臂举高一点”或“弯曲膝盖”。运动是固化在里面的。这限制了这些方法只能进行回放

核心方法: Motion Blender Gaussian Splatting

研究人员提出了一个根本性的问题: 我们能否使用一种稀疏的、显式的运动表示——就像视频游戏中使用的骨骼那样——同时又不失去 Gaussian Splatting 的照片级真实感?

他们的答案是 MBGS 。 他们不再使用密集的神经网络来单独影响每个高斯体,而是使用运动图 (Motion Graph) 。 这是一组稀疏的节点和连杆 (就像火柴人) ,用来驱动数百万个密集高斯体的运动。

框架概览

Figure 2: Motion Blender Gaussian Splatting。我们的框架使用稀疏动态图显式地表示运动。静态 3D 高斯体通过可学习的权重绘制与图相关联。然后,通过对偶四元数蒙皮的运动混合,将连杆层面的运动传播到高斯体。

MBGS 流程 (图 2) 包含三个主要阶段:

  1. 稀疏动态图 (Sparse Dynamic Graph) : 代表物体物理特性的轻量级结构。
  2. 权重绘制 (Weight Painting) : 确定图的哪个部分影响哪些高斯体 (例如,“手”的骨骼应该移动“手指”的高斯体) 。
  3. 运动混合 (Motion Blending) : 使用对偶四元数蒙皮 (Dual Quaternion Skinning) 将图的运动平滑地传播到可见场景中。

数学基础

核心创新在于如何计算高斯体的位置。MBGS 没有使用黑盒函数 \(f\),而是使用了一个结构化的混合方程:

Equation 2: Motion Blending formulation

让我们来分解一下:

  • \(\mathcal{R}\) 计算运动图中连杆 (links) 从时间 0 到时间 \(t\) 的运动。
  • \(\mathcal{W}\) 是权重绘制函数 (Weight Painting Function) 。 它根据接近程度计算每个连杆对特定高斯体的影响力。
  • \(\mathcal{B}\) 是运动混合函数 (Motion Blending Function) 。 它结合各个连杆的运动,并根据其权重加权,从而确定高斯体的最终位置。

作者使用对偶四元数蒙皮 (DQS) 实现了 \(\mathcal{B}\)。在计算机图形学中,DQS 优于线性蒙皮,因为它可以防止“糖纸伪影 (candy-wrapper artifacts) ”——即网格在扭曲时像糖纸一样塌陷。这确保了重建的物体在复杂运动过程中保持其体积。

两种类型的运动图

并非所有物体的运动方式都相同。人类的运动方式不同于毛绒玩具。为了解决这个问题,作者引入了两种类型的参数化运动图。

Figure 3: 运动图。运动学树 (左) 使用与时间无关的连杆长度 \\ell 和动态关节旋转。变形图 (右) 采用自由形式的拓扑结构。

1. 运动学树 (用于关节物体)

如图 3 左侧所示, 运动学树 (Kinematic Trees) 是分层的。它们有根节点和分支,就像动画软件 (Blender, Maya) 中的标准骨骼绑定一样。

  • 最适用于: 人类、机器人、刚性机械物体。
  • 参数: 关节旋转角度和根节点姿态。
  • 机制: 正向运动学将旋转沿着链条向下传播。

2. 变形图 (用于软体物体)

如图 3 右侧所示, 变形图 (Deformable Graphs) 没有严格的层级结构。节点可以在 3D 空间中自由移动。

  • 最适用于: 衣服、软玩具、动物或表面非刚性的物体。
  • 参数: 关节本身的 3D 位置。

“拉伸”挑战: 在变形图中,节点之间的距离可能会改变 (想象一下拉伸橡皮筋) 。标准的刚性变换 (旋转/平移) 无法描述变长的线条。为了解决这个问题,作者设计了一种巧妙的投影方法。

他们将高斯体投影到连杆上,并根据该投影点的移动来定义其运动。如果连杆拉伸,投影点会按比例滑动:

Equation 3: Projection point movement

这使他们能够将“拉伸”与“姿态”解耦,从而允许他们在非刚性物体上也能使用刚性的 Look-At 变换:

Equation 4: Look-at transformation

权重绘制: 连接高斯体与图

高斯体如何知道它属于哪块骨骼?系统学习了一个权重绘制函数 。 这在概念上类似于 3D 建模中的“蒙皮权重”,但是从视频中自动学习得到的。

影响力由基于距离的核函数确定:

Equation 5: Kernel Function

这里,\(\gamma\) (gamma) 是一个可学习的参数,控制影响半径。如果高斯体靠近骨骼,权重就高。

Figure 4: 学习到的运动图和权重绘制。第一行将学习到的运动图叠加在图像上。第二行显示了图连杆 (绿色) 的绘制权重 (红色) 。

图 4 直观地展示了这一点。在底行,你可以看到红色的“热力图”指示了绿色图连杆的影响范围。注意这种影响是如何产生平滑梯度的——这确保了当图移动时,“皮肤” (高斯体) 能够自然变形而不会撕裂。

初始化策略

你不能随便在 3D 空间里扔几个点就指望它们能与视频对齐。系统需要一个好的起点。

Figure 6: 使用 SAM2 和 SAPIENS 的初始化过程。

如图 6 详细所示,作者利用现代基础模型来引导这一过程:

  • Grounding SAM2: 提供实例分割掩码 (将“熊”与“人”分开) 。
  • SAPIENS: 估计人类的 2D 骨架。
  • 深度图 (Depth Maps) : 用于将这些 2D 线索提升为 3D 点云。

运动图被初始化以拟合这个 3D 点云,然后整个系统 (高斯体 + 图 + 权重) 进行端到端优化,以最小化渲染图像与源视频之间的差异。

实验与结果

研究人员在两个具有挑战性的数据集上评估了 MBGS: iPhone 数据集 (动态场景的手持视频) 和 HyperNeRF (VR 装备数据) 。他们将该方法与 Shape-of-Motion4D Gaussians 等最先进的方法进行了比较。

定量成功

使用的主要指标是 LPIPS (学习感知图像块相似度) 。与 PSNR (测量原始像素差异) 不同,LPIPS 测量的是图像看起来有多“像人类感知”——即其清晰度和感知准确度。

Table 1: 极具挑战性的 iPhone 数据集上的新视角渲染。

在 iPhone 数据集上 (表 1) ,MBGS 取得了最低 (最好) 的 LPIPS 分数,击败了当前最先进的 Shape-of-Motion。

Figure 7: iPhone 上的新视角渲染,最佳 LPIPS 用红色标出。

图 7 在视觉上加强了这一点。看看手拿苹果的裁剪图 (底行) 。MBGS 的输出 (右侧) 保留了在其他方法中被模糊掉的纹理细节。

同样,在 HyperNeRF 数据集上,MBGS 也保持了很高的竞争力。

Figure A5: HyperNerf 数据集结果的可视化与其他方法的比较。

在图 A5 中,观察“扫帚”一行 (底部) ,MBGS 有效地捕捉到了扫帚柄的细微结构和衬衫的纹理。虽然 4D Gaussians 有时能获得更高的原始像素分数 (PSNR),但作者认为他们的方法提供了相当的视觉质量,加上显式可控性这一巨大优势。

应用: 为什么这很重要

MBGS 的真正威力不仅仅在于稍微好一点的渲染效果,还在于其表示形式的实用性 。 因为运动存储在图中,而不是黑盒神经网络中,所以我们可以对其进行操作。

1. 新颖姿态动画

一旦场景重建完成,你就可以抓住运动图并扭动它。

Figure 5: 通过运动图操作实现的新颖姿态。

在图 5 中,第一行显示了原始视频重建。第二行展示了新颖的姿态——即视频中从未存在过的图像。研究人员成功地旋转了猫的头,拖动了泰迪熊的手臂,并旋转了风车。这本质上就是“3D 视频的 Photoshop”。

2. 机器人演示合成

训练机器人很难,因为收集数据很昂贵。你通常需要遥操作机器人数小时。MBGS 提供了一条捷径: 从人类视频到现实的模拟 (Sim-to-Real) 转移。

Figure 9: 从人类视频生成机器人演示。

图 9 展示的流程非常迷人:

  1. 录制人类执行任务 (例如叠衣服) 。
  2. 使用 MBGS 重建场景。
  3. 将人类的“运动图”换成机器人的运动链 (使用逆运动学匹配手部位置) 。
  4. 用机器人代替人类渲染场景。

这生成了机器人执行任务的合成视频数据,完全源自人类演示,然后可用于训练机器人策略。

3. 机器人视觉规划

最后,机器人可以利用这个内部模型在行动前进行“思考”。

Figure 10: 通过视觉规划预测机器人动作。

在图 10 中,机器人需要操作一根绳子或关上微波炉的门。

  1. 它观察物体并即时建立 MBGS 模型。
  2. 它通过在模拟中调整运动图来“想象”不同的动作。
  3. 它将渲染结果与目标图像进行比较。
  4. 它执行能最大化成功率的动作。

这种视觉规划允许机器人在不需要复杂物理引擎的情况下与可变形物体 (如布料和绳索) 进行交互——视觉模型就是物理引擎。

局限性

没有一种方法是完美的。作者坦诚地讨论了局限性,特别是在快速运动和拓扑结构不匹配方面。

Figure 13: 快速移动物体上的失败案例。

如图 13 所示,快速移动的物体 (如颤抖的手或快速打开的门) 会导致伪影或几何缺失。这是因为优化依赖于时间一致性;如果物体移动太快,帧与帧之间的“粘合剂”就会断裂。

此外,由于该方法纯粹是视觉的,它缺乏真正的物理约束。重建的机械臂可能会意外穿过桌子或一块布,因为高斯模型“不知道”桌子是固体的。

结论

Motion-Blender Gaussian Splatting 代表了动态场景重建向前迈出的重要一步。通过弥合高保真神经渲染与经典可控动画图之间的差距,它解决了该领域的一个主要痛点。

它允许我们将复杂的视频分解为可解释、可编辑的部分——背景、物体、骨骼和皮肤。对于内容创作者来说,这意味着编辑视频的新方法。对于机器人专家来说,它提供了一种可扩展的方式,通过向机器人展示人类视频来教导它们,而不是费力地引导它们的手。尽管快速运动和物理方面的挑战仍然存在,但 MBGS 为未来奠定了基础,在这个未来中,数字孪生不仅仅是雕像,而是可游玩、可操纵的现实。