解密无形之手: ManiVideo 如何攻克视频生成中的 3D 遮挡难题

如果你试过画手,你应该知道这有多难。仅仅是把比例画对就已经很费劲了,但当手指开始卷曲、重叠并抓取物体时,真正的噩梦才刚刚开始。突然间,手的一部分消失在物体后面,或者被其他手指挡住了。

现在,想象一下教人工智能不仅要画出这种互动,还要生成一个时间上连贯的视频

这是计算机视觉和生成式 AI 的“最终前沿”之一。虽然我们已经拥有可以生成美丽风景或静态肖像的模型,但生成灵活的手物操作 (hand-object manipulation) 仍然极其困难。为什么?因为遮挡 (occlusion)数据稀缺 (data scarcity)

在这篇文章中,我们将深入探讨 ManiVideo , 这是一篇提出新颖框架的研究论文,旨在生成逼真的双手操作视频。我们将探索研究人员如何使用巧妙的“多层遮挡表示” (Multi-Layer Occlusion representation) 解决“消失的手指”问题,以及他们如何教导模型处理从未见过的物体。

双重挑战: 遮挡与泛化

在介绍解决方案之前,让我们先具体定义一下问题。目前用于生成手物交互 (HOI) 的扩散模型通常依赖 2D 条件——如深度图或分割掩码——来指导生成。

这种方法有两个致命的缺陷:

  1. 遮挡盲区: 2D 深度图只能显示离相机最近的表面。如果一根手指包裹在杯子后面,2D 图根本不知道它的存在。因此,当手指再次出现时,AI 经常会忘记生成它,或者直接把手“融化”进物体里。
  2. 泛化鸿沟: 为了学习手如何与世界互动,模型需要视频数据。但是 HOI 视频数据集很小,而且包含的物体类别非常少。如果你用杯子和碗来训练模型,当你要求它生成一只手拿着订书机的视频时,它将完全不知所措。

ManiVideo 登场

ManiVideo 的研究人员通过摒弃简单的 2D 条件来解决这些问题。相反,他们引入了一个能够“理解”场景层次的 3D 感知管道。

让我们看看高层架构:

图2. ManiVideo 的整体框架。给定原始的手物信号,我们首先将其转换为多层遮挡 (MLO) 表示和物体表示。MLO 结构旨在强制 HOI 的 3D 一致性,其中包括无遮挡法线图 H 和遮挡置信度图 D。物体表示包含外观和几何信息,确保持续的物体动态一致性。然后,我们将 MLO 表示和物体表示注入到去噪 UNet 和外观网络 AppearanceNet 中。

如图 2 所示,该系统接收原始的手物信号 (姿态参数和 3D 网格) ,并在将它们送入去噪 UNet (扩散模型的核心) 之前,将其分为两个强大的信息流:

  1. 多层遮挡 (MLO) 表示: 用于处理几何结构和重叠。
  2. 物体表示: 用于处理物体的外观和身份。

让我们逐一拆解。

1. 多层遮挡 (MLO) 表示

这篇论文的核心创新在于 MLO 表示。研究人员没有将图像视为一个平面,而是将手物交互视为一系列层。

透视障碍

在标准的深度图中,隐藏的像素会丢失。而 MLO 策略则渲染无遮挡法线图 (\(H\)) 。 这涉及到分层多次渲染场景——从远到近。例如,系统会独立地依次渲染物体、手掌、拇指、食指等。

这确保了即使食指在相机视角中挡住了拇指,模型仍然能接收到拇指存在且位于 3D 空间中具体位置的信号。

置信度图

仅仅知道隐藏部分在哪里是不够的;模型还需要知道什么被隐藏了,什么是可见的。这就是遮挡置信度图 (\(D\)) 发挥作用的地方。这些深度图指示了遮挡的程度。置信度图中较暗的区域表示严重遮挡,而较亮的区域表示可见。

图1. ManiVideo: 我们提出了一种用于生成可泛化且灵活的手物操作视频的新颖框架。左图: 给定几个未见物体的参考图像,我们的方法由手物信号驱动,生成逼真且合理的操纵视频。通过整合多个数据集,ManiVideo 支持诸如以人为中心的操纵视频生成等应用。右图: 为了确保手物一致性,我们引入了一种多层遮挡表示,能够从无遮挡法线图和遮挡置信度图中学习 3D 遮挡关系。

如图 1 右侧所示,这种表示法允许模型对场景进行“推理”。它学到了虽然现在看不到小指,但它位于杯子后面,从而防止 AI 臆造出一个新的小指或将手指融合到杯子表面。

为什么 MLO 很重要: 消融实验

这种额外的复杂性真的有帮助吗?视觉证据令人震惊。在下面的图 5 中,请看基线 (w/o MLO) 和 ManiVideo 方法 (Ours) 之间的区别。

图5. 多层遮挡 (MLO) 表示的消融研究。没有 MLO 结构,基本的 2D 条件无法确保物体和手指之间准确的结构和遮挡关系。不完全嵌入 (w/o MLO*) 会降低 MLO 表示的有效性。

在第一行 (w/o MLO) 中,注意边界框漂移现象——模型难以界定哪里是物体结束、哪里是手开始的地方。在“Ours”一栏中,抓握很紧实,手和物体之间的边界也很清晰。这就是显式建模遮挡的力量。

2. 利用 Objaverse 解决数据稀缺问题

第二个主要障碍是缺乏多样化的视频数据。如果你只用人们拿苹果的视频进行训练,你的模型就无法生成令人信服的人拿电钻的视频。

为了解决这个问题,研究人员整合了 Objaverse , 这是一个海量的 3D 物体数据集。

连接静态与动态

这里的巧妙之处在于他们如何利用静态 3D 模型来改进视频生成。他们从 Objaverse 中获取一个 3D 物体,并模拟运动轨迹 (旋转和平移) 。然后,他们渲染这种“伪造”的运动来创建训练数据。

这教会了模型两件事:

  1. 外观一致性: 通过从多个视角 (前、后、上、下) 渲染物体,模型学到了杯子从顶部看和从侧面看是不一样的,但它仍然是同一个杯子。
  2. 几何一致性: 它强化了物体在运动过程中的结构完整性。

图6. 物体增强训练的消融研究。利用 Objaverse 有助于模型从大型物体数据集中学习动态一致性。

图 6 展示了这种策略的影响。没有 Objaverse 数据 (“w/o Obja”) ,模型在处理复杂物体的纹理和几何形状时会很吃力 (看那个模糊的铲子) 。有了额外的数据 (“Ours”) ,物体保持了其形状和纹理的保真度。

此外,图 7 证明了该模型可以泛化到来自 Objaverse 数据集的完全随机的物体,并随时间推移保持其结构。

图7. Objaverse [6] 上的结果。对于每个示例,第一行显示生成结果,第二行是真实值 (ground truth) 。结果表明我们的模型从 Objaverse 中学到了物体的一致性。

架构内部: 它是如何工作的

我们已经讨论了输入 (MLO 和物体数据) ,但它们实际上是如何被处理的呢?ManiVideo 使用了扩散模型典型的修改版 UNet 架构,但针对这些新信号设有特定的注入点。

注入 3D 几何结构 (\(H\) 和 \(D\))

MLO 表示通过两种不同的方式注入网络,以最大化其影响:

1. 噪声注入 (姿态引导器) : 法线图 (\(H\)) 由一个轻量级的“姿态引导器”网络 (\(G\)) 处理。提取的特征在过程的一开始就被直接添加到含噪潜码 (\(z_t\)) 中。这有助于从一开始就在空间上对齐生成的图像。

公式 1

2. 交叉注意力注入: 为了更深入的理解,法线图 (\(H\)) 和置信度图 (\(D\)) 被拼接并处理成嵌入向量 (\(E_F\))。这些向量通过交叉注意力 (cross-attention) 注入到 UNet 的 Transformer 模块中。这使得网络能够在生成过程的各个阶段查询 3D 遮挡信息。

公式 2

注入物体外观

为了确保物体看起来像参考图像,研究人员使用了一个名为 AppearanceNet (\(R\)) 的独立网络。该网络从物体的参考图像 (从不同角度拍摄) 和背景中提取特征。

这些特征通过卷积与主 UNet 特征 (\(f_0\)) 融合:

公式 3

此外,物体的几何信息 (由点云 \(P\) 和法线 \(H_o\) 表示) 也通过交叉注意力注入,确保模型尊重物体的刚性形状。

公式 4

训练策略: 两阶段方法

在如此不同的数据源 (视频、3D 物体、人物图像) 上训练模型需要谨慎的策略。作者采用了两阶段的训练过程:

  1. 图像阶段: 模型被训练生成单帧图像。在这里,他们混合了真实的 HOI 视频帧和来自 Objaverse 的合成渲染图。这教会了模型空间结构和物体多样性。
  2. 时间阶段: 冻结空间层,并添加“时间层” (运动模块) 。然后,模型在视频序列上进行训练,以学习手和物体如何随时间平滑移动。

实验结果

那么,它与最先进的技术相比如何呢?研究人员将 ManiVideo 与 HOGAN、Affordance Diffusion (ADiff) 和基于 ControlNet 的 Diffusion (CDiff) 等领先方法进行了比较。

定性比较

下面的图 3 展示了在 DexYCB 数据集上的结果。请注意手部。在 HOGAN 和 CDiff 的结果中,手指经常看起来混乱或分离。ManiVideo (Ours) 保持了连贯的手部结构,即使在手指互锁或部分隐藏的情况下也是如此。

图3. 不同方法在 DexYCB 数据集 [4] 上的定性比较。我们的结果在手物相互遮挡和手指自遮挡的情况下表现最好。

同样,在他们收集的数据集上 (图 4) ,ManiVideo 展现了卓越的稳定性。与 ADiff 相比,手指与物体之间的接触点要逼真得多,而在 ADiff 中,手指有时无法正确接触物体。

图4. 不同方法在我们收集的视频上的定性比较。我们的方法取得了最好的结果。

定量比较

数据支持了视觉效果。在表 1 中,ManiVideo 在各项指标上都取得了最好的成绩。

  • FID (Fréchet Inception Distance): 衡量图像质量 (越低越好) 。ManiVideo 得分为 49.96,而 ADiff 为 53.95。
  • MPJPE (Mean Per-Joint Position Error): 衡量手部姿态重建的准确性。ManiVideo 实现了最低的误差,表明其具有很高的几何精度。

表1. DexYCB 和我们数据集上的定量比较。我们的 ManiVideo 优于其他方法。

进一步探索: 以人为中心的视频生成

这项工作最令人兴奋的意义之一是它在全身人物视频生成方面的应用。由于该框架非常灵活,研究人员可以在以人为中心的数据集 (如 Human4DiT) 上对其进行微调。

通过使用人物参考图像作为“背景”条件,并可选择性地通过姿态引导器注入骨架姿态 (\(S\)):

公式 5

…模型就可以生成特定人物操作物体的视频。

图8. 基于人类的手物操作视频生成。使用人类参考图像作为输入并在以人为中心的数据集上进行训练,我们的模型能够生成以人为中心的手物操作视频。

如图 8 所示,模型保留了人物的身份 (参考图) ,同时动画化他们的手与物体进行交互,这为虚拟化身和高级视频编辑开辟了可能性。

结论

ManiVideo 代表了在生成动态、交互式世界方面迈出的重要一步。通过显式建模我们不到的东西 (遮挡) ,并利用海量 3D 数据集来理解物体几何,研究人员创建了一个能够处理手指与物体之间复杂互动之舞的系统。

对于该领域的学生和研究人员来说,关键的启示是结构化表示的力量。依靠原始的 2D 像素数据或简单的深度图通常不足以完成复杂的 3D 任务。有时,你需要将场景分解为层——法线、置信度图和独立的物体先验——才能为 AI 提供创造令人信服的现实所需的上下文。