引言

试想一下,如果你想通过阅读一本物理教科书来学习跑酷。你需要实时计算摩擦系数、角动量和轨迹弧线。这听起来几乎是不可能的,对吧?相反,人类是通过观察来学习的。我们观察别人爬楼梯或坐在椅子上,我们将这些动作内化,然后尝试复制它们,并在过程中调整平衡。

多年来,机器人学家一直试图使用这种“物理教科书”式的方法教人形机器人在复杂的环境中导航——比如爬楼梯或穿越崎 tough 地形。这通常涉及手动调整复杂的奖励函数,或搭建昂贵的动作捕捉 (MoCap) 工作室来记录数据。但是,如果机器人能像我们一样学习呢?如果它仅仅通过观看一段人类上楼梯的视频就能学会呢?

这就是加州大学伯克利分校的一篇突破性研究论文 VIDEOMIMIC 的前提。

图 1: VIDEOMIMIC 概览,展示了机器人执行同步动作。

如图 1 所示,研究人员开发了一种流程,可以将普通的单目视频 (比如智能手机拍摄的视频) 转化为人形机器人的可迁移技能。通过“观看”视频,机器人不仅学会了动作,还学会了该动作如何与环境互动——使其能够爬楼梯、跨越障碍物和坐在椅子上,而无需为这些特定任务编写任何一行手动奖励工程代码。

在这篇文章中,我们将拆解 VIDEOMIMIC 流程,探索它如何将 2D 像素转化为在现实世界中有效的 4D 控制策略。

背景: 为什么这很难?

要理解 VIDEOMIMIC 的重要性,我们需要了解当前人形机器人技术的瓶颈: 数据

目前我们教足式机器人移动主要有两种方式:

  1. 奖励工程 (Reward Engineering) : 我们把机器人放在模拟环境中,告诉它: “如果你向前移动,我会给你分,但如果你摔倒或消耗太多能量,我会扣分。”这对于在平地上行走很有效,但要为“自然地坐在那把特定的椅子上”定义数学奖励是非常困难的。
  2. 模仿学习 (Imitation Learning) : 我们使用动作捕捉 (MoCap) 数据,即让人类穿着带有标记点的套装。这提供了高质量的数据,但受限于工作室环境。你无法轻易捕捉到一个人在陡峭的小径上徒步或在杂乱的办公室里穿行的 MoCap 数据。

“圣杯”是直接从原始视频中学习——互联网上有数十亿小时的视频素材。然而,视频缺乏深度信息 (它是 2D 的) ,而且人类的身体比例与机器人不同 (即“具身差异”) 。VIDEOMIMIC 弥合了这一差距。

核心方法: Real-to-Sim-to-Real (从现实到仿真再到现实)

VIDEOMIMIC 流程是计算机视觉与强化学习结合的典范。该过程可以分解为“Real-to-Sim”阶段 (处理视频) 和“Sim-to-Real”阶段 (训练策略) 。

让我们看看高层级的工作流程:

图 2: VideoMimic Real-to-Sim 流程,从视频输入到仿真就绪的网格。

第一步: 4D 人-场景重建

输入是一个简单的 RGB 视频。目标是提取两样东西: 人类的 3D 动作和环境的 3D 几何结构。

研究人员使用现成的工具来获得一个粗略的起点。他们使用 SAM2 来追踪人物,使用 ViTPose 来检测身体关节。对于环境,他们使用 MegaSaMMonST3R 来生成场景的点云。

然而,当这些工具单独使用时,有一个主要缺陷: 尺度模糊性 (Scale Ambiguity) 。 从单个摄像头中,很难分辨你是在看一个巨人身处一个巨大的房间,还是一个小人身处一个小房间。摄像机的轨迹通常也是不稳定的。

为了解决这个问题,作者引入了人-场景联合优化 (Joint Human-Scene Optimization) 。 他们将人类的身高 (利用标准的生物学先验) 作为“尺子”来正确缩放环境。他们实际上是在说: “如果我们假设这个人大约 1.7 米高,那么楼梯必须有多大?”

他们最小化一个复杂的目标函数来对齐所有内容:

联合优化的公式,最小化 3D、2D 和平滑度损失。

该方程针对以下方面进行优化:

  • \(L_{3D}\) : 3D 关节必须符合物理常识。
  • \(L_{2D}\) : 当投射回视频时,3D 模型必须与像素匹配。
  • \(L_{Smooth}\) : 动作不应抖动;人类的运动是平滑的。

结果是将一个混乱、不连贯的投影转换成一个连贯的、与重力对齐的世界。

图 7: 优化前后人类轨迹和场景点云的视觉对比。

正如你在上方的图 7 中所见,“优化前”的状态 (a) 通常有人类悬浮或地板以不可能的角度倾斜的情况。“优化后”的状态 (b) 将人类的双脚锁定在楼梯上,并将地板与重力对齐。

第二步: 网格化与重定向 (Meshification and Retargeting)

一旦系统拥有了场景的 3D 点云和人类动作,就需要将其准备好用于物理模拟器 (Isaac Gym) 。

  1. 网格化 (Meshification) : 点云是嘈杂的。系统对其进行过滤并将其转换为实体网格 (使用一种称为 NKSR 的方法) 。这给机器人在模拟中提供了一个坚实的地面。
  2. 重定向 (Retargeting) : 人类的关节与 Unitree G1 机器人不同。系统使用运动学优化将人类的姿势映射到机器人上。它确保如果人类的脚踩在台阶上,机器人的脚也踩在那个台阶上。

第三步: 策略学习

现在我们拥有了视频的“数字孪生”——一个机器人角色站在重建的楼梯前——我们需要教它的大脑 (神经网络) 如何执行动作。

训练过程是一个四阶段的流程,旨在逐渐增加机器人的独立性。

图 3: 模拟中四阶段策略训练流程的详细图解。

阶段 1: 动作捕捉预训练 (MPT)

从视频重建中学习是很困难的,因为数据可能有噪声。为了让机器人有一个好的开始,研究人员首先在高质量的动作捕捉 (MoCap) 数据上对其进行训练。这教会了机器人平衡和行走的基础知识,而没有复杂地形的干扰。

阶段 2: 场景条件化跟踪

然后将机器人放入重建的视频场景中。它被赋予一个“高度图 (Heightmap) ” (对其脚周围地形的扫描) ,并被告知要跟踪重定向后的视频动作。在这个阶段,机器人仍然是被“填鸭式”地告知目标关节角度。它确切地知道每一毫秒它的膝盖应该在哪里。

阶段 3: 蒸馏 (Distillation)

这是泛化的关键步骤。在现实世界中,你不能告诉机器人“把膝盖移到 45 度”来爬一个它从未见过的楼梯。你想告诉它“向前走”,并让它根据看到的情况弄清楚把脚放在哪里。

研究人员使用 DAgger (Dataset Aggregation) 来蒸馏策略。他们训练一个“学生”策略,该策略看具体的关节目标。相反,学生只看到:

  1. 本体感 (Proprioception) : 自身的身体状态。
  2. 高度图 (Heightmap) : 地形几何结构。
  3. 根部方向 (Root Direction) : “往那边走。”

学生尝试仅使用这些有限的输入来模仿教师 (来自阶段 2) 的行为。

阶段 4: RL 微调

最后,允许学生策略使用强化学习 (RL) 进行自我练习。这有助于它平滑行为并从错误中恢复。结果是一个通用的控制器,可以纯粹根据环境和方向指令进行行走、攀爬或坐下。

实验与结果

研究人员通过在模拟中的严格测试,最重要的是在物理硬件上的测试,验证了他们的方法。

重建的鲁棒性

那个联合优化实际上效果如何?团队将他们的重建精度与 WHAM 和 TRAM 等最先进的方法进行了比较。

表 2: 重建方法的定量比较,显示 VideoMimic 的性能更优。

表 2 显示,VIDEOMIMIC 的误差 (MPJPE 为“平均关节位置误差”) 明显更低,几何重建 (倒角距离,Chamfer Distance) 也优于基线方法。这种精度至关重要——如果重建的楼梯低了 10 厘米,机器人就会绊倒。

预训练的重要性

是否有必要从 MoCap 数据开始?作者进行了一项消融研究来找出答案。

图 6: 展示有无动作捕捉预训练的策略训练成功率曲线图。

图 6 展示了鲜明的对比。蓝线 (无 MPT) 几乎学不到任何东西。红线 (有 MPT) 则飙升至高成功率。这证实了用干净的运动数据对机器人进行“热启动”对于以后处理视频数据的噪声至关重要。

实机部署

终极测试是将代码部署在 Unitree G1 机器人上。该机器人依靠 LiDAR 传感器实时生成局部高度图。

图 5: 机器人在现实世界中执行爬楼梯、坐下和穿越地形。

结果 (如图 5 所示) 令人印象深刻。 同一个单一策略使机器人能够:

  • 坐下和站立: (顶行) 机器人接近长椅,检测几何形状,然后坐下。
  • 爬楼梯: (中间行) 它处理上下楼梯的情况。
  • 穿越粗糙地形: (底行) 它越过路缘石和不平坦的地面。

至关重要的是,机器人是情境感知 (context-aware) 的。它没有被显式地告知“切换到爬楼梯模式”。它只是通过高度图看到了楼梯,接收到操纵杆发出的“前进”指令,策略便推断出需要抬高腿来攀爬。

不同阶段的评估

团队还可视化了初始 MoCap 策略与最终通用策略之间的性能差异。

图 9: 实验室环境中 MoCap 预训练策略与最终通用策略的比较。

虽然 MoCap 策略 (左) 是稳定的,但最终的通用策略 (右) 展示了在实验室环境中灵活跟踪轨迹的能力,证明了蒸馏过程的有效性。

未来展望: 通过机器人的眼睛看世界

这项工作最令人兴奋的潜在扩展之一是第一人称视角渲染 (Ego-view Rendering) 。 由于该流程重建了完整的 3D 场景,研究人员可以生成机器人从自己的摄像头在运动过程中会看到的画面。

图 8: 从重建场景中进行第一人称视角 RGB-D 渲染的演示。

如图 8 所示,这允许从机器人的视角生成合成的 RGB 和深度数据。虽然当前的策略依赖于高度图 (几何形状) ,但未来的版本可以使用这种视觉数据来训练机器人理解语义——例如,避开“地面湿滑”的标志,或区分人行道和花坛。

结论

VIDEOMIMIC 代表了远离手动机器人编程的重要一步,迈向了像我们一样学习的机器人: 通过观察世界。

通过成功地从普通视频中恢复 4D 人-场景交互,并将其蒸馏为鲁棒的控制策略,作者为教导人形机器人提供了一条可扩展的路径。我们正在迈向这样一个未来: 不需要编写代码来教机器人修水槽或装洗碗机,我们可能只需要给它看一段 YouTube 视频,然后说: “就像那样做。”

这就证明了,只要有正确的流程,现实世界中嘈杂、混乱的数据不是障碍——它是我们拥有的最好的训练手册。