引言
机器人学和人工智能领域的“圣杯”之一,就是能够通过向机器人展示一段人类执行任务的视频,来教会它新技能。想象一下,如果你不需要一步步地为机器人编程,也不需要为了收集数据而遥控它数小时,仅仅给它看一段某人叠衬衫的 YouTube 视频,机器人就能立刻理解如何去操作,那该多好。
虽然这听起来很直观,但在计算上却面临着一个巨大的挑战,被称为具身差异 (Embodiment Gap) 。 人类有柔软的手和五根手指;机器人通常使用刚性夹爪或吸盘。人类的运动具有特定的运动学结构;机械臂则有不同的关节限制和自由度。对于计算机视觉系统来说,一段人类捡起苹果的视频,在统计学上与一段金属夹爪做同样动作的视频截然不同。
传统上,研究人员试图通过使用配对数据集来弥合这一差距——即记录人类和机器人在完全相同的环境中做完全相同的事情,以此来映射两者之间的差异。但这不仅昂贵,而且难以扩展。
在这篇文章中,我们将深入探讨 CoRL 2025 上发表的一篇新论文——UniSkill 。 UniSkill 提出了一种巧妙的方法,从大规模、无标签的视频数据集中学习“通用”技能表征。其核心思想是什么?关注*动力学 (Dynamics) *——即帧与帧之间的变化——而不是智能体的外观。通过这种方式,UniSkill 允许机器人观看人类视频,并将视觉信息转化为可执行的机器人动作,而无需对齐的数据或复杂的标签。
![图 1: 通用技能表征 (UniSkill) 是通过技能动力学建模,从人类和机器人视频中训练得出的跨具身技能表征,可在各种具身 (如人类、Franka、WidowX) 之间共享。与之前需要额外监督 (如轨迹标签) 或人类与机器人视频对齐的方法不同,UniSkill 通过仅从现成的视频数据集中学习来消除这些限制——例如用于人类视频的 Something-Something V2 [11] 和 H2O [12],以及用于机器人视频的 DROID [13]、Bridge V2 [14] 和 LIBERO [15]。UniSkill 在大规模跨具身视频上进行训练,学习了一种与具身无关的技能表征,使得通过技能条件策略将人类视频解释为可直接执行的技能序列成为可能。](/en/paper/2505.08787/images/001.jpg#center)
核心问题: 具身差异
从视频中学习是一种可扩展的方法,因为视频数据非常丰富。我们在网上有数百万小时的人类活动视频 (例如“Something-Something”数据集) 。然而,从这些视频中提取机器人动作是困难的。
当前大多数方法都陷入了两个陷阱:
- 依赖配对数据: 它们需要人类和机器人在相同场景中执行相同任务的数据集。这实际上抵消了使用互联网上“不受控环境 (in-the-wild) ”视频的好处。
- 显式转换: 它们试图将人类手部姿态映射到机器人夹爪姿态。这通常需要复杂的 3D 追踪,并且当机器人的形态不能与人手一一对应时就会失效。
UniSkill 通过提出一个不同的问题来避开这些陷阱: 我们能否学习一种与其执行者无关的“技能”表征?
如果我们不通过手臂的样子,而是通过环境如何变化 (例如,“杯子被举起了”,“抽屉被关上了”) 来定义技能,我们就可以在人类和机器人之间建立一种共享语言。
UniSkill 方法
UniSkill 框架建立在一个直觉之上: 一个“技能”实际上是两个时间点之间动力学的压缩。如果我们观察时间 \(t\) 的视频帧和时间 \(t+k\) 的另一帧,它们之间的差异就代表了正在执行的技能。
该框架包含三个主要阶段:
- 技能表征学习: 使用大规模视频学习通用嵌入空间。
- 策略学习: 训练机器人根据这些嵌入来执行动作。
- 推理: 从人类视频中提取嵌入来指导机器人。
让我们分解其架构,如下图所示。

1. 通用技能表征学习
UniSkill 的核心在于它如何学习将视频片段编码为一个紧凑的向量 \(z_t\) (即技能表征) 。为了在没有标签的情况下做到这一点,作者使用了一种包含两个模型的自监督方法: 逆向技能动力学 (ISD) 模型和正向技能动力学 (FSD) 模型。
逆向技能动力学 (ISD)
ISD 模型充当编码器。它观察当前帧 \(I_t\) 和未来帧 \(I_{t+k}\),并试图提取解释这两者之间转换的“技能” \(z_t\)。

至关重要的是,作者发现仅依赖 RGB 像素数据会导致模型过度拟合外观 (例如,记住“白色的手臂移动”与“黑色的手臂移动”是不同的技能) 。为了解决这个问题,他们引入了深度估计 。 通过使用深度图,模型更多地关注物体的几何形状和运动,而不是智能体手臂的纹理或颜色。
正向技能动力学 (FSD)
FSD 模型充当解码器/预测器。它接收当前帧 \(I_t\) 和提取的技能 \(z_t\),并尝试预测未来帧 \(I_{t+k}\)。

这种结构受到了图像编辑模型 (如 InstructPix2Pix) 的启发。在图像编辑中,你给模型一张图像和一个文本指令 (例如,“加一顶帽子”) ,它就会生成新的图像。在这里,“指令”是潜在技能向量 \(z_t\)。
通过强制系统仅利用当前帧和技能向量来重建未来帧 \(I_{t+k}\),模型被迫将所有必要的动力学信息 (什么东西动了,去了哪里) 打包进 \(z_t\)。因为训练数据包括人类、Franka 机器人和 WidowX 机器人的视频,模型学习到了适用于所有这些具身形态的广义运动概念。
训练目标本质上是最小化预测的未来帧与实际未来帧之间的差异。这迫使 \(z_t\) 捕捉视频中的“动词” (推、拉、举) ,而不是“名词” (手、夹爪、袖子颜色) 。
2. 通用技能条件策略
一旦 ISD 模型在大规模数据集 (包括多样化的人类视频和机器人数据集) 上训练完毕,我们就将其冻结。现在我们需要教特定的机器人如何执行这些技能。
我们在机器人演示数据集上训练一个策略 \(\pi\) (使用扩散策略架构) 。对于机器人数据集中的每条轨迹:
- 我们取两帧,\(I_t\) 和 \(I_{t+k}\)。
- 我们将它们通过冻结的 ISD 得到技能 \(z_t\)。
- 我们训练策略在给定当前观测 \(o_t\) 和技能 \(z_t\) 的情况下预测机器人的物理动作 \(a_t\)。

增强技巧: 训练和测试之间仍然存在细微的差距。在训练期间,技能 \(z_t\) 来自机器人视频。在测试期间,它将来自人类视频。为了使策略对这种转变具有鲁棒性,作者在训练期间对输入 ISD 的图像进行了大量的增强 (改变颜色、抖动等) 。这模拟了视觉域的差异,迫使策略依赖于 \(z_t\) 中编码的底层结构动力学,而不是特定的视觉线索。
3. 推理: 跨具身模仿
在测试时,我们希望机器人模仿人类。
- 我们录制一段人类视频提示 (例如,一个人推块) 。
- 我们将该视频的帧输入到 ISD 中。
- ISD 提取出一系列技能向量 \(z\)。
- 这些向量被输入到机器人策略中。
- 机器人执行动作,有效地“模仿”人类的意图,即使它以前从未见过那段特定的人类视频。
下面的图 9 直观地展示了这个推理流程与标准的目标条件行为克隆 (GCBC) 有何不同。GCBC 试图达到一个特定的像素目标 (看起来像人手,这会让机器人困惑) ,而 UniSkill 则遵循抽象的技能表征。

为什么它有效?可视化“技能”
UniSkill 最引人注目的方面之一是学习到的表征是可解释的。我们可以通过使用正向技能动力学 (FSD) 模型来检查模型是否真的理解了“动力学”。
如果我们取一张静态图像,并注入从完全不同的视频中提取的“技能”,FSD 应该能够“幻视”出执行该技能后的未来帧。

在上图中,请看右侧的“Current Image (当前图像) ”。当以“Skill A” (拿起) 为条件时,模型预测机械臂抬起。当以“Skill C” (横向移动) 为条件时,它预测机械臂横向移动。这证实了 \(z_t\) 确实编码了运动指令。
此外,我们可以观察这些技能的聚类情况。在下面的 t-SNE 图中,我们可以看到嵌入是按任务 (颜色) 聚类的,而不是按具身 (形状) 聚类的。执行相同任务的圆圈 (人类) 和十字 (机器人) 在嵌入空间中靠得很近。这证明了表征是与具身无关的。

注: 图 12 也强调了深度的重要性。没有深度 (右下) ,聚类是混乱的。有了深度 (左下) ,任务分离得非常清晰。
实验与结果
研究人员在真实世界的机器人 (Franka Emika Panda) 和仿真基准 (LIBERO) 上评估了 UniSkill。他们使用了大规模数据集进行训练,包括:
- 人类数据: Something-Something V2, H2O。
- 机器人数据: DROID, BridgeV2, LIBERO。
他们将 UniSkill 与 GCBC (目标条件行为克隆) 和 XSkill (一种之前的跨具身 SOTA 方法) 进行了比较。
真实世界桌面任务
在现实世界中,他们让机器人操作纸巾、毛巾和垃圾桶等物体。他们提供了来自未参与训练的机器人 (Franka) 的提示,更重要的是,来自人类的提示。

图 3(a) 中的结果令人震惊:
- Franka 提示: UniSkill 达到了 81% 的成功率,击败了 XSkill (61%) 和 GCBC (60%)。
- 人类提示: 这是最难的设置。XSkill 得分为 0% , GCBC 得分为 11% 。 UniSkill 达到了 36% 。 虽然 36% 听起来可能不高,但这相对于基准方法来说是一个巨大的飞跃,基准方法基本上完全失败了。
值得注意的是,对于较简单的任务,成功率要高得多。例如,在“抽出纸巾”任务中,UniSkill 在机器人提示下达到了 93% , 在人类提示下达到了 57% (见论文中的表 2) 。
对未见具身的泛化 (“Anubis” 机器人)
为了挑战极限,他们在名为 “Anubis” 的定制机器人上进行了测试,该机器人在训练期间从未出现过。

如图 4 所示,无论提示是来自 Franka、人类还是新型的 Anubis 机器人,UniSkill (绿色柱状图) 始终优于基准方法 (蓝色柱状图) 。这证实了 UniSkill 名称中“通用 (Universal) ”的主张。
仿真结果 (LIBERO)
仿真允许进行更严格的大规模测试。在 LIBERO 基准测试中,他们通过让人类在现实世界中模仿仿真任务来创建“人类提示”。

在这里,UniSkill 在人类提示下达到了 48% 的成功率,而 GCBC 仅为 9% 。 图 5 中的视觉对比显示了干净的仿真环境 (左) 与真实世界人类演示 (右) 之间巨大的视觉域差异。UniSkill 成功地弥合了这一差距。
消融实验: 大数据的力量
增加更多数据真的有帮助吗?是的。作者进行的消融研究表明,仅在机器人数据上训练就能产生不错的结果,但加入大规模人类视频数据集 (Something-Something V2 和 H2O) 能显著提升性能。

看表 6(a),仅仅添加人类视频就将成功率从 19% 提高到了 49% 。 这验证了一个假设: 只要表征学习得当,机器人确实可以通过观看人类来学习更好的技能。
结论
UniSkill 代表了机器人学习向前迈出的重要一步。通过将重点从像素级完美重建转移到动力学建模 , 它允许机器人利用互联网上可用的大量人类视频数据。
关键要点:
- 具身独立性: UniSkill 学习的技能代表发生了什么,而不是谁在做。
- 可扩展性: 它利用了无标签的、不受控环境下的数据集,消除了昂贵的数据收集瓶颈。
- 跨具身迁移: 它使机器人能够观看人类 (或不同的机器人) 并执行相应的任务,而无需明确的配对训练数据。
虽然仍有局限性——例如对视频速度和极端视点变化的敏感性——但 UniSkill 为通用的未来铺平了道路,在那时,机器人只需看着我们做家务就能学会新任务。将这种技能表征与视觉语言模型 (VLM) 集成可能是下一个前沿方向,这可能使机器人能够同时理解复杂任务的“内容” (语言) 和“方式” (UniSkill 动力学) 。
](https://deep-paper.org/en/paper/2505.08787/images/cover.png)