引言: 机器人技术的数据瓶颈

想象一下，你想教机器人如何冲一杯咖啡。传统的做法是通过模仿学习 (Imitation Learning) 。作为人类专家，你必须拿起控制器或物理地引导机械臂完成几十次甚至上百次的动作。这个过程被称为遥操作 (Teleoperation) ，它为机器人提供了“机器人看到的” (图像) 和“机器人做的” (电机动作) 的精确配对数据。

这种方法很有效，但速度极慢且成本高昂。这也是为什么我们还没有出现“机器人版 ChatGPT”的主要原因。虽然大型语言模型 (LLMs) 是从整个互联网中学习的，但机器人却因为缺乏海量的机械臂运动数据集而极度缺乏数据。

但等等——其实确实有一个海量的任务执行数据集: YouTube。那里有数以百万计的人类烹饪、清洁和修理东西的视频。为什么机器人不能直接看这些视频来学习呢？

问题在于具身差异 (Embodiment Gap) 。人类的手不是机器人的夹爪。我们有五根手指；机器人可能只有两个平行的钳口。我们的运动学和动力学特性也完全不同。最重要的是，人类视频提供了视觉信息，但包含零个机器人动作标签。机器人可以看到咖啡被倒出来，但它完全不知道需要什么样的电机电流或关节速度才能用自己的身体复制那个动作。

在这篇文章中，我们将深入探讨 X-SIM , 这是一篇在 CoRL 2025 上发表的精彩论文。研究人员提出了一种完全绕过昂贵的机器人遥操作的流程。他们的方法允许机器人观看人类视频，对其进行仿真，从中学习，然后在现实世界中执行任务——其表现通常优于直接试图模仿人类手部动作的方法。

图 1: X-SIM 概览。该框架接收人类视频，在仿真中重建视频以训练强化学习 (RL) 策略，生成合成数据，并将其提取为现实世界的图像策略。

背景: 单纯模仿的困境

要理解为什么 X-SIM 具有创新性，我们首先需要看看其他人是如何尝试解决“从人类视频中学习”这一问题的。

大多数现有方法依赖于重定向 (Retargeting) 。它们使用计算机视觉来追踪人类的手，然后试图通过数学方法将手的位置映射到机器人的末端执行器上。例如，如果人手向前移动 10 厘米，就告诉机器人向前移动 10 厘米。

这听起来很合逻辑，但在实践中往往会失败，主要有两个原因:

运动学不可行性 (Kinematic Infeasibility) : 人类可能会以某种方式扭动手腕，而机械臂在机械结构上根本无法复制这种动作，否则就会撞到自己或桌子。
视觉不匹配 (Visual Mismatch) : 机器人看着人手看到的场景，与机器人看着自己的金属夹爪看到的场景截然不同。在人类手部数据上训练的策略在部署时看到机器人夹爪时，往往会感到困惑。

X-SIM 的作者意识到，试图复制手的动作是一个误区。相反，他们问: 在一个任务中，什么才是真正重要的？

核心洞察: 以物体为中心的学习

当你倒咖啡时，你的手肘在哪里或你的手指如何弯曲其实并不重要。重要的是杯子倾斜了, 液体流进了马克杯里。

X-SIM 建立在这样一个洞察之上: 物体运动是不同具身形态之间的通用语言。如果人类将芥末瓶从 A 点移动到 B 点，那么这个物体轨迹就是任务的“基本真值 (Ground Truth) ”。如果机器人能弄清楚如何让芥末瓶遵循同样的轨迹，那么无论它的手臂如何移动来实现这一点，它都算成功了。

X-SIM 利用了这一点，采用了一种真-仿-真 (Real-to-Sim-to-Real) 的流程。它不是直接映射动作，而是使用人类视频创建一个仿真环境，在该仿真中训练机器人 (在那里面试错是安全的) ，然后将这些知识迁移回现实世界。

X-SIM 方法

该框架分为三个明显的阶段。让我们逐一分解。

第一阶段: 现实到仿真的迁移 (Real-to-Sim Transfer)

第一步是将被动的视频转化为可交互的环境。系统需要通过数字方式重建物理世界，以便机器人可以在其中练习。

该过程从两个输入开始: 物体的扫描 (使用像 Polycam 这样的手机应用) 和环境的扫描。研究人员使用2D 高斯泼溅 (2D Gaussian Splatting) , 这是一种现代渲染技术，可以从短视频扫描中创建高度逼真的 3D 场景。

一旦静态场景建立起来，他们就需要提取运动信息。他们使用一种名为 FoundationPose 的计算机视觉模型来追踪人类视频中每个时间戳上物体的位置和旋转 (6D 姿态) 。

图 2: 现实到仿真过程。结合 RGBD 视频、物体网格和高斯泼溅，创建带有被追踪物体状态的逼真仿真。

如上图 2 所示，结果是场景的数字孪生体，系统确切地知道物体在人类演示的每个时刻是如何移动的。

第二阶段: 在仿真中学习 (老师)

现在我们有了仿真环境，我们需要教机器人如何操纵物体以匹配人类的演示。由于我们在仿真中，我们可以访问特权状态 (Privileged State) ——意味着机器人知道每个物体的确切 X、Y、Z 坐标。这使得学习比直接从原始像素中学习要容易得多。

以物体为中心的奖励

机器人使用强化学习 (RL) ，具体来说是 PPO 算法进行训练。在 RL 中，智能体通过尝试最大化奖励来学习。X-SIM 基于物体轨迹定义奖励。

奖励函数本质上是在问: “物体当前的位置和方向是否与人类视频中的一样？”

目标奖励的数学公式为:

基于位置和旋转距离的目标奖励计算公式。

在这里，\(d_{pos}\) 是物体当前位置与视频中目标位置之间的距离，\(d_{rot}\) 是旋转差异。

通过优化这个奖励，机器人找出了自己抓取和移动物体的方法。它不在乎人类是如何握住物体的；它只在乎将物体移动到正确的地方。

生成合成数据

一旦 RL 策略训练完成，它就可以在仿真中完美地执行任务。但我们不能直接将这个 RL 策略部署到现实世界，因为现实中的机器人没有神奇的能力去获取精确的物体坐标 (特权状态) 。现实中的机器人是通过摄像头看世界的。

为了弥合这一差距，X-SIM 使用训练好的 RL 策略生成海量的合成图像-动作对 (Synthetic Image-Action Pairs) 数据集。他们运行数千次仿真，随机化光照、摄像机角度和物体起始位置。

图 3: 仿真到现实流程。左: 生成合成数据。右: 使用配对轨迹进行自动校准。

如图 3 左侧所示，这产生了一个数据集 \(D_{synthetic}\)，其中的输入是渲染图像 (由于高斯泼溅，看起来非常逼真) ，输出是源自 RL 专家的正确机器人动作。

第三阶段: 仿真到现实的蒸馏 (学生)

利用合成数据集，团队训练了一个扩散策略 (Diffusion Policy) 。这是一种强大的行为克隆模型，它接收图像作为输入并预测机器人的动作。

由于仿真非常逼真，这个策略通常可以在现实世界中实现“零样本 (Zero-shot) ”运行。然而，没有仿真能做到完美。数字渲染和物理摄像头画面之间总会在光照、纹理或颜色上存在细微差异。这就是所谓的仿真到现实的差距 (Sim-to-Real Gap) 。

自动校准: 弥合差距

X-SIM 引入了一种巧妙的在线域适应 (Online Domain Adaptation) 技术来解决这个问题。

在真实机器人上部署策略。它可能会失败或稍微有些抖动。
记录真实机器人的尝试视频。
回到仿真中, 重放真实世界中发生的完全相同的机器人动作。
现在你就有了成对的图像: 完全相同时间点的“真实机器人看到的”和“仿真机器人看到的”。

然后，系统使用校准损失 (Calibration Loss) 微调策略的视觉编码器:

使用配对图像上的对比学习进行校准损失计算的公式。

这种对比损失迫使神经网络将真实图像和仿真图像映射到相同的特征嵌入 (Embedding) 中。它教机器人忽略仿真的“虚假”外观，专注于语义内容 (例如，“杯子在边缘附近”) 。

如下面的 t-SNE 图 (图 7) 所示，校准后，真实数据和仿真数据的特征表示紧密对齐。

图 7: t-SNE 图显示了校准前后图像嵌入的对齐情况。

实验与结果

研究人员使用 Franka Emika 机械臂在 5 个现实世界任务上评估了 X-SIM。任务范围从拾取和放置 (把玉米放入篮子) 到精确插入 (把马克杯挂在架子上) 。

他们将 X-SIM 与两个使用手部追踪的基准进行了比较:

手部遮罩 (Hand Mask) : 遮挡人类手部并试图克隆行为。
物体感知 IK (Object-Aware IK) : 追踪相对于物体的手部位置，并使用逆运动学 (IK) 强制机器人跟随手部的路径。

性能比较

结果非常明显。手部追踪基准表现十分挣扎。“手部遮罩”方法失败是因为视觉差异太大。“物体感知 IK”失败是因为人类的动作往往在物理上是机器人无法执行的 (例如，奇怪的手腕角度) 。

然而，X-SIM 始终保持着较高的成功率。

图 4: 显示平均任务进度的柱状图。X-SIM 在所有任务中都明显优于 Hand Mask 和 Object-Aware IK。

图 4 显示，X-SIM (尤其是校准版本) 在“把玉米放入篮子”等任务上实现了接近 100% 的进度，而基准测试仅徘徊在 30% 左右。

基准测试的失败情况可视化如下。手部重定向非常脆弱；如果机器人无法物理上达到人类的姿势，整个系统就会崩溃。X-SIM 避免了这种情况，因为 RL 智能体是从零开始发现可行的机器人动作的。

图 5: 手部重定向失败模式的可视化。视觉差异和运动学不可行性导致基准测试失败。

数据效率: “杀手级”特性

也许最令人印象深刻的结果是数据效率。收集机器人数据 (遥操作) 很难。收集人类视频很容易。

研究人员测试了需要多少“人类时间”才能达到良好的性能。

机器人遥操作 (行为克隆) : 需要 10 分钟 繁琐的数据收集才能达到 70% 的成功率。
X-SIM: 只需要 1 分钟 的人类视频 (仅几次演示) 即可达到 90% 的成功率。

因为 X-SIM 可以随机化仿真 (轻微扰动物体位置) ，一分钟的人类视频可以扩展为数小时的多样化合成训练数据。

图 8: 数据效率图表。与机器人遥操作相比，X-SIM 达到更高成功率所需的数据收集时间减少了 10 倍。

对视点变化的鲁棒性

最后，X-SIM 解决了机器人技术中另一个令人头疼的问题: 摄像机角度。如果你用前置摄像头训练机器人，当你把摄像头向侧面移动 20 度时，它通常会失败。

使用 X-SIM，你可以简单地从多个视点渲染合成数据。研究人员表明，通过在侧面和正面的合成视图上进行训练，真实机器人可以泛化到新颖的视点——即它在人类视频或现实世界设置中从未见过的视角。

表 9: 对新颖视点的泛化。结合合成视点使策略能够有效处理新的摄像机角度。

结论

X-SIM 为机器人学习提供了一条引人注目的前进道路。通过将重点从模仿身体转移到模仿对世界的影响 , 它绕过了重定向和运动学不匹配这些难题。

主要收获如下:

物体运动是通用的: 它是连接人类和机器人领域的稳健纽带。
仿真是一个倍增器: 少量的现实世界数据 (1 分钟视频) 可以通过合成随机化变成海量的训练数据。
真-仿-真 (Real-to-Sim-to-Real) 行之有效: 借助高保真渲染 (高斯泼溅) 和智能域适应 (自动校准) ，我们可以在虚拟世界中训练智能体，并让它们在现实世界中工作。

这种方法预示着未来机器人可能只需通过“观看”标准的教学视频，生成自己的内部仿真进行练习，然后用自己独特的身体执行任务来学习烹饪、清洁或维修。虽然我们还没有达到“下载功夫”的阶段，但 X-SIM 让我们离这一步更近了。

引言: 机器人技术的数据瓶颈#

背景: 单纯模仿的困境#

核心洞察: 以物体为中心的学习#

X-SIM 方法#

第一阶段: 现实到仿真的迁移 (Real-to-Sim Transfer)#

第二阶段: 在仿真中学习 (老师)#

以物体为中心的奖励#

生成合成数据#

第三阶段: 仿真到现实的蒸馏 (学生)#

自动校准: 弥合差距#

实验与结果#

性能比较#

数据效率: “杀手级”特性#

对视点变化的鲁棒性#

结论#