Real2Render2Real：如何在没有机器人（或物理引擎）的情况下训练机器人

在人工智能领域，规模就是一切。像 GPT-4 这样的大型语言模型 (LLMs) 和视觉语言模型 (VLMs) 之所以能实现“通用”能力，主要是因为它们消耗了海量的、互联网规模的数据。然而，机器人技术在这场数据革命中却被甩在了后面。这通常被称为“莫拉维克悖论 (Moravec’s paradox) ”或机器人领域的数据稀缺问题: 虽然我们有数十亿的文本 token，但我们要么没有数十亿个机器人折叠衣物或煮咖啡的示例。

传统的解决方案是人类远程操作 (Teleoperation) ——即由人类控制机器人执行任务并记录数据。但这既缓慢又昂贵，并且需要物理接触特定的机器人硬件。另一种选择是仿真 (Simulation) , 但在模拟真实世界时涉及复杂的物理引擎，这些引擎往往难以准确模拟摩擦力和接触 (即臭名昭著的“Sim2Real”鸿沟) 。

一篇题为 “Real2Render2Real (R2R2R)” 的新论文提出了第三种途径。如果我们仅用手机扫描和一段人类手部视频，就能生成数千个高质量的机器人训练样本，那会怎样？如果我们完全不需要物理引擎就能做到这一点呢？

本文将深入探讨 R2R2R 的工作原理，它为何放弃物理模拟而采用“运动学渲染”，以及它如何取得与费时费力的人类远程操作相媲美的结果。

问题所在: 机器人数据的高昂成本

要训练机器人操作物体——比如拿起马克杯或拧开水龙头——通常需要一个将视觉输入 (机器人看到的东西) 映射到动作 (机器人如何移动) 的策略 (policy) 。深度学习模型非常依赖数据；它们需要数千个多样化的示例才能很好地泛化。

目前，我们主要有两个数据来源:

现实世界远程操作: 人类戴上 VR 头显或使用操纵杆引导机械臂。这能产生高质量的数据，但速度极慢 (每分钟约 1.7 次演示) 且难以扩展。
基于物理的仿真: 工程师构建虚拟世界。然而，创建这些资产是劳动密集型的。此外，物理引擎通常难以处理“拉格朗日力学”——比如能量守恒或接触时的复杂摩擦等基本问题。为了让仿真能够运行，工程师通常要花数周时间调整参数，以防止物体穿模穿过桌子或飞向太空。

R2R2R背后的研究人员提出了一个关键问题: 我们能否在不依赖动力学仿真或远程操作的情况下，通过计算手段扩展机器人数据?

解决方案: Real2Render2Real (R2R2R)

R2R2R 的核心思想是将数据生成视为一个渲染问题，而不是仿真问题。

与其模拟力、扭矩和碰撞 (这很难) ，该流水线只是简单地“回放”从现实世界中提取的有效几何形状和运动，并将它们渲染成逼真的图像。它利用现实世界的“种子” (扫描和视频) ，生长出一片合成训练数据的森林。

图 1: Real2Render2Real 为“将马克杯放在咖啡机上”的任务生成机器人训练数据。该流水线接收智能手机扫描和单个人类视频，重建几何结构，跟踪运动，然后渲染多样化的机器人执行过程。

如图 1 所示，该流水线包含三个主要阶段:

扫描 (Scan) : 捕捉物体的几何形状和外观。
演示 (Demonstrate) : 跟踪物体在人类交互过程中的移动方式。
渲染 (Render) : 生成数千种机器人执行相同动作的变体。

让我们分解一下使其成为可能的技术栈。

1. 现实到仿真的资产提取 (3D 高斯泼溅)

第一步是将现实世界带入数字世界。用户使用智能手机对相关物体 (例如，马克杯和咖啡机) 进行扫描。

研究人员使用了 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 。传统的网格 (Mesh) 看起来可能有“游戏感”或低多边形 (low-poly) ，与此不同，3DGS 将场景表示为 3D 高斯 (椭球体) 云，保留了真实物体的逼真光泽和纹理。

然而，原始扫描只是一个静态场景。为了操纵物体，系统需要理解“马克杯”是独立于“桌子”的。作者利用了 GARField , 这是一种将这些高斯分组为具有语义意义的部分的方法。这对于关节物体 (articulated objects) 至关重要——比如滑动的抽屉或旋转的水龙头把手。

图 3: 具有部件级分割的 3D 高斯泼溅物体重建。系统可以识别并分离物体的运动部件，如水龙头的把手或老虎玩具的身体。

如图 3 所示，这种分割允许系统将马克杯或抽屉把手视为可以数字移动的独立刚体。

2. 轨迹提取 (跟踪人类)

接下来，用户录制一段自己执行任务的视频 (例如，将马克杯放在机器上) 。系统并不关心人类的手本身；它关心的是物体的运动 。

使用一种称为 4D 可微部件建模 (4D Differentiable Part Modeling, 4D-DPM) 的技术，系统在整个视频中跟踪物体的 6 自由度 (6-DoF) 姿态。它有效地提取了运动的“幽灵”——即马克杯如何穿过空间并落在咖啡机上。

3. 扩缩多样性: 插值和随机化

如果系统只是重放那一条轨迹，我们就只有一个数据点。为了训练一个鲁棒的机器人，我们需要机器人在马克杯稍微偏左或光线变化时也能成功。

这正是 R2R2R 的亮点所在。它执行轨迹插值 (Trajectory Interpolation) 。

如果用户想要生成一个新的训练示例，其中马克杯的起始位置向右偏移 10 厘米，系统不能只是盲目地重放记录的动作 (那样马克杯会错过目标) 。相反，R2R2R 使用球面线性插值 (Slerp) 对轨迹进行数学变形。它计算从新的随机起点到原始目标终点的平滑路径。

图 4: 轨迹插值。R2R2R 调整物体运动。它对空间路径进行归一化并对旋转进行插值，以确保即使在物体起始位置随机化的情况下，运动也是合理的。

图 4 展示了这种适应过程。系统还引入了抓取姿态采样 (Grasp Pose Sampling) 。它分析人类视频，找出手指相对于物体的位置，然后计算出机器人夹爪在该位置的有效抓取方式。

4. “无物理”渲染引擎

这是最激进的设计选择。一旦系统拥有了资产和计算出的轨迹，它就需要创建最终图像供机器人学习。

传统方法会将这些资产加载到物理模拟器 (如 PyBullet 或 MuJoCo) 中，并尝试使用控制器来推动物体。R2R2R 跳过了这一步。它严格地将 IsaacLab 用作渲染器。

系统假设计算出的轨迹是有效的。它强制机械臂 (使用逆运动学) 和物体逐帧跟随路径。这实际上创建了机器人执行任务的“定格动画”。

优点: 没有物理爆炸，无需调整接触参数，无需猜测摩擦系数。
缺点: 它无法模拟动力学特性，如重物滑落或可变形物体的挤压 (作者承认了这些局限性) 。

因为它是纯运动学渲染，所以计算效率很高。系统应用了大量的域随机化 (Domain Randomization) : 改变光照、相机角度和背景纹理，以迫使机器人学习鲁棒的视觉特征。

效率和吞吐量

这与人类收集数据相比如何？差距是惊人的。

远程操作: 人类必须重置场景，移动机器人，然后再重置。速度: 约 1.7 次演示/分钟。
R2R2R: 一旦 10 分钟的设置 (扫描 + 1 个视频) 完成，服务器就会接管。单个 GPU 每分钟可以生成 51 次演示 。

图 2: 数据生成效率。左图显示成功率随着数据量的增加而提高。右图是一个对数-对数比例图，显示了 R2R2R (蓝线) 与人类远程操作 (橙线) 相比巨大的吞吐量优势。

图 2 (右) 直观地展示了这种扩展能力。单个 GPU 上的 R2R2R (深蓝线) 甚至超过了假设的 10 人远程操作团队同时工作的速度。

数据真的有效吗？

如果生成的数据不能训练出好的机器人，那它就毫无用处。作者通过训练两个最先进的模仿学习模型来测试这一点: Diffusion Policy 和 \(\pi_0\)-FAST 。

他们在真实的 ABB YuMi 双臂机器人上评估了这些策略，涵盖了五个不同的任务:

捡起玩具老虎。
将马克杯放在咖啡机上。
关掉水龙头 (关节物体) 。
打开抽屉 (关节物体) 。
双手捡起包裹 (双臂协调) 。

结果

研究人员比较了基于 150 次人类远程操作演示训练的策略与基于 R2R2R 合成演示 (高达 1000 次) 训练的策略。

图 5: 比较 R2R2R 与人类远程操作的物理实验。图表显示成功率 (y 轴) 与数据生成时间 (x 轴) 的关系。随着合成轨迹数量的增加，R2R2R (蓝色) 的表现达到或超过了人类远程操作 (黄色/橙色) 。

图 5 中的结果令人鼓舞:

缩放定律依然适用: 随着合成数据的增加 (从 50 到 1000 条轨迹) ，机器人的成功率持续提高。
与真实数据相当: 在许多任务中，基于 1000 条 R2R2R 合成轨迹 (仅由一个人类视频生成) 训练的策略，其表现与基于 150 条真实世界远程操作演示训练的策略相匹配。
复杂任务: 该系统在“将马克杯放在咖啡机上”的任务中表现极佳。例如，使用 R2R2R 数据，\(\pi_0\)-FAST 模型达到了 80% 的成功率 , 与使用真实数据的最佳结果相当。

表 2: 物理策略成功率比较。该表详细列出了具体的成功百分比。请注意，1000 条 R2R2R 轨迹通常能产生很高的成功率 (例如，水龙头任务为 80%) ，与 150 条真实轨迹相当。

表 2 提供了原始数据。虽然真实数据每个样本的“效率更高” (150 个真实样本大约相当于 1000 个合成样本) ，但在初始设置之后，合成样本的生成基本上是免费的。

消融实验: 为什么多样性很重要

作者进行了消融实验，以验证流水线的哪些部分是必不可少的。一个关键发现是 轨迹插值 的重要性。

图 25: 关闭轨迹插值。如果没有插值，系统只会一遍又一遍地重放完全相同的动作。这导致机器人无法泛化到新的位置。

当他们关闭数学插值 (仅仅是在不同位置重放相同的动作) 时，咖啡机任务的成功率下降到接近 0% 。这证明仅仅“增强”图像是不够的；机器人需要看到多样化的物理轨迹才能学习到鲁棒的控制策略。

结论与机器人学习的未来

Real2Render2Real 代表了我们在思考机器人数据方式上的转变。它挑战了我们需要昂贵的物理模拟器或繁琐的人力劳动来教导机器人的假设。

通过将世界视为运动学渲染，R2R2R 让任何拥有智能手机的人都能成为数据生成者。你可以扫描你的厨房，录制一次自己装填洗碗机的过程，然后让你的 GPU 在你睡觉时生成一千个训练示例。

主要收获:

无需硬件: 数据收集与机器人本身解耦。
无需物理引擎: 运动学渲染避免了接触建模的复杂性。
视觉保真度: 3D 高斯泼溅弥合了仿真与现实之间的视觉差距。
规模化: 它将单个人类动作转化为海量数据集。

虽然 R2R2R 也有局限性——它目前无法处理柔软、可变形的物体或动态抛掷动作——但它为机器人技术的“GPT 时刻”提供了一条切实可行的路径: 在这个世界里，数据不再是瓶颈，而是一种我们可以大规模生成的商品。

问题所在: 机器人数据的高昂成本#

解决方案: Real2Render2Real (R2R2R)#

1. 现实到仿真的资产提取 (3D 高斯泼溅)#

2. 轨迹提取 (跟踪人类)#

3. 扩缩多样性: 插值和随机化#

4. “无物理”渲染引擎#

效率和吞吐量#

数据真的有效吗？#

结果#

消融实验: 为什么多样性很重要#

结论与机器人学习的未来#