简介

我们正处于人形机器人的黄金时代。我们看到机器人奔跑、跳跃,甚至以惊人的敏捷度完成后空翻。然而,它们的能力中仍存在一个明显的短板: 操作 (Manipulation) 。 虽然机器人可能能够在一个仓库中导航,但要求它执行一个接触密集型任务——比如拿起一个易碎的物体,在手中调整它的方向,或者将其递给另一只手——仍然极其困难。

这种复杂性源于硬件本身。人形机器人的手是复杂的多指机械结构,具有高自由度 (DoF) 。控制它们需要精确的协调。传统方法通常依赖于模仿学习 (Imitation Learning, IL) , 即机器人模仿人类的演示。虽然有效,但 IL 对数据极度渴求,成本高昂且劳动密集。你需要数千小时的远程操作数据来覆盖每一个可能的边缘情况。

强化学习 (Reinforcement Learning, RL) 提供了一个诱人的替代方案: 让机器人在模拟中通过试错来学习。模拟器速度快、安全,并提供无限的数据。然而,“现实差距 (Reality Gap) ”——模拟器中的物理现象与现实世界之间的差异——往往导致在模拟中训练出的策略在部署到物理硬件上时惨遭失败。

在论文 “Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids” 中,来自加州大学伯克利分校、NVIDIA 和德克萨斯大学奥斯汀分校的研究人员提出了解决这一问题的综合“配方”。他们成功地训练了一个人形机器人仅使用模拟数据来执行复杂的双臂 (双手) 任务,并实现了向现实世界的稳健零样本迁移。

图: 机器人设置和任务概览。左侧为带有相机的真实世界设置和带有 Fourier 手的模拟器设置。右侧为三个主要任务: 双手抓取、举起和交接,以及物体泛化示例。

这篇文章将拆解他们的方法,解释他们如何克服低成本硬件、复杂协调和视觉感知带来的障碍,从而创建一个通用的灵巧操作系统的。

背景: Sim-to-Real 的挑战

在深入探讨解决方案之前,我们必须了解该问题的具体制约因素。

硬件限制

研究人员使用的是 Fourier GR1 人形机器人。与拥有高精度、昂贵电机的工业机械臂 (如 Kuka 或 Franka) 不同,人形机器人平台通常使用重量更轻、成本更低的电机,以保持机器人的敏捷性和可负担性。这些电机的“噪声”更大——它们具有更高的摩擦力、齿隙,且扭矩感应不那么准确。一个在完美的物理引擎 (如 Isaac Gym) 中运行良好的控制策略,在这个硬件上可能会失败,因为电机的响应不会完全如预测那般。

探索瓶颈

强化学习智能体通过探索来学习。在一个简单的网格世界中,智能体可以四处游荡直到找到目标。在双臂灵巧操作中,“搜索空间”是天文数字级的。拥有两条手臂和两只多指手,可能的关节配置数量巨大。如果没有引导,RL 智能体可能会挥舞数百万步,却从未偶然完成像“交接”这样的复杂任务,这意味着它永远得不到用于学习的奖励信号。

感知差距

最后是视觉。机器人必须看到物体才能捡起它。然而,模拟器中渲染的图像看起来与现实世界的相机画面不同 (光照、阴影、纹理) 。这种视觉域偏移 (Visual Domain Shift) 是 Sim-to-Real 策略的一个典型杀手。

核心方法: 四部曲配方

为了弥合这些差距,作者制定了一个四部分策略。这不仅仅是一个算法,而是一个旨在解决 Sim-to-Real 迁移中每一个故障点的管道。

图: 四部分配方的详细图解: (A) Real-to-Sim 自动调优,(B) 可泛化的奖励设计,(C) 样本高效的策略学习,以及 (D) 使用混合表示的基于视觉的 Sim-to-Real 迁移。

1. Real-to-Sim 建模 (自动调优器)

第一步是让模拟器的行为更像真实的机器人。制造商提供的标准统一机器人描述格式 (URDF) 文件通常是理想化的。它们没有考虑到磨损、特定的摩擦系数或你正在使用的实际设备的阻尼。

作者引入了一个自动化的 Real-to-Sim 调优模块 。 他们没有花费数周时间手动调整摩擦值,而是使用了一种数据驱动的方法:

  1. 真实数据: 他们收集了一小部分 (不到 4 分钟) 真实机器人移动关节的数据集。
  2. 并行模拟: 他们生成数千个具有随机物理参数 (关节刚度、阻尼、摩擦力) 的模拟环境。
  3. 优化: 他们在模拟中运行相同的动作,并测量针对真实数据的跟踪误差 (MSE) 。使该误差最小化的参数将被选中。

这个过程本质上是“校准”模拟器以匹配物理机器人的特定怪癖,从而创建一个高保真的训练场。

2. 可泛化的奖励设计

在 RL 中,你奖励什么就会得到什么。如果你仅仅因为举起一个箱子而奖励机器人,它可能会用手掌夹碎箱子,而不是精细地抓取它。对于双臂任务,所需的协调是复杂的。

研究人员建议将奖励解耦为两个部分: 接触目标 (Contact Goals)物体目标 (Object Goals)

他们引入了 “接触贴纸” (Contact Stickers) 的概念。这些是放置在模拟物体上的虚拟标记,代表指尖的理想接触点。

图: 箱子上接触模式的可视化。上: 侧面中心。中: 顶部/底部中心。下: 底部边缘。红点代表鼓励机器人触摸的位置。

奖励函数鼓励机器人的指尖 (\(F\)) 最小化与物体上这些接触贴纸 (\(X\)) 的距离。接触奖励的数学公式结合了左手 (\(L\)) 和右手 (\(R\)) 的距离:

图: 接触奖励方程,对双手接触标记与指尖之间的反向距离求和。

对于像 交接 (handover) 这样的复杂任务,奖励需要分阶段进行。在给予手成功将物体带近之前,机器人不应因接收手接触物体而获得奖励。作者使用一个阶段变量 \(a\) (其中 \(a=0\) 是抓取阶段,\(a=1\) 是转移阶段) 来切换激活的奖励项:

图: 交接奖励方程,显示了给予手目标和接收手目标之间基于阶段 (变量 ‘a’) 的切换。

这种结构化的奖励设计引导智能体完成“抓取、举起、接近、转移”的长视距序列,而不是指望它偶然发现解决方案。

3. 样本高效的策略学习

即使有了好的模拟器和清晰的奖励,探索问题仍然存在。为了加快训练速度,作者采用了两种巧妙的策略。

任务感知初始化: 他们没有在每个训练回合开始时将手放在远离物体的中性位置,而是使用“人类引导”的初始化。人类操作员简要地使用 VR 控制器或远程操作装置将机器人的手放在相关的起始姿势 (例如,靠近物体) 。这些姿势被记录下来并用作 RL 智能体的起点。这起到了“提示”的作用,将智能体置于一个很可能快速遇到奖励的状态。

分而治之的蒸馏: 学习一个能捡起 任何 物体的单一策略很难。学习捡起 一个特定 圆柱体则更容易。 团队使用了“学生-教师”方法 (具体来说是蒸馏) :

  1. 专家 (Specialists) : 他们为特定的子任务或特定的物体组训练单独的“专家”策略 (例如,一个策略只针对盒子,一个只针对圆柱体) 。
  2. 蒸馏 (Distillation) : 他们收集所有这些专家成功的轨迹。
  3. 通才 (Generalist) : 他们通过行为克隆 (监督学习) 训练一个单一的“通才”策略,以模仿所有专家的成功。

这使得系统能够在将技能合并到一个强大的大脑之前,逐个攻克任务的难点。

4. 基于视觉的 Sim-to-Real 迁移

最后,机器人需要看东西。使用原始 RGB 像素很难,因为存在视觉现实差距。仅使用 Ground-truth 状态 (如动作捕捉系统的位置) 是作弊——你在现实世界中无法轻易使用它。

解决方案是 混合物体表示 (Hybrid Object Representation) :

  1. 稀疏特征: 物体的 3D 质心 (通过相机估计) 。
  2. 稠密特征: 分割后的深度图像。

他们使用 Segment Anything Model 2 (SAM2) 将物体从 RGB 图像的背景中分离出来。该掩码应用于深度图。这消除了背景噪声,并使神经网络专注于物体本身的几何形状。通过依赖深度 (几何) 而不是 RGB (纹理/颜色) ,模拟与现实之间的差距被显著缩小。

实验与结果

该团队在三个任务上验证了他们的配方: 抓取并放置 (Grasp-and-Reach)举起箱子 (Box Lift)双臂交接 (Bimanual Handover)

在模拟中训练

训练曲线展示了他们“分而治之”策略的有效性。左下方的图表显示,策略在复杂物体 (蓝色) 上的学习速度比基元物体快,但最终趋于平稳。

更有趣的是,右图比较了训练策略。“Single”线 (在一个物体上训练) 上升最快。“Mix”策略 (分组物体) 表现良好。“All”策略 (试图从头开始学习所有东西) 是最慢且效果最差的。这验证了蒸馏的必要性——先训练简单的专家,然后合并它们。

图: 训练曲线。左: 复杂物体 vs 简单几何基元物体。右: 不同的物体分组策略,显示 ‘All’ 比 ‘Single’ 或 ‘Mix’ 慢。

结果是在模拟中产生了一组非常流畅且协调的策略:

图: 模拟策略执行抓取并放置、举起箱子和交接任务的胶卷条。

Real-to-Sim 自动调优的验证

自动调优真的有帮助吗?研究人员比较了使用高误差参数 (调优差) 与低误差参数 (自动调优) 训练的策略。

Table 1 中的结果非常显著。使用“最低 MSE” (最佳调优) 训练的策略在抓取上达到了 80% 的成功率 。 使用“最高 MSE” (调优差) 训练的策略完全失败 (0%) 。这证明对于低成本硬件,精确的物理校准不是可选项,而是成功的先决条件。

图: 表 1 显示低 Autotune MSE 与高 Sim-to-Real 成功率 (8/10 vs 0/10) 之间的相关性。

混合视觉的力量

最重要的发现之一是混合视觉表示的重要性。他们将他们的方法 (Depth + 3D Position) 与仅使用 Depth 进行了比较。

Table 3 中,观察“举起 (Lifting) ”和“交接 (Handover) ”任务,混合方法分别达到了 10/109/10 的成功率。仅 Depth 方法几乎完全失败 (0/10) 。这表明虽然深度图为抓取提供了良好的几何信息,但“稀疏”的 3D 位置对于机器人理解物体在相对于其身体的全局空间中的位置至关重要。

图: 表 3 比较了 Depth+Position 与仅 Depth 策略。Depth+Position 获得了近乎完美的分数,而仅 Depth 在复杂任务上失败。

现实世界的鲁棒性和泛化性

最终测试是在现实世界中。机器人实现了:

  • 在见过物体上 90% 的成功率
  • 在未见物体 (它从未在模拟中见过的物体) 上 60-80% 的成功率

策略证明是非常鲁棒的。因为它们是在模拟中通过域随机化 (变化的物理和力) 训练的,真实机器人可以承受剧烈的扰动。如 Figure 6 所示,即使人类主动推动、拉动或敲击物体,机器人也能保持抓取。

图: 鲁棒性演示。四个面板显示人类敲击、拉动、推动和拖动物体,而机器人保持稳定的抓取。

结论与启示

论文 “Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids” 为机器人学习的未来提供了一份蓝图。它摆脱了我们需要海量昂贵的现实世界数据集来教机器人灵巧性的观念。

相反,它主张更聪明地使用模拟。通过:

  1. 弥合物理差距 (自动调优) ,
  2. 结构化学习问题 (奖励与蒸馏) ,以及
  3. 简化感知 (混合表示 + SAM2) ,

……我们可以几乎完全在虚拟环境中训练出有能力的、通用的机器人。

这个“配方”使得高端操作即使在低成本的人形硬件上也触手可及,为机器人能够真正协助处理混乱、非结构化的人类环境铺平了道路。机器人需要完美条件才能拿起箱子的日子已经屈指可数;鲁棒、自适应操作的时代才刚刚开始。