引言

想象一下,把手伸进一个乱糟糟的“杂物抽屉”,要在纠缠的数据线、零钱和旧收据下面找到一节特定的电池。作为人类,你可以毫不费力地做到这一点。你不仅仅是去抓取;你会把障碍物拨开,把手指滑进缝隙,然后小心翼翼地取出目标,而不破坏任何东西。

然而,对于机器人来说,这简直是噩梦。

虽然机器人抓取技术近年来取得了巨大进步,但大多数成功的案例都是使用简单的两指夹持器在干净的桌面上抓取孤立的物体。灵巧抓取——使用模仿人类生理结构的多指机械手——提供了真实世界所需的多功能性,但也带来了极大的复杂性。当在这个组合中加入混乱的环境 (物体阻挡目标,碰撞风险无处不在) 时,难度更是呈指数级上升。

通常,训练机器人处理这种混乱需要昂贵的人工演示或严格的编码。但是,如果机器人完全可以在仿真环境中学习这些技能,然后直接应用到现实世界中,而且以前从未见过这些场景,那会怎样呢?

这就是 ClutterDexGrasp 的承诺,这是一篇新的研究论文,介绍了一个用于在混乱场景中进行闭环、目标导向灵巧抓取的鲁棒系统。通过使用巧妙的教师-学生训练框架,研究人员开发了一个实现 零样本仿真到现实 (Zero-shot Sim-to-Real) 迁移 的系统。这意味着机器人可以在虚拟世界中学习,并立即在现实世界中工作,以类人的触觉处理密集的杂物和遮挡。

图 1: ClutterDexGrasp 实现了混乱场景中闭环目标导向灵巧抓取的零样本仿真到现实迁移,实现了跨越不同物体和混乱场景 (即使有严重物体遮挡) 的鲁棒泛化。

杂物的挑战

为什么在杂物中抓取如此困难?

  1. 遮挡 (Occlusion) : 机器人通常无法看到完整的目标物体,因为其他物品挡住了视线。
  2. 碰撞 (Collision) : 多指手有许多活动部件 (自由度,或 DoF) 。靠近目标意味着有撞到周围物体的风险,可能会撞倒它们或损坏机械手。
  3. 物理 (Physics) : 与一堆物体互动会产生复杂的物理动力学。推动一个物体可能会导致像雪崩一样的连锁反应,从而移动目标。

现有的解决方案通常分为两派。 开环方法 预先规划抓取姿态并盲目执行。如果场景发生变化 (例如,物体滑落) ,抓取就会失败。 闭环方法 (如强化学习或模仿学习) 可以实时反应。然而,训练它们需要海量数据。在现实世界中收集这些数据既缓慢又昂贵,而在仿真中训练则因为“Sim-to-Real 差距”——完美的物理引擎与混乱的现实世界之间的差异——而变得困难。

解决方案: 教师-学生框架

ClutterDexGrasp 的核心创新是一个两阶段的 教师-学生 (Teacher-Student) 框架

逻辑很简单:

  1. 教师 (仅仿真) : 一个拥有“上帝视角”信息的“特权”智能体——它能获取精确的物体位置、重量和完美的物理信息。它使用强化学习 (RL) 来学习 如何 有效地抓取。
  2. 学生 (面向现实世界) : 一个“基于传感器”的智能体,它只能看到机器人实际能看到的东西 (来自相机的点云) 。它通过观察教师并模仿其行为来学习。

这种分离使得研究人员可以先解决困难的物理和策略问题 (教师) ,然后再解决感知问题 (学生) 。

图 2: 训练框架

如上图所示,该过程从重仿真的 RL 训练 (左) 转移到模仿学习蒸馏 (中) ,最后将学生策略部署到真实机器人上 (右) 。

第一步: 训练教师策略

教师策略是使用强化学习 (RL) 训练的。在 RL 中,智能体探索环境,并根据好的行为获得奖励,根据坏的行为获得惩罚。目标是最大化累积奖励。

教师 (\(\pi^{E}\)) 的目标函数是寻找最大化期望回报的策略,如下面的第一个方程所示:

教师和学生优化目标的方程

然而,在杂物中训练灵巧手对计算资源的要求很高。依赖视觉输入 (如每一步都渲染图像) 的标准 RL 方法太慢了。为了解决这个问题,作者引入了一种新颖的 几何与空间 (Geometry and Spatial, GS) 表征

几何与空间表征

系统不为教师渲染场景图像,而是计算精确的几何数据。它计算从机器人的手指连杆到以下物体的 3D 距离向量:

  • 目标物体 (正向交互)
  • 周围杂物 (负向交互)

这使得教师能够直接“感觉”场景的几何结构。它确切地知道小指离碰撞有多远,拇指离目标有多近。

图 9: 几何与空间表征的可视化。对于每个手指关节,计算并可视化到从目标物体网格采样的最近表面点 (绿色) 和从周围非目标物体网格采样的点 (红色) 的距离。

这种表征被直接嵌入到奖励函数中。机器人通过最小化与目标的距离 (\(r_{pos}\)) 获得分数,并因过于接近非目标物体而失去分数 (或获得惩罚因子,\(r_{neg}\)) 。

核心奖励函数如下所示:

方程: 奖励函数

这里,\(r_{grasp}\) 是成功奖励 (提起物体) ,\(r_{pos}\) 鼓励接近目标,\(r_{neg}\) 作为一个惩罚项,用于惩罚与杂物的危险碰撞。这些基于距离的奖励的明确定义为:

方程: 正向距离奖励 方程: 负向距离奖励

通过使用这些距离的数学表征而不是像素,RL 训练变得更加高效和稳定。

课程学习: 先学走,再学跑

如果你把一只机器人手扔进一堆 20 个物体的杂物堆里并告诉它“抓取”,它会手忙脚乱并失败。学习曲线太陡峭了。作者通过 杂物密度课程 (Clutter-Density Curriculum) 解决了这个问题。

  1. 第一阶段 (一般抓取) : 智能体首先学习在空桌子上抓取单个物体。
  2. 第二阶段 (策略抓取) : 一旦掌握了基础知识,就引入杂物。智能体学习绕过障碍物。

下图 8 展示了为什么这是必要的。黄线显示了直接在杂物中训练的策略——它从未学会 (0% 成功率) 。红线显示了基于课程的教师,它实现了高成功率。

图 8: 杂物场景策略的学习曲线 (1) 教师策略 (无安全机制) : 使用阶段 1 的通用单物体抓取策略初始化,(2) 无课程学习: 在完整的两个阶段时长内直接在杂物场景中从头训练。

安全课程

一个能成功抓取但在此过程中打碎所有东西的机器人是无用的。为了确保机器人动作轻柔——这是现实世界的要求——作者实施了一个 安全课程 (Safety Curriculum)

他们在奖励函数中引入了一个力惩罚项,\(r_{force}\)。

方程: 安全奖励函数

如果指尖上的接触力超过某个阈值 (\(f\)) ,就会触发惩罚。

方程: 力惩罚条件

在训练期间,随着机器人成功率的提高,系统会逐渐收紧这个阈值,迫使机器人学习越来越轻柔的策略以保持高分。这导致策略不仅是抓取,而是细腻地交互。

第二步: 蒸馏给学生

教师策略虽然很棒,但它作弊了。它使用了真正的机器人无法拥有的“特权信息” (精确距离) 。为了解决这个问题,研究人员使用模仿学习 (IL) 训练了一个 学生策略

学生观察教师的成功演示,并学习仅使用 局部点云 (Partial Point Clouds) ——从模拟的深度相机生成的 3D 数据——来预测相同的动作。这模拟了真实机器人实际看到的情况。

学生使用了一种最先进的算法,称为 3D 扩散策略 (DP3) 。 扩散策略非常擅长对复杂的多模态分布进行建模,这有助于机器人处理杂乱场景的模糊性。

跨越 Sim-to-Real 差距

为了确保学生在现实中工作,团队使用了独特的技术:

  • 点云对齐: 他们用合成的机器人点数据增强了观察结果,以匹配真实的相机设置。
  • 系统辨识: 他们调整了仿真的物理参数 (摩擦力、阻尼) ,以尽可能匹配真实硬件。

图 10: 仿真 (左) 与现实世界 (右) 之间的点云对比。

如图 10 所示,仿真中处理后的点云 (左) 被设计得与现实世界的数据 (右) 几乎相同,从而最大限度地减少了将“大脑”转移到物理“身体”时的冲击。

实验与结果

研究人员在仿真和现实世界中对 ClutterDexGrasp 进行了严格的测试。

仿真性能

在仿真中,他们测试了机器人对“未见过”的物体 (训练期间机器人从未见过的形状) 和“未见过”的布局 (新的随机堆叠) 的处理能力。

表 1: 随机物体抓取的仿真成功率

结果 (表 1) 令人印象深刻。教师在稀疏场景中实现了超过 90% 的成功率,即使在超密集杂物中也保持了高性能。至关重要的是,仅使用视觉数据的学生保留了大部分性能,仅下降了几个百分点。这证明了蒸馏过程是有效的。

定性分析: 像人一样行动

最迷人的结果之一是机器人发展出的 策略。它不仅学会了移动到坐标,还学会了行为方式。

图 3: 类人抓取策略的可视化: (a) 简单场景中的高效抓取。(b) 杂物场景中的杂物感知抓取。

在图 3(b) 中,你可以看到机器人执行“杂物感知抓取”。它不是直直地向下冲 (这会导致碰撞) ,而是从侧面接近,有效地将障碍物拨开以接触到目标的蓝色方块。这种行为不是硬编码的;它是从 RL 训练和几何感知奖励中自然涌现的。

相反,看看当你移除系统的创新组件时会发生什么:

图 7: 杂物场景策略对比

在图 7 中,第一行 (我们的方法) 成功了。行 (b) 显示了没有几何/空间表征训练的策略——它笨拙地掉落了物体。行 (c) 显示了没有“负向”表征 (忽略杂物惩罚) 的策略,导致了不安全的碰撞。

现实世界零样本迁移

终极测试是物理世界。研究人员搭建了一个 RealMan 机械臂,配备 AgiBot 灵巧手和相机。他们将从玩具到工具等各种随机物体扔到桌子上。

图 11: 现实世界设置

该系统在现实世界中对未见过的布局实现了 83.9% 的成功率 。 对于零样本迁移方法 (意味着没有使用现实世界的训练数据) 来说,这是一个了不起的数字。

图 5: 现实世界实验成功曲线

图 5 显示了随时间变化的累积成功率。大多数成功的抓取发生在 20 到 40 秒内。机器人是审慎、小心且有效的。

该系统还在不同密度的杂物中进行了测试,从稀疏到超密集 (见下图 4) ,并处理了钳子、球和塑料块等各种物体。

图 4: 现实世界物体和杂乱场景示例

结论

ClutterDexGrasp 代表了机器人操作领域向前迈出的重要一步。通过创造性地结合强化学习、专门的课程学习和教师-学生蒸馏过程,作者成功地弥合了一项非常困难任务的仿真与现实之间的差距。

核心要点:

  1. 表征很重要: 赋予 RL 教师几何感知 (距离) 而不是仅仅是视觉数据,使得学习变得高效且具有碰撞感知能力。
  2. 课程是关键: 你不能在第一天就教机器人处理混乱。从简单开始,逐渐增加杂物和安全约束是必不可少的。
  3. 零样本是可能的: 有了正确的训练流程,机器人可以在仿真中学习复杂的、接触丰富的任务,并在现实世界中执行它们,而不需要昂贵的人工演示。

这项工作为机器人真正能够在非结构化的人类环境中提供帮助铺平了道路——无论是整理回收箱、整理乱糟糟的桌子,还是在你的杂物抽屉里找到那节丢失的电池。