想象一下你试图拿起一块湿滑的肥皂。当你的手指向内合拢时,肥皂轻微滑动了一下。瞬间,无需注视或有意识地思考,你的手指就会调整压力和位置来固定抓握。这种微调是人类灵巧性的标志。
现在,想象一个机器人试图做同样的事情。大多数机器人系统会基于静态快照规划抓取动作,闭上“眼睛” (传感器) ,然后盲目地执行动作。如果物体移动了,或者机器人撞到了什么东西,抓取就会失败。
在机器人中实现人类水平的灵巧性——特别是使用多指机械手——是机器人领域的重大挑战之一。它不仅需要规划手指的位置,还需要实时自适应地对物理干扰做出反应。
在这篇文章中,我们将深入探讨论文**“Robust Dexterous Grasping of General Objects” (通用物体的鲁棒灵巧抓取)** , 它提出了一个用于“零样本”动态抓取的新颖框架。该方法允许机器人仅使用单一相机视角就能抓取数千种未见过的物体,并在面临意外碰撞或外力时保持牢固的抓握。

如图 1 所示,该系统可以处理从橡皮鸭到电锯等各种物体,适应碰撞 (场景 ①) 并抵抗外力 (场景 ③) 。让我们探索研究人员是如何实现这种鲁棒性的。
问题所在: 为什么灵巧抓取如此困难?
在剖析解决方案之前,我们必须了解当前机器人技术中的痛点。
- 高维性 : 与简单的平行爪夹持器 (像钳子一样工作) 不同,灵巧手 (如本文使用的 Allegro 灵巧手) 拥有 16 个自由度。同时控制 16 个关节来协调抓取动作,计算量巨大。
- 遮挡 : 当机器人手伸向物体时,手本身会遮挡相机的视线。在最关键的时刻——接触瞬间,机器人基本上对物体的确切位置是“失明”的。
- 缺乏触觉反馈 : 虽然人类严重依赖触觉,但高保真触觉传感器既昂贵又易碎。大多数可扩展的机器人解决方案需要仅依靠视觉和关节位置 (本体感觉) 来工作。
- 静态与动态 : 传统方法会扫描物体,计算完美的抓取姿态,并试图将手移动到那里。这是“开环”执行。它无法处理物体滑动或桌子碰撞手臂的情况。
研究人员认为,要解决这些问题,我们需要一个动态 (实时反应) 且鲁棒 (处理噪声和不确定性) 的系统,并且其训练不需要昂贵的人类演示。
框架: 教师-学生学习
这篇论文的核心理念是教师-学生 (Teacher-Student) 训练范式。这是强化学习 (RL) 中的一种常用技术,我们首先在一个拥有完美数据的模拟环境中训练一个“全知”智能体 (教师) ,然后用它来教导一个在现实世界约束下操作的“现实”智能体 (学生) 。

如图 2 所示,该流程包含两个截然不同的阶段:
- 视觉-触觉教师策略 : 通过强化学习 (RL) 训练。它能“作弊”。它能实时看到完整的物体 3D 点云 (甚至透过手看到) ,并且知道确切的接触力。
- 学生策略 : 这是在真实机器人上运行的策略。它只能看到单一的相机视角 (带有遮挡) ,并且没有触觉传感器——只有“嘈杂”的本体感觉 (对自己关节角度的认知) 。
目标是将教师的“肌肉记忆”转移给学生,让学生能够推测缺失的信息并鲁棒地行动。
核心方法: 奇迹如何发生
该框架的成功依赖于三大技术支柱: 独特的形状表示、特定的观察策略以及混合课程学习方法。
1. 以手为中心的物体形状表示
在典型的机器人学习中,机器人关注物体的全局形状 (例如,“这是一个杯子”) 。然而,对于抓取来说,全局形状不如手指将要接触的局部几何形状重要。
作者提出了一种稀疏的以手为中心的物体表示 。 系统不再处理沉重的 3D 网格,而是计算一组向量。

如图 3 所示,系统计算 51 个向量。每个向量代表从机器人手上的特定关节到物体表面最近点的距离。
为什么这很高明?
- 效率 : 它将复杂的 3D 数据压缩成一个小向量,神经网络处理起来非常快。
- 泛化性 : 它专注于交互。无论物体是杯子还是玩具车,“到表面的距离”这一指标对手指来说意义是相同的。这有助于机器人抓取它从未见过的物体。
- 鲁棒性 : 通过忽略远离手的物体几何形状 (这不影响抓取) ,系统较少受到视觉噪声的干扰。
2. 应对“失明”: 估计接触
学生策略缺乏触觉传感器。为了弥补这一点,研究人员实施了一个接触估计器。
机器人知道它施加在电机上的扭矩 (力) 。它也知道关节实际移动了多少。如果机器人施加扭矩来闭合手指,但手指没有移动,它就可以推断出它撞到了东西。
学生策略使用长短期记忆 (LSTM) 网络——一种具有记忆功能的神经网络——来分析关节运动和扭矩的历史。它有效地“想象”接触发生的位置,重建教师曾拥有的触觉数据。
3. 混合课程学习
这可以说是论文最关键的贡献。你如何训练学生?
如果你使用纯粹的模仿学习 (IL) (告诉学生“完全照教师做的做”) ,学生会变得脆弱。如果它犯了一个小错误,进入了教师从未遇到过的状态,它就会惊慌失措并失败。
如果你使用纯粹的强化学习 (RL) (告诉学生“通过试错来弄清楚”) ,由于传感器受限,任务太难,训练将耗费极长时间。
作者提出了混合课程学习 。
- 从模仿开始 : 在训练初期,学生如果偏离教师的动作会受到重罚。这能快速引导策略,教会它接近物体的基本方法。
- 过渡到探索 : 随着训练的进行,系统逐渐降低模仿的权重,并增加 RL 奖励 (成功/失败) 的权重。
- 引入噪声 : 至关重要的是,在学生训练期间,模拟环境引入了“噪声”——随机摩擦、抖动的传感器读数和不完美的电机响应。
因为学生现在因成功而获得奖励 (RL) ,而不仅仅是因复制而获得奖励 (IL) ,它学会了适应这种噪声。它学会了如果手指打滑 (由于噪声) ,它必须用力挤压或重新定位。教师从未学过这一点,因为教师生活在一个完美、无噪声的模拟环境中。
实验设置
研究人员在大规模范围内验证了他们的方法。
- 仿真 : 使用 Raisim,他们在 Objaverse 数据集的 247,786 个独特物体上进行了测试。
- 现实世界 : 他们使用了带有 Allegro 灵巧手和 RealSense 相机的 UR5 机械臂。
- 物体 : 他们收集了 512 个现实世界的物体,从重型工具到可变形的毛绒玩具。

图 4 详细展示了物理设置。注意那个单一的顶视相机。与使用多相机阵列的实验室相比,这是一个非常“稀疏”的传感器设置,使得该方法在现实世界部署中非常实用。
结果与分析
结果在统计学上令人印象深刻,表明该方法在从未见过的物体上 (零样本泛化) 具有极佳的泛化能力。
1. 大规模成功

在仿真中 (表 2) ,该系统在近 25 万个物体上实现了 97.0% 的成功率 。 它在小型、中型和大型物体上的表现始终如一。

在现实世界中 (表 3) ,成功率保持在惊人的 94.6% 。 看看上表中的类别。机器人成功抓取了:
- 可变形物体 (海绵、布料) – 95.7% 成功率。
- 重型工具 – 89.3% 成功率。
- 微小物品 (积木) – 96.3% 成功率。
这种多样性在下方的图 5 中可视化呈现。在刚性模拟物体上训练的策略能够作用于可变形的现实世界物体,这一事实证实了“闭环”控制正在发挥作用——手指感受到海绵的弹性并持续挤压,直到抓握稳固。

2. 与最先进技术的比较
作者将他们的工作与几个领先的基线进行了比较,包括 DexGraspNet (一种最先进的姿态生成方法) 。

如表 4 所示,提出的方法 (Ours) 在特定测试集上达到了 92.0% 的成功率,而 DexGraspNet 仅达到 60.7% 。
为什么差距如此巨大? DexGraspNet 生成静态姿态。它计算手指应该去哪里并将其发送过去。如果物体稍微未对准或太滑,手指可能会将物体撞倒。然而,提出的方法每秒调整 5 次 (5Hz 策略频率,100Hz 控制频率) 。如果它感觉到碰撞,它会做出反应。
3. 对外力的鲁棒性
这是动态抓取的终极测试。研究人员在机器人抓着物体时对其进行戳刺,或者在接近过程中施加力。

表 5 显示,即使施加了 2.5N 的外力 (对于这些小物体来说是很显著的) ,成功率仅略微下降至 84.0% , 而基线则暴跌至 48.0% 。 这证明了机器人正在主动对抗干扰以保持物体稳定。
为什么有效: 消融研究
为了证明他们的特定设计选择 (如混合课程) 是必要的,作者进行了消融研究 (移除系统的部分组件看哪里会出问题) 。

表 6 揭示了关键见解:
- 无 RL 奖励 (W.o. RL rewards) : 如果你移除 RL 阶段仅做模仿学习,成功率下降到 90.7% (仿真) 。学生只是模仿教师,但学不会自我纠正。
- 无课程 (W.o. Curriculum) : 如果不从模仿逐渐过渡到 RL,训练会变得不稳定。
- 无特权学习 (W.o. Privileged Learning) : 如果试图在没有教师的情况下从头开始学习,成功率会大幅下降至 77.3%。任务太难,无法在没有导师的情况下学习。
结论
论文 “Robust Dexterous Grasping of General Objects” 代表了机器人操作领域迈出的重要一步。通过摆脱静态规划并拥抱动态闭环控制 , 研究人员创建了一个能够处理现实世界混乱情况的系统。
给学生的关键要点:
- 表示很重要 : 将世界简化为以手为中心的向量 (图 3) 往往比试图处理高保真 3D 扫描更好。
- 特权教师 : 你可以利用“作弊”的 AI (拥有完美数据的教师) 来训练“现实”的 AI (数据受限的学生) 。
- 课程是关键 : 不要直接把机器人扔进深水区。先让它模仿专家,然后让它通过实验来学习鲁棒性。
虽然仍存在局限性——巨大的 Allegro 灵巧手难以抓取小于 1.5 厘米的微小物体,且抓取飞行物体仍然遥不可及——但这套框架为机器人能够像我们一样自然地处理咖啡杯和遥控器并在家庭中运作奠定了基础。
](https://deep-paper.org/en/paper/96_robust_dexterous_grasping_o-2562/images/cover.png)