想象一个平放在桌上的薄型电脑键盘。你想把它拿起来。如果你只是尝试从上方直接抓取,你的手指很可能会在抓稳之前就撞到桌子。桌子“遮挡” (block) 了抓取位置。那么,你会本能地怎么做?你可能会用非惯用手将键盘倾斜或顶住,同时用惯用手稳稳地抓住它。

这种双手 (双臂) 协调对人类来说是第二天性,但对机器人来说却是一个巨大的挑战。标准的机器人抓取通常涉及单臂规划通往物体的路径。当环境本身——比如桌子——阻碍了夹爪时,机器人就会失败。

在这篇深度文章中,我们将探讨来自牛津大学的一篇新颖的研究论文 COMBO-Grasp 。 研究人员提出了一个模仿人类双手直觉的系统: 一只手臂充当“约束” (Constraint) 来稳定或倾斜物体,而另一只手臂执行抓取。通过结合自监督学习强化学习 (RL)扩散模型的巧妙应用,COMBO-Grasp 使机器人能够抓取那些“无法抓取”的物体。

COMBO-Grasp 概览: (1) 右臂移动到支撑姿态,(2) 左臂将物体推向约束并抓取,(3) 右臂撤退,(4) 左臂举起物体。

如上图所示,该系统编排了一场复杂的舞蹈: 右臂设置一个“掩护” (就像篮球比赛中一样) ,左臂将物体推向它以创造一个可抓取的间隙。

挑战: 为什么“受遮挡抓取”如此困难?

在机器人技术中,“受遮挡抓取” (Occluded Grasping) 是指存在有效的抓取姿态,但由于与环境碰撞,该姿态在运动学上不可行的情况。

传统的解决方案分为两类,但都有明显的缺点:

  1. 开环规划 (Open-Loop Planning) : 机器人计算一条路径并盲目跟随。这种方法在这里行不通,因为机器人需要与物体互动 (推、倾斜) 来创造抓取姿态。你无法为一个尚不存在的姿态规划抓取。
  2. 强化学习 (RL) : 你可以训练一个 RL 智能体来解决这个问题。然而,双手操作使动作空间加倍 (两只手臂同时移动) 。解决方案的“搜索空间”变得呈指数级增大,使得标准 RL 的样本效率极低且难以收敛。

COMBO-Grasp (Constraint-based Manipulation for Bimanual Occluded Grasping,用于双手受遮挡抓取的基于约束的操作) 通过分解问题来解决这一难题。它不再要求一个巨大的大脑从零开始控制双臂,而是将问题解耦为两个协调的策略:

  1. 约束策略 (Constraint Policy) : 控制非惯用臂以创建一个稳定器。
  2. 抓取策略 (Grasping Policy) : 控制惯用臂对着该稳定器操作物体。

COMBO-Grasp 架构

这篇论文的核心理念是,当你有一个好伙伴时,学习会变得更容易。在这里,“伙伴”就是约束策略。该方法分为三个不同的阶段,从模拟环境走向现实世界。

方法概览: (1) 自监督约束训练,(2) 带有细化的 RL 抓取训练,(3) 教师-学生蒸馏。

第一阶段: 约束策略 (自监督学习)

在机器人尝试抓取任何东西之前,它首先需要学会如何成为一个好的支持系统。作者需要一种方法来训练右臂找到好的“稳定姿态”,而无需数千小时的人类演示。

他们的解决方案? 基于物理的自监督。

在模拟中,他们选取一个物体和一个目标抓取姿态。然后,他们将右臂 (约束臂) 随机放置在物体附近,并对物体施加力——模拟左臂推动物体的动作。如果物体没有显著移动,则说明右臂已成功“约束”了它。这个概念被称为力封闭 (Force Closure)

利用这种技术,作者生成了一个包含 48 个不同物体的 144,000 个成功约束姿态的合成数据集。然后,他们训练了一个扩散模型——具体来说是一个去噪扩散概率模型 (DDPM) ——来预测这些姿态。

扩散过程通过迭代地将噪声输入细化为有效的约束姿态。训练目标是最小化添加的噪声与网络预测的噪声之间的误差:

约束策略损失方程

其中 \(\epsilon_\theta\) 是预测噪声的神经网络。姿态的实际生成是通过迭代去噪过程完成的:

扩散步骤方程

在这里,模型从高斯噪声开始,向后执行 \(k\) 步,以为右臂揭示一个清晰、稳定的姿态。

第二阶段: 抓取策略 (强化学习)

一旦右臂知道如何站位并提供帮助,左臂就需要学习如何利用它。作者使用强化学习 (具体为 PPO) 训练了一个“教师”抓取策略。

该策略可以访问“特权信息”——真实机器人无法知道的精确物体位置、速度和物理参数。这使得训练更快。

奖励函数在这里至关重要。仅仅在物体被提起时说“干得好”是不够的。奖励是几个因素的加权和:

奖励函数方程

让我们分解这些项:

  • \(r_{dist\_pos}\) & \(r_{dist\_ori}\): 奖励手部在位置和方向上接近目标抓取姿态。
  • \(r_{collision}\): 对撞击桌子或其他手臂 (自碰撞) 进行重罚。
  • \(r_{action}\): 惩罚剧烈、大幅度的动作,以保持运动平滑。
  • \(r_{lift}\): 明确奖励垂直向上移动物体。
  • \(r_{success}\): 成功完成抓取的巨额奖金。

创新点: 价值函数引导的协调

这就是论文的“灵光一现”时刻。

如果你只是分别训练约束策略 (第一阶段) 和抓取策略 (第二阶段) ,它们可能无法很好地配合。约束策略是基于随机推动训练的,而不是基于抓取策略学到的特定策略。

为了解决这个问题,作者引入了价值函数引导的策略协调 (Value Function-Guided Policy Coordination)

在抓取臂的 RL 训练期间,系统学习一个价值函数 (\(V\))——一个估计当前状态有多“好” (即获得奖励的可能性有多大) 的评价器 (Critic) 。作者利用这个价值函数的梯度来更新约束策略的输出。

可以这样理解: 抓取策略 (左臂) 正在尝试工作,而价值函数 (评价器) 对约束策略 (右臂) 大喊: “嘿,如果你向左移动两英寸,我预估的成功率会上升!

在数学上,他们修改了扩散采样步骤。他们添加了一个项,将生成方向朝着价值函数梯度 (\(\nabla V\)) 的方向移动:

价值函数引导方程

这个 \(w\nabla V(\mathbf{x})\) 项将约束姿态引导向抓取策略认为最有用的配置。这模仿了图像生成模型中常用的“分类器引导” (Classifier Guidance) 技术,但在这里被应用于机器人控制。

第三阶段: 教师-学生蒸馏

我们现在有了一个聪明的教师策略,但它依赖于现实世界中不存在的“特权信息” (完美的物理和状态知识) 。为了跨越“模拟到现实” (Sim-to-Real) 的鸿沟,作者使用了策略蒸馏 (Policy Distillation)

他们训练“学生”策略,使其只能看到机器人实际能看到的东西: 来自深度相机的 3D 点云

学生策略架构: DP3 编码器处理点云并输入到扩散策略中

如上图所示,学生架构使用 DP3 编码器处理充满噪声的、局部的点云数据,并尝试模仿专家教师的动作。这使得系统可以部署在仅通过摄像头观察物体的物理硬件上。

实验与结果

作者在模拟环境 (Isaac Sim) 和现实世界中评估了 COMBO-Grasp,并将其与标准的 PPO 基线及其自身方法的变体进行了比较。

1. “约束”方法真的有帮助吗?

在模拟中,他们将 COMBO-Grasp 与控制双臂的标准 RL 策略 (PPO) 以及一个对使用第二只手臂给予简单奖励的 RL 策略进行了比较。

训练曲线: COMBO-Grasp (红色) 比基线更快达到更高的成功率。

结果非常明显。标准 PPO (灰色) 难以学会所需的协调。COMBO-Grasp 方法 (红色) 的学习速度明显更快 (样本效率高) ,并且达到了高得多的成功率 (超过 80%) 。“约束”方法作为一种强大的归纳偏置 (Inductive Bias) ,简化了问题,使 RL 智能体足以解决它。

2. 它能泛化到新物体吗?

一个只能抓取训练过的物体的机器人用处不大。作者在“未见过” (Unseen) 的物体上测试了学生策略——即机器人在训练期间从未遇到过的形状。

条形图: 可见物体与未见物体的成功率。COMBO-Grasp 保持了高性能。

虽然未见过物体的性能略有下降 (符合预期) ,但 COMBO-Grasp 仍然明显优于基线。PPO 基线在未见过物体上几乎崩溃,这表明它“过拟合”了训练集的物理特性,而不是学会了通用的技能。

3. 价值函数引导重要吗?

涉及价值函数梯度的复杂数学运算是否有必要?作者进行了一项消融研究,将引导参数 (\(w\) 或 \(\gamma\)) 从 0 (无引导) 扩展到 1.0。

消融研究: 性能随引导比例提高而提升。

蓝线 (Gamma = 0) 代表没有协调细化的系统。它的学习速度较慢且峰值较低。添加引导 (橙色/绿色/棕色线) 持续提高了性能,证明根据抓取者的需求微调约束姿态至关重要。

4. 现实世界表现

最后是终极测试: 现实世界。设置包括两个 Kinova Gen3 手臂和一个 RealSense 相机。

现实世界设置: 双臂、相机和夹爪。

他们在各种困难物品上测试了机器人,包括沉重的盒子、薄键盘和圆形容器。

现实世界物体: 各种形状和大小。

现实世界的结果令人印象深刻。该系统在所有物体上实现了 68.3% 的平均成功率。

现实世界结果表

现实世界数据的值得注意的观察结果:

  • 键盘很难抓: 如果没有“抓取姿态”输入 (确切知道抓哪里) ,键盘上的成功率只有 40%。有了目标姿态,成功率跃升至 80%。这很可能是因为如果第一次推动薄物体失败,在不知道确切目标位置的情况下很难补救。
  • 圆形物体很棘手: 系统在“大号圆形轻质”物体上表现挣扎 (30% 成功率) 。球形或圆柱形物体倾向于滚离约束臂,使得稳定变得困难。

结论

COMBO-Grasp 代表了双手机器人操作迈出的重要一步。通过将第二只手臂不仅仅视为另一个执行器,而是视为一堵动态的“墙”或约束,作者将复杂的协调问题转化为可管理的问题。

对于学生和研究人员来说,三个关键要点是:

  1. 归纳偏置有帮助: 构建学习问题 (一只手臂约束,一只手臂抓取) 通常比将海量神经网络扔给原始数据更有效。
  2. 模拟很强大: 模拟中的自监督数据收集 (检查力封闭) 提供了在现实中无法收集的海量数据集。
  3. 跨策略通信: 价值函数引导的使用允许两个独立的策略通过梯度相互“交谈”,在不需要作为单一整体块进行训练的情况下对齐目标。

尽管挑战依然存在——特别是在处理圆形物体或从失败的推动中恢复方面——但 COMBO-Grasp 证明,在机器人操作方面,双手确实胜过单手。