双手胜过单手：利用 COMBO-Grasp 攻克受遮挡抓取难题

想象一个平放在桌上的薄型电脑键盘。你想把它拿起来。如果你只是尝试从上方直接抓取，你的手指很可能会在抓稳之前就撞到桌子。桌子“遮挡” (block) 了抓取位置。那么，你会本能地怎么做？你可能会用非惯用手将键盘倾斜或顶住，同时用惯用手稳稳地抓住它。

这种双手 (双臂) 协调对人类来说是第二天性，但对机器人来说却是一个巨大的挑战。标准的机器人抓取通常涉及单臂规划通往物体的路径。当环境本身——比如桌子——阻碍了夹爪时，机器人就会失败。

在这篇深度文章中，我们将探讨来自牛津大学的一篇新颖的研究论文 COMBO-Grasp 。研究人员提出了一个模仿人类双手直觉的系统: 一只手臂充当“约束” (Constraint) 来稳定或倾斜物体，而另一只手臂执行抓取。通过结合自监督学习、强化学习 (RL) 和扩散模型的巧妙应用，COMBO-Grasp 使机器人能够抓取那些“无法抓取”的物体。

COMBO-Grasp 概览: (1) 右臂移动到支撑姿态，(2) 左臂将物体推向约束并抓取，(3) 右臂撤退，(4) 左臂举起物体。

如上图所示，该系统编排了一场复杂的舞蹈: 右臂设置一个“掩护” (就像篮球比赛中一样) ，左臂将物体推向它以创造一个可抓取的间隙。

挑战: 为什么“受遮挡抓取”如此困难？

在机器人技术中，“受遮挡抓取” (Occluded Grasping) 是指存在有效的抓取姿态，但由于与环境碰撞，该姿态在运动学上不可行的情况。

传统的解决方案分为两类，但都有明显的缺点:

开环规划 (Open-Loop Planning) : 机器人计算一条路径并盲目跟随。这种方法在这里行不通，因为机器人需要与物体互动 (推、倾斜) 来创造抓取姿态。你无法为一个尚不存在的姿态规划抓取。
强化学习 (RL) : 你可以训练一个 RL 智能体来解决这个问题。然而，双手操作使动作空间加倍 (两只手臂同时移动) 。解决方案的“搜索空间”变得呈指数级增大，使得标准 RL 的样本效率极低且难以收敛。

COMBO-Grasp (Constraint-based Manipulation for Bimanual Occluded Grasping，用于双手受遮挡抓取的基于约束的操作) 通过分解问题来解决这一难题。它不再要求一个巨大的大脑从零开始控制双臂，而是将问题解耦为两个协调的策略:

约束策略 (Constraint Policy) : 控制非惯用臂以创建一个稳定器。
抓取策略 (Grasping Policy) : 控制惯用臂对着该稳定器操作物体。

COMBO-Grasp 架构

这篇论文的核心理念是，当你有一个好伙伴时，学习会变得更容易。在这里，“伙伴”就是约束策略。该方法分为三个不同的阶段，从模拟环境走向现实世界。

方法概览: (1) 自监督约束训练，(2) 带有细化的 RL 抓取训练，(3) 教师-学生蒸馏。

第一阶段: 约束策略 (自监督学习)

在机器人尝试抓取任何东西之前，它首先需要学会如何成为一个好的支持系统。作者需要一种方法来训练右臂找到好的“稳定姿态”，而无需数千小时的人类演示。

他们的解决方案? 基于物理的自监督。

在模拟中，他们选取一个物体和一个目标抓取姿态。然后，他们将右臂 (约束臂) 随机放置在物体附近，并对物体施加力——模拟左臂推动物体的动作。如果物体没有显著移动，则说明右臂已成功“约束”了它。这个概念被称为力封闭 (Force Closure) 。

利用这种技术，作者生成了一个包含 48 个不同物体的 144,000 个成功约束姿态的合成数据集。然后，他们训练了一个扩散模型——具体来说是一个去噪扩散概率模型 (DDPM) ——来预测这些姿态。

扩散过程通过迭代地将噪声输入细化为有效的约束姿态。训练目标是最小化添加的噪声与网络预测的噪声之间的误差:

约束策略损失方程

其中 \(\epsilon_\theta\) 是预测噪声的神经网络。姿态的实际生成是通过迭代去噪过程完成的:

扩散步骤方程

在这里，模型从高斯噪声开始，向后执行 \(k\) 步，以为右臂揭示一个清晰、稳定的姿态。

第二阶段: 抓取策略 (强化学习)

一旦右臂知道如何站位并提供帮助，左臂就需要学习如何利用它。作者使用强化学习 (具体为 PPO) 训练了一个“教师”抓取策略。

该策略可以访问“特权信息”——真实机器人无法知道的精确物体位置、速度和物理参数。这使得训练更快。

奖励函数在这里至关重要。仅仅在物体被提起时说“干得好”是不够的。奖励是几个因素的加权和:

奖励函数方程

让我们分解这些项:

\(r_{dist\_pos}\) & \(r_{dist\_ori}\): 奖励手部在位置和方向上接近目标抓取姿态。
\(r_{collision}\): 对撞击桌子或其他手臂 (自碰撞) 进行重罚。
\(r_{action}\): 惩罚剧烈、大幅度的动作，以保持运动平滑。
\(r_{lift}\): 明确奖励垂直向上移动物体。
\(r_{success}\): 成功完成抓取的巨额奖金。

创新点: 价值函数引导的协调

这就是论文的“灵光一现”时刻。

如果你只是分别训练约束策略 (第一阶段) 和抓取策略 (第二阶段) ，它们可能无法很好地配合。约束策略是基于随机推动训练的，而不是基于抓取策略学到的特定策略。

为了解决这个问题，作者引入了价值函数引导的策略协调 (Value Function-Guided Policy Coordination) 。

在抓取臂的 RL 训练期间，系统学习一个价值函数 (\(V\))——一个估计当前状态有多“好” (即获得奖励的可能性有多大) 的评价器 (Critic) 。作者利用这个价值函数的梯度来更新约束策略的输出。

可以这样理解: 抓取策略 (左臂) 正在尝试工作，而价值函数 (评价器) 对约束策略 (右臂) 大喊: “嘿，如果你向左移动两英寸，我预估的成功率会上升！”

在数学上，他们修改了扩散采样步骤。他们添加了一个项，将生成方向朝着价值函数梯度 (\(\nabla V\)) 的方向移动:

价值函数引导方程

这个 \(w\nabla V(\mathbf{x})\) 项将约束姿态引导向抓取策略认为最有用的配置。这模仿了图像生成模型中常用的“分类器引导” (Classifier Guidance) 技术，但在这里被应用于机器人控制。

第三阶段: 教师-学生蒸馏

我们现在有了一个聪明的教师策略，但它依赖于现实世界中不存在的“特权信息” (完美的物理和状态知识) 。为了跨越“模拟到现实” (Sim-to-Real) 的鸿沟，作者使用了策略蒸馏 (Policy Distillation) 。

他们训练“学生”策略，使其只能看到机器人实际能看到的东西: 来自深度相机的 3D 点云 。

学生策略架构: DP3 编码器处理点云并输入到扩散策略中

如上图所示，学生架构使用 DP3 编码器处理充满噪声的、局部的点云数据，并尝试模仿专家教师的动作。这使得系统可以部署在仅通过摄像头观察物体的物理硬件上。

实验与结果

作者在模拟环境 (Isaac Sim) 和现实世界中评估了 COMBO-Grasp，并将其与标准的 PPO 基线及其自身方法的变体进行了比较。

1. “约束”方法真的有帮助吗？

在模拟中，他们将 COMBO-Grasp 与控制双臂的标准 RL 策略 (PPO) 以及一个对使用第二只手臂给予简单奖励的 RL 策略进行了比较。

训练曲线: COMBO-Grasp (红色) 比基线更快达到更高的成功率。

结果非常明显。标准 PPO (灰色) 难以学会所需的协调。COMBO-Grasp 方法 (红色) 的学习速度明显更快 (样本效率高) ，并且达到了高得多的成功率 (超过 80%) 。“约束”方法作为一种强大的归纳偏置 (Inductive Bias) ，简化了问题，使 RL 智能体足以解决它。

2. 它能泛化到新物体吗？

一个只能抓取训练过的物体的机器人用处不大。作者在“未见过” (Unseen) 的物体上测试了学生策略——即机器人在训练期间从未遇到过的形状。

条形图: 可见物体与未见物体的成功率。COMBO-Grasp 保持了高性能。

虽然未见过物体的性能略有下降 (符合预期) ，但 COMBO-Grasp 仍然明显优于基线。PPO 基线在未见过物体上几乎崩溃，这表明它“过拟合”了训练集的物理特性，而不是学会了通用的技能。

3. 价值函数引导重要吗？

涉及价值函数梯度的复杂数学运算是否有必要？作者进行了一项消融研究，将引导参数 (\(w\) 或 \(\gamma\)) 从 0 (无引导) 扩展到 1.0。

消融研究: 性能随引导比例提高而提升。

蓝线 (Gamma = 0) 代表没有协调细化的系统。它的学习速度较慢且峰值较低。添加引导 (橙色/绿色/棕色线) 持续提高了性能，证明根据抓取者的需求微调约束姿态至关重要。

4. 现实世界表现

最后是终极测试: 现实世界。设置包括两个 Kinova Gen3 手臂和一个 RealSense 相机。

现实世界设置: 双臂、相机和夹爪。

他们在各种困难物品上测试了机器人，包括沉重的盒子、薄键盘和圆形容器。

现实世界物体: 各种形状和大小。

现实世界的结果令人印象深刻。该系统在所有物体上实现了 68.3% 的平均成功率。

现实世界结果表

现实世界数据的值得注意的观察结果:

键盘很难抓: 如果没有“抓取姿态”输入 (确切知道抓哪里) ，键盘上的成功率只有 40%。有了目标姿态，成功率跃升至 80%。这很可能是因为如果第一次推动薄物体失败，在不知道确切目标位置的情况下很难补救。
圆形物体很棘手: 系统在“大号圆形轻质”物体上表现挣扎 (30% 成功率) 。球形或圆柱形物体倾向于滚离约束臂，使得稳定变得困难。

结论

COMBO-Grasp 代表了双手机器人操作迈出的重要一步。通过将第二只手臂不仅仅视为另一个执行器，而是视为一堵动态的“墙”或约束，作者将复杂的协调问题转化为可管理的问题。

对于学生和研究人员来说，三个关键要点是:

归纳偏置有帮助: 构建学习问题 (一只手臂约束，一只手臂抓取) 通常比将海量神经网络扔给原始数据更有效。
模拟很强大: 模拟中的自监督数据收集 (检查力封闭) 提供了在现实中无法收集的海量数据集。
跨策略通信: 价值函数引导的使用允许两个独立的策略通过梯度相互“交谈”，在不需要作为单一整体块进行训练的情况下对齐目标。

尽管挑战依然存在——特别是在处理圆形物体或从失败的推动中恢复方面——但 COMBO-Grasp 证明，在机器人操作方面，双手确实胜过单手。

挑战: 为什么“受遮挡抓取”如此困难？#

COMBO-Grasp 架构#

第一阶段: 约束策略 (自监督学习)#

第二阶段: 抓取策略 (强化学习)#

创新点: 价值函数引导的协调#

第三阶段: 教师-学生蒸馏#

实验与结果#

1. “约束”方法真的有帮助吗？#

2. 它能泛化到新物体吗？#

3. 价值函数引导重要吗？#

4. 现实世界表现#

结论#