如果你曾观察过机器人尝试抓取形状不规则的物体——比如喷雾瓶或毛绒玩具——你可能会注意到它的迟疑。这与人类不同,人类会本能地调整手型以适应物体的几何形状,而机器人往往在“灵巧抓取”方面表现挣扎。

虽然简单的平行颚夹爪 (想象一下抓娃娃机) 对于盒子来说很可靠,但机器人领域的圣杯是一只能够抓取任何物体的多指灵巧手。

今天,我们将深入探讨 DexGrasp Anything , 这篇研究论文提出了该领域的一大飞跃。这项工作介绍了一种将 扩散模型 (Diffusion Models) 的生成能力与严格的 物理定律 相结合的方法,从而产生一个能为成千上万种未见过的物体生成稳定、类人抓取的系统。此外,研究人员还发布了一个庞大的数据集——DexGrasp Anything (DGA)——包含超过 340 万种抓取姿态,为真正的通用机器人操作铺平了道路。

我们提出了 DexGrasp Anything,在各项基准测试中均超越了以往的方法。

挑战: 为什么抓取如此困难?

要理解这篇论文的贡献,我们首先需要看看为什么灵巧抓取如此困难。

人手拥有超过 20 个自由度。当我们拿起咖啡杯时,我们不会有意识地计算每个关节的逆运动学;我们依靠的是直觉和肌肉记忆。然而,对于机器人来说,这是一个高维优化的噩梦。

传统方法依赖于 解析方法 (analytical approaches) , 通过计算力和摩擦锥来确保稳定性。这些方法很精确,但计算成本高昂且脆弱——当物体形状不完全已知时,它们往往会失效。

近年来, 数据驱动方法 占据了主导地位。通过在大型数据集上进行训练,机器人学习关于如何抓取物体的“先验 (priors) ”。 生成模型 , 特别是扩散模型,在这方面显示出了巨大的潜力。它们可以通过学习成功抓取的分布来生成多样化的抓取姿态。

然而,这里有一个陷阱。标准的扩散模型是“幻觉制造者”。它们生成的东西看起来是对的,但在物理上可能是不可能的。扩散模型可能会预测手指直接穿过固体物体 (穿透) ,或者手指相互交叉。

DexGrasp Anything 通过将物理约束——特别是防止穿透和确保接触——直接强制引入到训练和生成过程中,解决了这个问题。

解决方案: DexGrasp Anything

该方法的核心是一个 物理感知扩散生成器 (Physics-Aware Diffusion Generator) 。 它使用 U-Net 架构根据物体的 3D 点云生成手部姿态。但与标准扩散模型不同的是,它不仅仅从图像或数据点中学习;它还从物理学中学习。

架构概览

该系统分为两个明显的阶段: 训练采样 (推理)

DexGrasp Anything 架构概览。

如上图 2 所示,该过程始于物体输入。模型接收物体的 3D 点云。有趣的是,它还使用大型语言模型 (LLM) 来提取关于物体的语义信息 (例如,“这是一个瓶子,抓取瓶颈”) ,这些信息与空间数据相结合。

该模型是一个条件扩散模型。它试图学习条件分布 \(P(h|O)\),其中 \(h\) 是手部姿态,\(O\) 是物体观测。

条件分布方程。

创新之处在于它们如何使用三个特定的物理约束迫使模型尊重现实。

“核心秘诀”: 三个物理约束

为了阻止机器人产生不可能的抓取幻觉,作者引入了三个基于力的目标函数。这些目标在训练期间 (教模型物理规则) 和采样期间 (引导最终结果) 都会被应用。

1. 表面拉力 (Surface Pulling Force, SPF)

机器人抓取中最常见的失败之一是手悬停在物体附近而没有实际接触。这会导致抓取松动,从而掉落物品。

表面拉力 (SPF) 就像磁铁一样。如果机器人手指内表面的点在一定阈值范围内,它会将这些点拉向物体表面。

表面拉力方程。

在这个方程中,\(d_i\) 代表手指点与最近物体点之间的距离。通过最小化这种损失,模型学会了进行紧密接触。

2. 外部穿透排斥力 (External-Penetration Repulsion Force, ERF)

相反的问题是“穿模”,即生成的手部姿态与物体网格相交。在模拟中,这看起来像一只幽灵手;在现实世界中,这会砸坏物体或机器人的电机。

外部穿透排斥力 (ERF) 将手从物体中出来。它使用物体的符号距离场 (SDF) 。如果手部点位于物体内部,则符号距离为负,从而触发排斥力。

符号距离计算。

损失函数有效地惩罚了最大穿透深度:

外部穿透排斥力方程。

3. 自穿透排斥力 (Self-Penetration Repulsion Force, SRF)

最后,机器人手是一个机械组件。手指不能相互穿过。 自穿透排斥力 (SRF) 通过强制手部自身的关节和连杆之间保持最小距离,确保了手部结构的完整性。

自穿透排斥力方程。


物理感知训练

标准的扩散模型使用简单的均方误差 (MSE) 损失进行训练,比较预测噪声与添加到数据中的实际噪声:

简单 MSE 损失方程。

这种标准损失不懂物理——它只关心统计分布。作者通过引入 物理感知训练 (PADG) 目标对此进行了修改。

在扩散训练过程中 (添加噪声然后去除噪声的过程) ,模型从噪声输入 \(h_t\) 中预测一个“纯净”的手部姿态 \(\hat{h}_0\)。

纯净估计方程。

然后,作者将三个物理约束损失 (SPF, ERF, SRF) 应用于这个估计的纯净姿态。这允许物理违规产生的梯度来更新模型权重。总损失函数变为标准扩散损失和加权物理损失的组合:

物理感知训练目标。

这意味着,如果神经网络预测了一个穿透物体或自身的抓取,即使是在训练的噪声阶段,它也会受到明确的惩罚。

物理引导采样

训练一个聪明的模型只是成功的一半。当机器人实际运行 (推理时间) 时,它从纯噪声开始,迭代地将其精炼为抓取姿态。

作者实现了一个 物理引导采样器 (Physics-Guided Sampler) 。 在去噪过程的每一步,他们不仅仅让模型盲目地预测下一步。他们计算物理约束的梯度 (我们穿透了吗?我们接触了吗?) ,并使用该梯度来引导去噪过程。

物理引导采样更新规则。

这有效地在生成过程的每一毫秒将手部姿态推向物理上合理的配置。

数据引擎: 扩展至 340 万次抓取

生成模型的优劣取决于其训练数据。研究人员发现了该领域的一个主要瓶颈: 现有的数据集要么太小,要么缺乏物体多样性,要么依赖于限制姿态复杂性的“特征抓取 (eigengrasp) ”空间。

为了解决这个问题,他们创建了 DexGrasp Anything (DGA) 数据集

构建策略

  1. 策展: 他们聚合了来自模拟器 (IsaacGym) 、人类捕捉 (GRAB) 和现有优化数据集的各种数据。
  2. 模型在环生成: 他们使用自己的 DexGrasp Anything 模型为来自 Objaverse 数据集的数千个物体生成新的抓取。
  3. 严格过滤: 他们应用了严格的物理检查——物体在受力下移动不能超过 2cm,且穿透必须微乎其微。

数据集统计

结果是迄今为止最大的灵巧抓取数据集。

灵巧抓取数据集对比。

如表 1 所示,DGA 数据集包含 15,698 个物体 上的 340 万次抓取 。 这令以前的数据集 (如 DexGraspNet 或 MultiDex) 相形见绌。

这种多样性也通过 t-SNE (一种将高维数据映射到 2D 的方法) 进行了可视化。在下图中,你可以看到 DGA 数据集 (橙色菱形) 比以前的数据集覆盖了更广泛的特征空间区域,表明物体形状和类型的种类更加丰富。

物体特征的 t-SNE 可视化。

实验与结果

添加物理约束真的有效吗?作者将 DexGrasp Anything 与 UniDexGraspSceneDiffuserUGG 等最先进的方法进行了比较。

定量性能

使用的关键指标包括:

  • 成功率 (Suc.6): 抓取在 6 个不同方向上对抗重力保持物体稳定。
  • 穿透度 (Pen.): 手与物体相交的程度 (越低越好) 。
  • 多样性 (Div.): 生成的抓取彼此之间的差异程度。

性能对比表。

表 2 显示,DexGrasp Anything 实现了最高的成功率 (在 DexGraspNet 上严格的 Suc.6 超过 53%) ,同时保持了低穿透度。值得注意的是,“w/ LLM” (带有大型语言模型特征) 版本表现最好,证明理解物体是什么有助于机器人更好地抓取它。

定性可视化

数字固然重要,但在机器人技术中,眼见为实。视觉对比显示,基线方法通常导致手指漂浮在物体之外或穿过物体。

抓取结果的定性可视化。

在图 4 中,注意 Ours 列显示了手指紧密、逼真地包裹在杯子和瓶子周围,而 UniDexGraspSceneDiffuser 有时显示松散或物理上不可能的抓取。

消融实验: 我们需要所有的力吗?

为了证明每个组件都很重要,作者剥离了模型,然后逐一添加组件。

消融实验表。

  • 行 (a): 基线扩散。低成功率,高穿透度。
  • 行 (d): 添加所有物理约束 (SRF + ERF + SPF)。成功率显著跃升,穿透度下降。
  • 行 (e): 添加 LLM。在成功率和穿透度上进一步微调。

在视觉上,差异是显而易见的。下面的图 5 展示了抓取的演变过程。没有约束,手可能直接穿过瓶子。有了约束,它紧紧地包裹在底部。

消融实验的可视化。

跨数据集泛化

最令人印象深刻的结果之一是模型的泛化能力。当在庞大的 DGA 数据集上训练并在其他数据集 (如 RealDex) 上测试时,与在较小数据集上训练的模型相比,性能得到了全面提升。

跨数据集评估。

在图 8 中,我们看到在 DGA 数据集上训练的模型 (浅蓝色圆圈/条形) 始终比在单一数据集上训练的模型实现更高的多样性和成功率。

现实世界应用

最后,只有当模拟能转移到现实中时,它才是有用的。作者在真实的 ShadowHand 机器人上部署了 DexGrasp Anything。

机器人的现实世界评估。

机器人成功地对毛绒玩具等可变形物体执行了“抓取并提升”任务——这是一个众所周知的困难任务,因为物体形状在被触摸时会发生变化。在现实世界中的成功验证了“物理感知”方法的有效性;通过在训练中严格执行物理规则,“仿真到现实” (Sim-to-Real) 的差距被有效地弥合了。

结论

DexGrasp Anything 代表了生成式 AI 在机器人技术中的成熟。它超越了仅仅生成“看起来正确”的东西,转向根据物理定律生成“工作正常”的动作。

通过将表面拉力、外部排斥力和自排斥力集成到扩散模型的训练和采样阶段,研究人员创建了一个鲁棒、多样且高度成功的系统。再加上庞大的 DGA 数据集的发布,这项工作为通用机器人操作提供了新的基础。

对于学生和研究人员来说,关键的启示是 归纳偏置 (inductive bias) 的力量。纯数据驱动的学习很强大,但在学习过程中注入已知的约束 (如物理学) 往往是解决复杂现实世界问题的关键。