看看你自己的手,你会意识到它是一个工程学的奇迹。你可以用手指紧紧握住一把沉重的锤子来挥动它 (强力抓取,Power Grasp) ,也可以用拇指和食指捏住一把钥匙来开门 (捏取,Pinch Grasp) ,或者用三根手指操作一支笔 (精密抓取,Precision Grasp) 。
对于机器人来说,复制这种多功能性是一个巨大的挑战。虽然我们已经制造出了复杂的、多指的机器人手 (如 Shadow Hand 或 Allegro Hand) ,但教会它们如何运用这种灵巧性仍然非常困难。瓶颈往往在于数据 。 要训练机器人抓取任何物体,我们需要包含数百万个稳定且符合物理现实的抓取示例的海量数据集。
目前生成这些数据的方法往往比较“偷懒”。它们通常收敛于最简单的解决方案: 用整只手包裹住物体。这导致我们的机器人像拿着棍棒一样拿着所有东西,错失了现实世界任务所需的精细操作能力。
在这篇文章中,我们将深入探讨 GraspQP , 这是一篇提出了一种合成多样化且基于物理的抓取新方法的各种研究论文。通过可微二次规划 (Differentiable Quadratic Program, QP) 强制执行严格的物理约束,并使用巧妙的“群体感知”优化器,作者生成了一个远超标准强力抓取的数据集。

问题: 为什么抓取合成很难?
要理解 GraspQP 的贡献,我们首先需要看看机器人目前是如何学习抓取的。
传统方法分为两类:
- 基于采样的方法 (Sampling-based) : 计算机随机猜测一个手部位置并检查其是否有效。对于具有许多关节 (自由度) 的复杂机械手来说,这种方法既慢又低效。
- 解析方法 (Analytical methods) : 这些方法利用几何学和物理学来计算稳定性。虽然准确,但在计算上非常繁重,且难以使用现代深度学习技术进行优化。
最近的进展已转向基于梯度的优化 (Gradient-based optimization) 。 想象一下,抓取的“质量”是一个分数。如果我们能计算出该分数相对于手指位置的梯度 (斜率) ,我们就可以使用梯度下降法自动将手指滑动到更好的位置。
然而,为了使数学运算行得通 (即使其可微) ,研究人员经常会走捷径。他们可能会忽略摩擦力,或者简化“力封闭 (force closure) ”的定义 (即确保物体不会滑落的物理条件) 。结果呢?优化过程找到的是不仅在算法看起来不错但在现实世界中会失败的“虚假”抓取,或者是一遍又一遍地找到相同的枯燥的强力抓取。
解决方案: GraspQP
GraspQP 论文介绍了一个在物理上不妥协的框架。它结合了严格定义的抓取稳定性与旨在寻找多样性的改进优化器。
这是其高级流程:

如图 2 所示,该过程始于一个粗略的初始化 (一个大概的猜测) 。然后系统进入优化循环。它使用复合能量函数来评估抓取——这是一种对抓取有多“糟糕”进行打分的数学方法 (分数越低越好) 。
总能量函数如下所示:

其中:
- \(E_{FC}\): 力封闭能量 (Force Closure Energy) 。 这是核心创新点 (详见下文) 。
- \(E_{dis}\): 距离能量 (Distance Energy) 。 将手指拉向物体表面。
- \(E_{reg}\): 正则化 (Regularization) 。 防止手部移动到不可能的位置或发生自碰撞。
让我们分解这两个主要贡献: 严格的力封闭度量和 MALA* 优化器。
1. 通过二次规划实现可微力封闭
抓取中最关键的部分是力封闭 (Force Closure) 。 简单来说,如果手指施加的力可以抵抗对物体的任何外部推力或扭转而不发生滑动,那么这个抓取就具有力封闭性。
在数学上,这与旋量空间 (Wrench Space) 有关。“旋量 (wrench) ”结合了力和力矩。如果你的手指能产生一组“正向张成 (positively span) ”整个 6 维旋量空间 (3 个力 + 3 个力矩) 的旋量,你就拥有了一个稳定的抓取。
“偷懒”的方法 vs. GraspQP 的方法
以前的可微方法通常使用简化的条件: “接触力的总和必须为零”。虽然这是必要的,但这还不够。它鼓励手指以所需的绝对最小力接触物体,这往往导致不稳定的接触。
GraspQP 严格地制定了这一条件。它提出的问题是: 我们能否找到一组力系数 (\(\gamma\)) ,使得手指主动挤压物体?
作者提出了这种能量公式:

注意这个约束条件: \(u \ge \hat{\gamma}_i \ge 1\)。
- \(\hat{\gamma}_i \ge 1\): 这强制手指施加最小的非零力。它防止了“幽灵”接触,即数学上显示有接触,但实际上力几乎为零。
- \(u \ge \hat{\gamma}_i\): 这设定了一个上限,承认真实的电机是有扭矩限制的。
使用 QP 求解
挑战在于: 这个公式包含硬性的不等式约束 (大于 1,小于 \(u\)) 。标准的梯度下降法难以处理这种“硬墙”。
研究人员通过将能量计算公式化为二次规划 (Quadratic Program, QP) 来解决这个问题。QP 是一种凸优化问题,并且已经被研究得很透彻。

由于这个优化问题是凸的,我们可以使用 KKT 条件 (凸优化中的一组最优性条件) 来计算梯度。这意味着我们可以严格地在 QP 内部解决物理问题,得到最佳的力分布,然后将该结果的梯度传回手部关节以更新姿态。
最后,为了确保抓取在所有方向上 (不仅仅是一个方向) 都能抵抗干扰,作者加入了一个涉及旋量矩阵奇异值 (\(\sigma\)) 的项:

通过最大化奇异值的乘积 (\(\prod \sigma_i\)) ,他们最大化了旋量空间的体积,从而确保抓取在各个方向上都很强固。
2. MALA* 优化器
即使有完美的能量函数,优化也可能会失败。一个常见的问题是模式坍塌 (mode collapse) 。 如果你要求算法找到一个“好”的抓取,它往往每次都会找到单一最简单的好抓取 (通常是强力抓取) ,无论你如何初始化它。
为了生成多样化的数据集 (捏取、三指抓取等) ,优化器需要进行探索。
作者使用了Metropolis 调整朗之万算法 (Metropolis-Adjusted Langevin Algorithm, MALA) , 这是一种在梯度下降过程中添加噪声以帮助其探索的方法。但他们将其修改为 MALA* (MALA-Star) ,使优化器具有“群体感知”能力。
他们不是一次优化一个抓取,而是同时优化一批抓取。这使得他们能够利用整个群体的统计数据来修复个体的失败:
- 动态重置 (Dynamic Resetting) : 如果批次中某个特定抓取的能量得分显著低于群体中的其他抓取 (它陷入了一个糟糕的局部极小值) ,系统会将其剔除并重置为新的随机配置。
- 自适应温度缩放 (Adaptive Temperature Scaling) : 在物理模拟中,“温度”控制添加多少随机性 (噪声) 。如果一个抓取的表现比群体差,算法会调高该抓取的温度 (\(T_i\)) 。这增加了随机性,帮助抓取从糟糕的位置“跳”出来。
实验设置
为了测试这一点,研究人员使用 Isaac Lab 进行模拟。他们使用五种不同的机器人手 (从简单的两指夹爪到高度复杂的 Shadow Hand) 在包含 50 个物体的数据集上进行了测试。

他们使用两个关键指标来衡量成功:
- 唯一抓取率 (Unique Grasp Rate, UGR) : 生成的抓取中既稳定 (通过模拟摇晃测试) 又在几何上彼此不同的百分比。
- 熵 (Entropy, H) : 关节角度和手腕姿态的统计多样性度量。熵越高意味着手部使用了更广泛的配置。
结果: 质量与多样性
结果表明,加入严格的物理约束和智能优化是值得的。
抓取质量与多样性
下表 1 将 GraspQP 与 DexGraspNet 和 GenDexGrasp 等最先进的基准方法进行了比较。

数据中的关键结论:
- Shadow Hand 的表现: 看看 “Shadow UGR” 这一列。GraspQP 在 4 个接触点的情况下实现了 49% 的唯一抓取率,而 DexGraspNet (MALA*) 仅为 36%。这在为高自由度手寻找复杂、有效抓取的能力上是一个巨大的飞跃。
- 多样性 (熵) : GraspQP 的熵 (\(H\)) 得分始终较高 (加粗数值) ,证明该方法能找到更广泛的手部姿态。
- 穿透深度: 虽然由于激进的力要求,GraspQP 的穿透深度 (手指切入物体) 通常略高,但仍保持在现实范围内 (\(<3\)mm) 。
消融实验: MALA* 重要吗?
改进是来自 QP 还是优化器?表 2 显示这是两者结合的结果。

当作者采用基准方法 (GenDexGrasp) 并仅将其标准优化器换成他们的 MALA* 时,性能显著提升 (UGR +7.0%) 。相反,如果放宽严格的力封闭约束 (从公式 iii 变为 ii) ,性能就会下降。这证实了严格的物理约束和群体感知优化都是必要的。
规模扩展 vs. 时间
有人可能会说,因为求解 QP 比简单的计算要慢,所以这种方法效率低下。然而,目标是数据集生成,在这里质量比实时速度更重要。

图 4 完美地说明了这一点。蓝线 (DexGraspNet) 饱和了。即使你给它 512 次尝试 (种子) ,它也只能达到约 60 个唯一抓取的上限。它只是想不出新点子了。
GraspQP (橙色线) 则持续攀升。仅用 128 个种子,它就达到了近 80 个唯一抓取。它的样本效率要高得多,这意味着更少的优化尝试就能产生更丰富的数据集。
可视化灵巧性
数字固然重要,但在机器人技术中,眼见为实。研究人员生成的“接触热力图”生动地展示了抓取的多样性。
对于 Shadow Hand (一种非常类似于人手的手) ,我们可以看到针对不同抓取类型的独特接触模式:

- 默认/强力 (Default/Power) : 接触点分布在手掌和近节指骨 (手指根部) 。
- 精密 (Precision) : 接触点几乎完全转移到了指尖。
- 捏取 (Pinch) : 热度严格集中在拇指和食指上。
我们在 Allegro Hand 上也看到了类似的模式:

甚至对于像 Robotiq 3F 这样更简单的夹爪也是如此:

这些热力图证明,GraspQP 不仅仅是在“同一主题上进行变奏”——它成功地分离出了用于握持物体的不同机械策略。
结论
GraspQP 代表了机器人抓取合成向前迈出的重要一步。通过拒绝在力封闭的物理特性上妥协,并通过可微二次规划来实现它,研究人员确保了生成的抓取在物理上是鲁棒的。通过将其与 MALA* 优化器配对,他们确保了系统能够探索可能性的全貌,而不是陷入“强力抓取”的陷阱中。
对于机器人领域的学生和研究人员来说,这项工作强调了一个至关重要的教训: 可微性很强大,但物理规律不可妥协。 仅仅为了让数学计算更容易而放宽约束,可能会导致数据缺乏现实世界任务所需的丰富性。
这项工作的成果是一个包含 5,700 个物体的新型大规模数据集,为下一代灵巧机器人的训练提供了丰富的土壤,使它们最终可能像我们一样熟练地处理这个世界。
](https://deep-paper.org/en/paper/2508.15002/images/cover.png)