引言
在机器人操控领域,工程师们面临着一个被称为“柔顺性权衡 (compliance trade-off) ”的持久难题。传统的刚性抓手——就像装配线上的金属爪——虽然精确且有力,但它们难以应对不规则的形状,并且很容易压坏脆弱的物体。而在另一端,由硅胶或橡胶制成的软体机器人抓手提供了出色的适应性和安全性;它们可以包裹住一颗草莓而不将其碰伤。然而,软体抓手通常缺乏举起重型工具的力量,也缺乏处理特定方向的精度。
我们该如何找到中间地带?更重要的是,我们如何设计一个对特定任务集来说“恰到好处”的抓手?
设计软体抓手在数学上是复杂的,因为设计 (形态学) 和控制策略 (如何移动) 是紧密交织的。如果你改变了手指的刚度,你就必须改变机器人抓取物体的方式。如果你改变了抓取策略,你可能需要不同的手指形状。这就是协同设计问题 (co-design problem) 。
解决这个问题通常涉及昂贵的仿真。模拟软材料的变形需要有限元方法 (FEM) 分析,这在计算上既繁重又缓慢。使用 FEM 迭代数千种设计变体在实际上是不可能的。
在这篇文章中,我们将探讨加州大学圣地亚哥分校的一篇研究论文,题为 “Co-Design of Soft Gripper with Neural Physics” 。 研究人员提出了一个框架,该框架将特定的机械创新与神经代理模型 (neural surrogate model) ——一种模拟物理仿真的深度学习网络——相结合,以快速协同优化软体抓手的刚度分布和抓取姿态。

如图 1 所示,其结果是一个既非完全刚性也非均匀柔软的抓手,而是通过优化的变刚度区域,在仿真和现实世界中均超越了基准设计。
背景: 软体协同设计的挑战
要理解这篇论文的贡献,我们需要审视软体机器人技术中的两个主要瓶颈: 驱动建模和仿真速度 。
驱动问题
软体机器人通常依赖气动网络 (气室) 或线驱动系统 (肌腱) 。线驱动系统很受欢迎,因为它们允许电机放置在远离手指的地方,从而保持手部的轻便。然而,在软体内部布置肌腱非常棘手。如果肌腱张力分布不正确,手指可能会像蝎子尾巴一样在尖端卷曲,而不是包裹住物体。这种“卷曲”减少了接触面积,使得抓取不稳定。
仿真问题
要优化设计,就需要进行测试。在机器人技术中,我们通过仿真测试来节省时间。对于刚体,物理引擎的速度非常快 (每秒数千帧) 。对于软体,我们必须计算材料的每一小部分是如何拉伸和压缩的。这通常使用 FEM 来完成。
如果你想使用梯度下降等算法来优化抓手的设计,你需要一个可微 (differentiable) 的仿真器——这意味着它不仅能告诉你发生了什么,还能告诉你如何改变输入以改善结果。虽然存在可微 FEM 仿真器,但它们通常很慢,并且存在“噪声梯度”,使得优化变得困难。
研究人员通过以下方式解决了这些问题:
- 推导了均匀压力肌腱走线的数学模型。
- 用快速的神经物理 (Neural Physics) 模型取代了缓慢的 FEM 仿真。
第一部分: 机械设计与均匀压力
这项工作的基础是一个一体化、可 3D 打印的软体手指。这个手指不是一整块橡胶;它由刚性段块组成,并通过薄的“挠性关节 (flexure joints) ”连接——本质上是充当铰链的薄材料梁。
这里巧妙的机械贡献在于肌腱是如何走线的。
均匀走线的问题
如果你将肌腱布置在距离手指中心恒定距离的位置 (平行于手指的脊骨) ,施加在关节上的扭矩会随着远离基座而增加。这导致指尖的弯曲程度明显大于基座。
如图 2b 下半部分所示,均匀分布的肌腱会导致手指在这个方向卷曲向内。结果是只有指尖接触物体,导致捏取而不是包覆抓取。
解决方案: 二次方走线
作者提出了一个“均匀压力”模型。目标是在手指的整个长度上施加恒定的弯矩,使其顺应物体的形状。

为了实现这一点,肌腱与挠性关节之间的距离 (\(h_i\)) 必须沿手指长度变化。通过机械推导,研究人员发现肌腱高度应遵循二次曲线:
\[ h _ { i } = H \left( 1 - \frac { l _ { i } } { L } \right) ^ { 2 } \]其中 \(H\) 是基座处的高度,\(L\) 是总长度,\(l_i\) 是当前点到基座的距离。
通过按照这条曲线布置肌腱 (如图 2b 上半部分所示) ,手指会均匀弯曲,从而最大化与物体的接触面积。这确保了在任何优化开始之前,机械“硬件”本身就有能力进行良好的抓取。
第二部分: 神经物理代理
有了能干的机械设计,下一步就是弄清楚手指中每个模块的最佳刚度。指尖应该软,基座应该硬吗?还是应该采用交替模式?
双指抓手中共有 22 个不同的模块。在缓慢的 FEM 仿真器上测试每种刚度组合以及每种可能的抓取姿态是不可行的。解决方案是训练一个神经网络来假装成仿真器。
仿真与数据生成
团队使用 Nvidia Warp (一种用于 GPU 仿真的高性能框架) 构建了真实物理 (ground-truth physics) 模型。
- 对象集: 他们使用了 YCB 数据集 (常见的家庭用品,如芥末瓶、剪刀和水果) 。
- 采样: 他们随机化了手指模块的刚度 (杨氏模量范围从 0.7 MPa 到 24 MPa) 。
- 姿态初始化: 他们使用刚体近似生成候选抓取姿态,以找到无碰撞的起始点。
他们运行了数千次仿真,让抓手尝试抓取并提升物体。他们记录了结果: 是否滑落?接触力是多少?是否撞击地面?
神经代理的架构
从缓慢仿真中收集的数据用于训练“神经物理”模型。该模型将设计和物体参数作为输入,并即时预测抓取结果。

如图 3 所示,架构分为两路:
- 几何编码器 (PointNet): PointNet 架构处理物体的“局部点云” (机器人可以看到的部分) 。这捕捉了形状几何特征。
- 物理编码器 (MLP): 多层感知机处理质心 (CoM)、密度以及抓手设计的刚度向量 。
结合这些特征来预测:
- 物体受力: 施加在物体上的 6D 力向量 (转化为抓取稳定性) 。
- 物体姿态: 抓取过程中物体移动了多少。
- 碰撞: 物体是否撞击地面 (失败) 。
为什么要使用神经网络?
神经网络提供了两个巨大的优势:
- 速度: 它比 FEM 仿真快几个数量级。
- 可微性: 神经网络是一个连续函数。你可以计算“成功”输出相对于“刚度”输入的梯度。这允许使用梯度下降直接优化设计。
第三部分: 优化循环
这就是“协同设计”发生的地方。目标是找到一个单一的刚度配置 (\(k\)) ,使其在各种物体上都能很好地工作,同时为每个特定物体找到最佳的抓取姿态 (\(p\)) 。
优化目标 (\(\mathcal{L}_{opt}\)) 平衡了最大化稳定性 (力) 和最小化位移 (物体滑落) 。
\[ \mathcal{L } _ { o p t } ( \mathbf { p } , \mathbf { k } ) = w _ { 1 } \sum _ { o \in \mathcal { O } } ( \| f \| + \| \Delta q \| ) + w _ { 2 } \sum _ { o \in \mathcal { O } } \left( \left| \operatorname* { m i n } ( f _ { y } , 0 ) \right| + \left| \operatorname* { m i n } ( \Delta q _ { y } , 0 ) \right| + c _ { g } \right) \]优化算法在一个迭代循环中工作:
- 采样姿态: 为每个物体生成一组候选抓取姿态。
- 选择最佳姿态: 使用当前刚度评估哪些姿态效果最好。
- 优化刚度: 计算损失相对于刚度向量 (\(k\)) 的梯度,并更新设计以降低所有物体的损失。
- 重复: 随着刚度的变化,特定物体的最佳姿态可能会改变,因此循环持续直到收敛。
神经优化的效率
研究人员将他们的神经物理方法与直接使用可微仿真器 (“DiffSim”) 进行优化进行了比较。

图 4 突显了巨大的性能差距。
- 图 4a vs 4c: 神经物理损失 (4c) 平滑且稳定地收敛,而可微仿真 (4a) 则充满噪声且不稳定。
- 图 4d: 看一下时间尺度。“联合” (神经) 优化每次迭代大约需要 \(10^{-2}\) 秒,而 DiffSim 需要 \(10^2\) 秒。这是 10,000 倍的加速 。
此外,神经模型的“梯度范数” (衡量优化景观陡峭/不稳定程度的指标) 要低得多,使得优化更有可能找到全局最优解,而不是陷入局部陷阱。
第四部分: 从仿真到现实
仿真只有在能够转化为现实世界时才有用。研究人员使用 TPU (热塑性聚氨酯) 3D 打印了他们的优化设计。
但是,如何用单一材料打印出“变刚度”呢?
打印微结构
团队通过改变 3D 打印的填充密度和外壳圈数 (wall loops) 来调节有效刚度 (杨氏模量) 。

- 挠性关节: 刚度由“外壳圈数” (周边外壳) 的数量控制。圈数越多 = 铰链越硬 (图 5b) 。
- 段块: 刚度由填充百分比 (内部有多少空隙) 控制。填充率越高 = 块越硬 (图 5c) 。
他们校准了打印机输出以匹配仿真范围 (0.7 到 24 MPa) ,并打印了神经网络找到的最佳设计。
实验与关键结果
研究人员比较了三种主要的抓手类型:
- 刚性 (Rigid) : 标准的硬抓手。
- 软性 (Soft) : 具有均匀低刚度的抓手。
- 优化后 (Optimized) : 具有变刚度的协同设计抓手。
仿真成功率
在仿真中,他们测试了抓手对“域内”物体 (训练时见过的) 和“域外”物体 (新形状/质量) 的表现。

表 1 显示了结果。 联合优化 (Jointly Optimized) 方法在所有方面都实现了最高的成功率。
- 重物: 注意“软性”和“半刚性”抓手在重物上的巨大性能下降 (下降到约 51% 和 15%) 。优化后的抓手保持了 78.3% 的成功率。
- 泛化: 优化后的设计甚至在它从未见过的物体 (域外) 上也表现良好,证明学到的设计原则是稳健的。
现实世界表现
团队将抓手安装在 Franka Emika 机械臂上,并在 10 种不同的物体上进行了测试,从轻便的塑料勺 (41g) 到沉重的喷雾瓶 (180g) 。

表 2 揭示了优化设计在现实世界中的优势:
- “金发姑娘”效应: 刚性抓手难以处理塑料勺 (0/10 成功率) ,因为它无法顺应形状。软性抓手难以处理沉重的喷雾瓶 (1/10 成功率) ,因为它太软弱无法支撑重量。
- 优化方案: 协同设计的抓手有效地处理了勺子 (5/10) 和喷雾瓶 (6/10) ,并在像“洗洁精瓶”这样的复杂形状上占据主导地位 (9/10) 。
“灵长类指甲”的发现
优化过程中一个有趣的涌现特性是刚度分布。神经网络倾向于选择具有坚硬指尖的设计,模仿灵长类的指甲。
虽然手指的中部保持柔软以顺应物体形状,但刚性的指尖提供了一个独特的接触点,有助于将薄物体从桌面上铲起,并提供抗旋转的稳定性。这个设计特征不是硬编码的;人工智能“发现”了指甲对操作很有用。
结论与启示
这项研究展示了可微神经代理的力量。通过创建一个快速、可学习的物理近似,研究人员将一个棘手的设计问题转化为一个可解的优化循环。
主要收获:
- 硬件很重要: 均匀压力肌腱走线的推导提供了坚实的机械基准,防止了软体机器人中常见的“卷曲”问题。
- 速度赋能设计: 如果你的仿真每帧需要几分钟,你就无法协同优化设计和控制。神经网络带来的 10,000 倍加速是关键的推动因素。
- 混合设计获胜: 最佳抓手既不是完全软的,也不是完全硬的。它是异质混合的,这证实了生物学 (混合了软皮肤和硬骨头) 通常有着正确的思路。
这个框架为设计针对特定环境定制的机器人打开了大门,使我们从“一刀切”的硬件转向智能、形态自适应的系统。
](https://deep-paper.org/en/paper/2505.20404/images/cover.png)