引言

想象一下跟机器人握手。如果是一台标准工业机械臂,你可能会害怕它捏碎你的手指。它那刚性的金属骨架和高扭矩电机是为精确性设计的,而不是为舒适性设计的。现在,想象一下跟一只由硅胶制成的手握手——柔软、顺从,且能适应你的触碰。这就是软体机器人的承诺: 本质上安全且能适应混乱现实世界的机器。

然而,这里有个陷阱。虽然软体机器人在机械结构上更安全,但它们出了名地难以控制。刚性机器人有特定的关节和编码器,可以精确到几分之一毫米地告诉计算机手臂在哪里。而软体机器人是一个连续体 (continuum body) ——它可以以无限种方式弯曲、扭转和变形。它拥有几乎无限的自由度。如果你无法精确测量机器人当前的状态 (本体感觉) ,你如何教它执行像拧开瓶盖或摘黑莓这样复杂的任务?

在这篇文章中,我们将深入探讨 KineSoft , 这是由卡内基梅隆大学和博世人工智能中心的研究人员提出的一个突破性框架。这篇论文解决了软体机器人的“大脑”问题。通过开发一种让软体机器人“感觉”自身形状并从人类触碰中学习的方法,KineSoft 架起了软体材料的固有安全性与灵巧操作所需精确性之间的桥梁。

核心挑战: “身体图示”问题

要理解为什么 KineSoft 是必要的,我们首先需要看看为什么标准的机器人技术在软体手上会失败。

在刚性机器人技术中, 模仿学习 (Imitation Learning) 是一种流行的技术。人类演示一个任务 (比如移动杯子) ,机器人记录其关节的轨迹。随后,它重放该轨迹或学习一种策略来适应它。这之所以有效,是因为机器人的电机与其位置之间的映射关系通常是静态且容易理解的。

对于软体机器人,这种方法会因为两个原因而失效:

  1. 状态表示: 一块橡胶的“状态”是什么?它没有关节。我们需要一种方法来在数学上表示其复杂、变形的形状。
  2. 演示-执行差距 (The Demonstration-Execution Gap) : 这一点微妙但至关重要。如果你抓住一个软体机器人的手指并摆动它 (演示) ,读取变形的内部传感器会输出特定的值。然而,当机器人试图通过拉动内部肌腱来自己移动那根手指时 (执行) ,力学机制是不同的。手指可能会达到相同的形状,但内部应力——以及因此产生的传感器读数——可能会不同。

如果你只是简单地训练机器人去模仿它在人类演示过程中感受到的传感器读数,当它试图自己移动时就会失败。KineSoft 通过教机器人模仿形状 , 而不是原始传感器数据,解决了这个问题。

KineSoft 框架

KineSoft 是一个分层框架,旨在为软体机器人实现动觉教学 (kinesthetic teaching) ——即人类物理引导机器人完成任务。

图 1: KineSoft 框架概览,展示了三个关键组件: 形状估计、模仿策略和形状条件控制器。

图 1 所示,该框架由三大支柱组成:

  1. 本体感觉形状估计 (Proprioceptive Shape Estimation) : 一个将原始传感器数据转化为机器人形状 3D 网格的深度学习模型。
  2. 模仿策略 (Imitation Policy) : 一个基于扩散 (diffusion-based) 的 AI,它观察世界并决定手应该处于什么形状来完成任务。
  3. 形状条件控制器 (Shape-Conditioned Controller) : 一个低级控制循环,驱动电机以实现期望的形状。

让我们逐一分解这些部分,从硬件开始。

1. 硬件: MOE 手

研究人员使用了多指全向末端执行器 (Multifinger Omnidirectional End-effector,简称 MOE) 。这里的关键创新不仅仅是柔软的硅胶主体,还在于嵌入其中的传感器。他们将导电弹性橡胶传感器直接集成到了手指中。当手指弯曲或扭转时,这些传感器会拉伸,从而改变其电阻。

这为机器人提供了关于其内部应变的原始数据,但原始电阻值只是充满噪声的数字。机器人需要将这些数字转化为其物理身体的心理模型。

2. 学习“感觉”形状 (本体感觉)

如何将一串电阻值转换为手指的完整 3D 网格?作者提出了一种基于 FoldingNet 的神经网络架构。

图 2: 神经网络架构。电阻读数被编码并与初始网格顶点结合,以解码出变形场。

该过程如图 2A 所示,工作原理如下:

  1. 输入: 网络接收来自传感器的当前电阻读数 (\(\mathbf{R}\))。
  2. 编码: 这些读数通过“信号编码器 (Signal Encoder) ”传递,以创建一个潜在特征向量——即传感器状态的压缩数值摘要。
  3. 解码: 该特征向量与手指网格的“静止姿态” (未变形形状) 相结合。“变形场解码器 (Deformation Field Decoder) ”随后预测网格上的每一个顶点需要移动多少 (\(\Delta \mathbf{V}\)) 才能匹配当前的物理现实。

在数学上,该网络学习一个预测位移的函数 \(f\):

形状估计函数 f 的方程。

每个顶点位置的实际计算依赖于将预测的位移加到原始位置上:

显示顶点位移计算的方程。

这种方法之所以强大,是因为它输出的是网格 (mesh) , 这是一种人类、物理模拟器和控制算法都能理解的几何格式。

可视化这种感觉

这个网络的结果令人印象深刻。它允许机器人实时可视化自身的变形。在下方的图 9 中,你可以看到当手与物体互动时,原始传感器信号 (中间) 与重建形状 (右侧) 之间的相关性。

图 9: 从摄像头视图到原始传感器读数再到 3D 形状估计的演变过程。

3. 连接仿真与现实

训练形状估计网络需要大量数据——具体来说,是成对的传感器读数真实 3D 形状。在物理机器人上收集这些数据是一场噩梦,因为你需要外部动作捕捉摄像头来持续追踪硅胶表面上的数千个点。

研究人员通过在仿真中训练解决了这个问题。他们创建了手指的有限元模型并模拟了数千次变形。然而,仿真永远不会完美。真实橡胶传感器的电阻并不完美匹配模拟的应变。

为了修复这种 Sim-to-Real (仿真到现实) 差距 , 他们开发了一种域对齐技术。他们制定了一个优化问题,以找到修正因子 (\(\kappa\)),使现实世界的电阻 (\(R\)) 与模拟的长度变化 (\(L^S\)) 对齐。

用于优化修正因子以对齐现实和仿真传感器数据的方程。

由于在校准期间无法知道真实传感器的“真实”长度,他们使用外部深度摄像头来观察机器人的形状,并最小化观察到的形状与预测形状之间的倒角距离 (Chamfer Distance,一种比较两个点云的指标) :

无监督倒角距离损失方程。

这一校准步骤至关重要。它允许机器人在矩阵 (仿真) 中学习其“身体图示”,然后仅通过简短的对齐阶段将其下载到物理世界。

4. 形状条件控制器

现在机器人知道了它当前的形状。但要执行任务,它需要移动到目标形状。

这正是 KineSoft 相比传统方法大放异彩的地方。传统的“应变匹配 (strain-matching) ”试图强迫电机重现特定的传感器读数。但如前所述,拉动肌腱产生的内部应变与用人手推动手指产生的应变是不同的。

KineSoft 的控制器不看传感器;它看几何形状 。 它计算当前估计网格期望目标网格之间的误差。然后,它将此误差投影到可用的驱动方向 (肌腱) 上。

基于形状误差计算伺服调整量的控制律方程。

在这个方程中,\(\mathbf{e}\) 表示网格顶点当前位置与应在位置之间的误差。控制器调整伺服电机 (\(\delta u\)) 以最小化此几何误差。这有效地绕过了演示-执行差距,因为无论变形是由电机还是人手引起的,几何形状都是一致的。

通过模仿学习技能

随着本体感觉和控制层的建立,研究人员终于可以教机器人技能了。

他们使用了 Diffusion Policies (扩散策略) , 这是模仿学习中最先进的方法。工作流程非常直观:

  1. 人类操作员抓住柔软的手指。
  2. 他们物理引导机器人执行任务 (例如,拧开瓶子) 。
  3. 系统记录此运动过程中生成的形状 (网格) 序列。
  4. 策略学习根据当前状态预测下一个期望形状。

图 3: 人类演示 (上) 与 KineSoft 自主运行 (下) 的对比。

图 3 展示了实际操作。上排显示人类引导机器人操作圆锥体。下排显示机器人自主执行相同的行为。请注意,机器人不仅仅是重放录像;它正在积极生成其底层控制器要追踪的形状目标。

实验与结果

作者在两个方面评估了 KineSoft: 其估计/追踪形状的能力,以及执行有用工作的能力。

形状估计保真度

首先,机器人真的能分辨出它是什么形状吗?团队将 KineSoft 与几个基线进行了比较,包括“DeepSoRo” (一种基于视觉的方法) 和朴素线性模型。

表 1: 形状估计误差 (毫米) 的定量比较。

表 1 所示,KineSoft 实现了仅 1.92 毫米的形状误差。这是对朴素方法 (~4.9 毫米) 的巨大改进,甚至优于那些受遮挡问题困扰 (当机器人的手挡住摄像头对自己手指的视野时) 的基于视觉的方法。

追踪性能

接下来,他们测试了控制器是否真的能跟随轨迹。这是对“演示-执行差距”的关键测试。

图 6: 显示形状估计 (A) 和追踪性能 (B) 的图表。注意 KineSoft 的追踪非常紧密,而基线则有漂移。

图 6B 可视化了这种追踪。红点代表地面真值 (ground truth) 目标。蓝线代表 KineSoft 的表现。系统紧密地跟随了所需的复杂、非线性变形。

相比之下,看下面的表 2 , 我们发现标准的“应变追踪 (Strain-tracking) ”基线 (试图直接匹配传感器值) 的误差几乎翻了一倍 (6.20 毫米 vs 3.29 毫米) 。这证实了几何形状是比原始传感器数据更稳健的传递媒介。

表 2: 应变追踪与 KineSoft 之间的追踪误差比较。

真实世界操作任务

最后,终极测试: 它能干活吗?团队设计了六项任务,范围从刚性物体操作到与软物体的精细交互。

图 4: 六个评估任务: 拧瓶盖、弹盖子、摘浆果、抓纸、抓织物和开容器盖。

图 4 中展示的任务包括:

  • 拧瓶盖 (Bottle Unscrewing) : 需要扭矩和协调。
  • 摘浆果 (Berry Picking) : 需要极度轻柔以避免压碎果实。
  • 抓织物 (Fabric Grasping) : 很难,因为物体本身会变形。

结果非常鲜明。

表 3: KineSoft 对比应变策略在 20 次试验中的成功率。

表 3 揭示了性能差距。

  • 拧瓶盖: KineSoft 成功了 17/20 次。基线应变策略完全失败 (0/20) 。
  • 摘浆果: KineSoft 达到 16/20。基线仅勉强完成 7/20。

基线失败的主要原因是,在人类演示期间记录的传感器值 (当人类挤压手指时) 是机器人实际上无法通过其肌腱重现的。KineSoft 通过专注于形状 , 忽略了那些不可能的传感器值,只寻找驱动肌腱以实现几何目标的最佳方式。

结论与未来启示

KineSoft 代表了软体机器人向前迈出的重要一步。通过解耦“是什么” (几何形状) 和“怎么做” (具体的线缆张力或传感器读数) ,它允许我们将强大的模仿学习技术应用于软体。

这项研究的关键要点是:

  1. 柔顺性是一种资产: 软体机器人不应被视为“传感器很烂的硬机器人”。它们的柔软性允许刚性机器人无法轻易支持的直观动觉教学。
  2. 几何是通用语言: 将传感器数据转换为 3D 网格充当了人类演示和机器人执行之间可靠的桥梁。
  3. Sim-to-Real 适用于软体: 通过巧妙的域对齐,我们可以在仿真中学习复杂的变形模型并将其转移到现实世界,而无需昂贵的现实世界动作捕捉设置。

当我们展望未来,机器人将在老年护理中提供帮助、处理易损农产品或与人类并肩工作,像 KineSoft 这样的框架将至关重要。它们为软体机器人提供了必要的“身体意识”,使其能够走出实验室进入现实世界,将安全性与我们对智能机器所期望的灵巧性结合起来。