机器人会有感觉吗?利用 KineDex 通过触觉教授灵巧操作

机器人操作技术已经取得了长足的进步。现在的机器人可以举起重物,以亚毫米级的精度焊接汽车,甚至跳舞。但当涉及到人类双手的精细艺术时——比如扣衬衫扣子、打鸡蛋而不捏碎它,或者挤出适量的牙膏——机器人往往力不从心。

缺失的一环是触觉感知 。 虽然计算机视觉赋予了机器人“视力”,但并没有告诉它们抓握的力度有多大,或者物体是否正在滑落。为了填补这一空白,一组研究人员推出了 KineDex , 这是一个新的框架,不仅教会机器人如何移动,还教会它们如何去感知

图 1: 我们要介绍的是 KineDex,这是一个通过动觉示教收集富含触觉信息的演示数据,并针对灵巧操作训练触觉感知视觉运动策略的框架。

在这篇文章中,我们将深入探讨 KineDex 论文。我们将探索研究人员如何解决收集触觉数据的“鸡生蛋,蛋生鸡”难题,如何使用视觉修复技术从数据中“擦除”人类教师,以及力感知策略如何让机器人执行以前无法完成的精细任务。

挑战: 为什么灵巧操作如此困难?

要理解 KineDex 的贡献,我们首先需要看看机器人学习的现状。教机器人技能最常见的方法是通过模仿学习 。 你向机器人展示如何完成一项任务 (演示) ,然后它学习模仿你。

对于简单的夹爪 (爪子) 来说,这相对容易。你可以使用操纵杆或 VR 控制器来移动机械臂。然而,对于灵巧手 (拥有多个多关节手指的机器人手) 来说,复杂性呈爆炸式增长。

遥操作的局限性

大多数研究人员使用遥操作来收集数据。操作员戴着数据手套或使用基于视觉的手部追踪器 (如 VR 头显) 来远程控制机械手。虽然这在几何层面行得通,但在物理层面却很失败。

  1. 运动学失配: 你的手和机械手的尺寸或关节限制几乎不完全相同。将你的拇指运动映射到机器人拇指上,在数学上是很混乱的,而且往往不准确。
  2. “麻木”的操作员: 这是最大的问题。当你遥操作机器人时,你感觉不到机器人触摸到了什么。你可能会捏碎纸杯,因为你没意识到捏得有多用力,或者弄掉钢笔,因为抓得太松。

如果在教学阶段没有高保真的触觉反馈,收集到的数据往往是有缺陷的。如果老师笨手笨脚 (因为缺乏反馈) ,学生 (机器人) 也会笨手笨脚。

动觉示教登场

另一种选择是动觉示教 (Kinesthetic Teaching) 。这是一个专业术语,意思是“抓住机器人并亲自移动它”。你不是使用遥控器,而是通过任务物理引导机器人的肢体。

这解决了反馈回路问题。如果你在机器人抓着物体时握住机械手,你能感觉到阻力。你确切地知道需要多大的力。然而,传统上,这对于灵巧手来说几乎是不可能的。机器人手指很小,挤满了电机,而且很难在不遮挡传感器或摄像头的情况下进行手动操作。

KineDex 框架

KineDex (Kinesthetic Dexterity) 提出了一种新颖的软硬件流程来解决这些问题。它实现了一种“手把手”的教学范式,人类操作员的动作直接传递给机器人,确保证演示在物理上是真实的且富含触觉数据。

图 2: KineDex 框架概览。KineDex 通过动觉示教收集富含触觉的演示,操作员手部的视觉遮挡在策略训练前通过修复技术去除。学习到的策略利用视觉和触觉输入来预测关节位置和接触力,并通过力控制执行以实现稳健的操作。

该框架分三个阶段运作:

  1. 数据收集: 使用用于动觉示教的新型物理接口。
  2. 数据预处理: 使用 AI 修复技术清理视觉数据。
  3. 策略学习与部署: 训练一个既懂视觉又懂触觉的神经网络,并通过力控制来执行。

让我们逐一分析。

1. “手把手”接口

研究人员为灵巧机械手配备了指尖触觉传感器 (每根手指 120 个感应点) 。为了让通过人类驱动这只手,他们在机器人的手指上安装了指环状的带子。

操作员将手指穿过这些带子,就像操纵木偶一样“穿戴”着机械手。

  • 对于手指: 操作员的右手引导机器人的四根手指。
  • 对于拇指: 由于人类和机器人拇指位置的差异,操作员使用左手引导机器人的拇指。

这听起来可能很麻烦,但它提供了一个巨大的优势: 直接力反馈 。 当机器人手指压在桌子上时,操作员通过带子立即感觉到这种压力。这使得操作员能够自然且高效地完成对力度有微妙要求的任务,如拧瓶盖或插入插销。

2. 隐身斗篷: 解决视觉遮挡

动觉示教有一个主要的陷阱。如果你的手覆盖在机器人上,记录演示的摄像头看到的不仅是机器人和物体,还有你的手

如果你用这些数据训练机器人,机器人将学会预期在执行任务时会有一只巨大的人手出现。在部署过程中,当人类走开时,机器人会看到一个不同的场景 (没有人手) ,策略会因为这种“分布偏移”而失败。

KineDex 使用视频修复解决了这个问题。团队将人类手部视为需要擦除的视觉噪声。

图 7: 插孔任务的数据预处理流程。

如上图的预处理流程所示,该过程如下:

  1. 原始视频: 捕捉操作员双手引导机器人的过程。
  2. 掩膜生成: 他们使用名为 Grounded-SAM 的模型自动检测并创建操作员手臂和手部的轮廓掩膜。
  3. 修复: 视频修复模型 (ProPainter) 接收视频和掩膜,并“填充”人手背后的背景。它会“幻构”出被人类遮挡的桌子或物体的像素。

结果是一个干净的视频,看起来就像机器人自己在自主移动。这使得 AI 策略能够从与其单独行动时看到的视觉效果相匹配的数据中学习。

3. 学习感知: 策略架构

有了干净的视频和丰富的触觉数据,研究人员训练了一个视觉运动策略 。 他们使用了扩散策略 (Diffusion Policy) ,这是机器人学习中最先进的方法,它通过细化随机噪声来生成机器人动作,类似于 Midjourney 等图像生成器的工作原理。

该策略接收三个输入:

  1. 视觉: 修复后的 RGB 图像。
  2. 本体感觉: 机器人关节的位置。
  3. 触觉感知: 来自指尖传感器的 3D 力向量。

然而,创新不仅在于输入,还在于输出

力知情动作 (Force-Informed Actions)

在标准机器人技术中,策略预测关节位置 (\(x_d\))。它告诉电机: “移动到 45 度角。”

但在接触密集型任务中,仅有位置是不够的。如果你告诉机器人将手指移动到鸡蛋表面,如果有一个微小的校准误差,它可能会在离鸡蛋 1 毫米处停下 (掉落鸡蛋) 或多推 1 毫米 (捏碎鸡蛋) 。

KineDex 的策略在预测位置的同时预测力目标 (\(f_d\))。它告诉电机: “移动到 45 度角,并且施加 2 牛顿的力。”

4. 闭环: 力控制器

如果没有控制系统来执行它,预测力是没有用的。这就是物理学变得有趣的地方。

标准机器人使用 PD 控制器 (比例-微分控制器) 。控制信号 (\(u\)) 基于机器人当前位置 (\(x\)) 和应在位置 (\(x_d\)) 之间的误差。

公式 1: 标准 PD 控制律

如果机器人到达目标位置 (\(x = x_d\)),误差为零,电机停止施加扭矩。这对于抓握物体来说很糟糕;你希望电机保持挤压。

为了解决这个问题,研究人员使用预测的力 (\(f_d\)) 来计算一个虚拟目标位置 。 他们“欺骗”了控制器。如果策略想要对物体施加力,它会将目标位置设定在物体内部

指尖 (\(x_d^{tip}\)) 和基座 (\(x_d^{base}\)) 的修正后目标位置计算如下:

公式 2: 力知情目标位置计算

这里,\(K\) 代表刚度。通过增加一个与期望力 (\(f_d\)) 成比例的项,机器人的目标是接触表面以外的一个点。PD 控制器会看到一个恒定的“误差” (因为手指在物理上无法穿透物体) ,从而产生一个持续、稳定的力压向表面。

实验结果

研究人员在 9 项具有挑战性的任务上评估了 KineDex,包括拿起脆弱的鸡蛋、插入充电器和挤牙膏。

图 9: 训练好的策略在九个接触密集型操作任务上的执行情况。

成功率

结果令人印象深刻。系统在所有任务中的平均成功率达到了 74.4% 。 但真正的见解来自于对比实验 (消融实验) 。

研究人员测试了一个没有力控制的版本 (标准位置控制) 。性能崩溃了。

表 1: 不同方法在推理期间的成功试验次数 (共 20 次) 。

如表 1 所示,对于“拧瓶盖”等任务,KineDex 的成功率为 15/20 , 而没有力控制的版本降至 2/20 。 如果没有虚拟位移策略,手指仅仅是接触到瓶盖并打滑,无法产生足够的摩擦力来拧开它。

他们还测试了一个没有触觉输入的版本。对于像拿起瓶子这样的简单任务,视觉就足够了。但对于“挤牙膏”任务,性能显著下降。这证明对于涉及遮挡的任务 (手挡住了摄像头对物体的视线) ,触觉是必须的。

效率: KineDex 与遥操作的对比

这真的比仅仅使用 VR 控制器更好吗?研究人员搭建了一个标准的遥操作装置进行比较。

图 6: 遥操作系统的设置概览。

他们测量了收集成功演示所需的时间。差异是显而易见的。

图 4: KineDex 和遥操作在‘抓瓶子’和‘按压注射器’任务上演示收集时间的比较。

如图 4 所示,KineDex (蓝色条) 明显快于遥操作 (橙色条) 。

  • 按压注射器: 遥操作每次演示花费的时间大约是 KineDex 的两倍
  • 抓瓶子: 遥操作花费的时间是 KineDex 的三倍

为什么?因为在遥操作中,操作员需要不断调整、眯着眼睛看屏幕,并尽量不捏碎物体。而在 KineDex 中,操作员只需抓住物体并自然地完成任务。

用户研究

最后,团队邀请了 5 名参与者试用这两种系统。反馈压倒性地支持 KineDex。

图 5: 用户研究结果摘要。五名参与者分别使用遥操作系统和 KineDex 收集演示。饼图总结了他们对关键评估标准的反馈。

参与者发现 KineDex 更易于使用 (图表 d) ,并一致认为它有助于收集更准确的触觉数据 (图表 b) 。

结论与启示

KineDex 论文强调了机器人技术中的一个基本真理: 硬件和数据收集方法与学习算法一样重要。

通过设计一个允许人类将天生的灵巧性 (包括力度等所有细节) 直接转移给机器人的系统,研究人员绕过了传统遥操作的局限性。他们将其与巧妙的计算机视觉技术 (修复) 相结合来清理数据,并采用力感知控制方案来执行任务。

这对未来的启示意义重大:

  1. 触觉优先的机器人技术: 这项工作证明触觉传感器不仅仅是一个“锦上添花”的附加组件;对于接触密集型任务,它们是必不可少的。
  2. 可扩展的数据收集: 如果教机器人就像自己做任务一样快,我们就可以收集训练通用机器人助手所需的海量数据集。
  3. 复杂操作: 拧瓶盖、使用工具和处理柔软物体等任务终于变得可靠了。

KineDex 让我们离不仅能看世界,还能物理上理解世界的机器人更近了一步。