简介

想象一下,在漆黑一片的房间里,试图将充电线插到床头柜后面的插座上。虽然你看不见插座,但你能成功地调整插头角度,感受端口的边缘,对准并将其插入。你完全依赖于你的触觉。

对于人类来说,触觉是一种无缝、高带宽的感知模态,覆盖了我们的整个手部。然而,对于机器人来说,复制这种能力一直是一个巨大的挑战。虽然计算机视觉经历了爆发式增长,但机器人触觉感知却相对滞后。如今的大多数机器人本质上是“麻木”的,严重依赖视觉来推断接触。

当机器人学家确实实施触觉方案时,他们往往面临两难境地。他们可以使用基于视觉的触觉传感器 (如 GelSight) ,这类传感器能提供接触面的高分辨率图像,但体积庞大、速度慢且仅限于指尖。或者,他们可以使用磁性皮肤 , 这种皮肤轻薄、快速且可以覆盖整只手,但输出的是充满噪声且难以解释的磁信号。

在最近的一篇论文中,来自 Meta FAIR 实验室和卡内基梅隆大学的研究人员推出了 Sparsh-skin , 这是一种旨在弥合这一差距的突破性方法。他们提出了一种自监督学习框架,允许覆盖磁性皮肤的多指机械手通过简单地“玩弄”物体来“学习如何感觉”。

图 1: Sparsh-skin 是一种学习覆盖灵巧机械手磁性触觉皮肤通用表示的方法。Sparsh-skin 通过自监督在包含各种原子手内交互的大型预训练数据集 (\\(\\sim 4\\) 小时) 上进行训练。它以触觉观测简短历史 \\(\\mathbf { x } _ { i }\\) 和 3D 传感器位置 \\(\\mathbf { p } _ { i }\\) 为输入,生成高性能的全手上下文表示。Sparsh-skin 表示具有通用性,可用于各种接触丰富的下游任务。

如图 1 所示,Sparsh-skin 接收原始、嘈杂的传感器数据,并将其转换为丰富的“触觉嵌入”——一种压缩的、有意义的触觉表示,可用于复杂的任务,如力估计、操纵杆控制和物体插入。

机器人皮肤面临的问题

要理解为什么 Sparsh-skin 是必要的,我们首先需要看看硬件。研究人员使用的是覆盖着 Xela uSkin 传感器的 Allegro 手 (一种四指机械手) 。这些是磁性触觉传感器。

与拍摄照片的相机不同,这些传感器通过检测磁场变化来工作。在皮肤内部,微小的磁铁悬浮在软性材料中。当皮肤压向物体时,材料变形,导致磁铁移动。下方的磁力计测量磁通量 (磁场的强度和方向) 的变化。

这种方法具有巨大的优势:

  1. 速度: 它们以 ~100Hz 的频率运行 (比标准相机快得多) 。
  2. 外形: 它们轻薄且灵活,能够覆盖指尖、指骨 (手指节段) 和手掌。

然而,它们也带来了一些麻烦。信号是高维的 (一只手上就有数百个传感器) , 充满噪声 , 并且受到迟滞现象 (当压力释放时,传感器不会立即归零) 的影响。此外,校准这些传感器以输出精确的力 (牛顿) 极其困难,通常需要昂贵的外部设备。

自监督解决方案

如果我们不能轻易地编写数学公式将磁通量转换为接触信息,就需要机器学习。但训练模型需要数据。在过去,这意味着“监督学习”——收集数千个样本并手动标记它们 (例如,“这个信号等于 2 牛顿的力”) 。

收集整只手的标记触觉数据几乎是不可能的。你无法轻易地在自然操作过程中将力传感器放置在机器人手指和物体之间以获取“真值 (ground truth) ”。

Sparsh-skin 的作者通过使用自监督学习 (SSL) 解决了这个问题。他们没有告诉机器人它感觉到了什么,而是让机器人玩了 4 小时的物体,并设计了一个数学游戏 (目标函数) ,迫使机器人自己理解数据的结构。

核心方法: 深入 Sparsh-skin

论文的核心是 Sparsh-skin 架构 , 这是一个旨在将混乱的磁信号提炼为干净、有用表示的系统。

1. 触觉标记化 (Tokenizing Touch)

第一个挑战是数据格式化。机械手不是静态图像;它是一个动态系统。

  • 时间上下文: 单个磁通量快照是模糊的。要理解接触,你需要知道一瞬间前发生了什么。Sparsh-skin 使用 0.1 秒的历史窗口。
  • 本体感觉 (Proprioception): 指尖感觉到触摸,如果手指是弯曲的还是伸直的,意味着完全不同的事情。该模型输入触觉信号和传感器的 3D 位置 (运动学) 。

这些输入被切分并处理成“标记 (tokens)”——代表小块信息的向量,类似于大型语言模型将单词分解为标记的方式。

2. 学生-教师架构

学习过程使用了一种称为自蒸馏 (Self-Distillation) 的技术,其灵感特别来自于像 DINO 这样的计算机视觉模型。

图 8: 用于皮肤表示自监督学习的 Sparsh-skin 框图。我们的方法遵循自蒸馏中使用的学生-教师框架和损失函数。然而,我们调整了 Transformer 输入标记化以适应时间序列 Xela 数据。表 2: Sparsh-skin 的训练超参数。所有模型均使用 AdamW 优化器运行 500 个 epoch,权重衰减余弦调度从 0.04 到 0.4,学习率预热 30 个 epoch。

如图 8 所示,该架构由两个神经网络组成: 一个学生 (Student) 和一个教师 (Teacher)

  1. 学生网络: 接收触觉数据的“损坏”版本。
  2. 教师网络: 接收同一数据的干净 (或较少损坏) 视图。

目标是让学生观察混乱、不完整的数据,并预测教师输出的高质量表示。

至关重要的是,教师网络不是通过标准的反向传播训练的。相反,它的权重是学生权重的指数移动平均 (EMA) 。 这为学生创造了一个稳定的学习目标,防止模型作弊或坍缩成平凡解。

3. 掩码: 学习游戏

我们如何“破坏”数据以让学生学习?作者使用了块掩码 (Block Masking)

图 2: 用于 SSL 预测任务的 Xela 信号通过掩码损坏的图示: 一旦 100(ms) 窗口的触觉测量和传感器位置被标记化,就应用块掩码来损坏信号。对于每个数据样本,学生网络接收 \\(k\\) 个不同的掩码,每个掩码随机保留 \\(10 \\%\\) 到 \\(40 \\%\\) 的数据 (表示为 \\(\\bar { z _ { i } }\\)) 。相比之下,教师网络接收 1-2 个掩码,每个掩码保留 \\(40 \\%\\) 到 \\(100 \\%\\) 的数据 (表示为 \\(z _ { i } ^ { * }\\))

如图 2 所示,系统随机向学生隐藏 (掩盖) 大块传感器数据。例如,它可能会屏蔽食指或手掌上一块区域的数据。

学生必须观察剩余的可见传感器 (例如拇指和手掌) ,并利用其对物理学和手物交互的理解来“产生幻觉”或推断缺失部分的特征。如果模型能够准确预测隐藏部分的表示,就证明它理解了触觉的底层机制。

4. 为什么不是重建?

一种常见的 SSL 方法是掩码自编码 (MAE) , 其中模型试图重建被掩盖区域的精确原始像素或传感器值。

作者发现 MAE 对磁性皮肤效果不佳。磁通量充满了噪声。如果你强迫模型重建精确的噪声信号,它就会浪费能力去学习噪声而不是信号本身。

通过使用自蒸馏 (预测教师的表示而不是原始数据) ,Sparsh-skin 学习的是触觉的语义——“我正压在一个坚硬的边缘上”——而不是磁力计抖动的原始值。

实验与结果

研究人员通过冻结预训练模型并在特定任务上添加小型“解码器”来评估 Sparsh-skin。他们将其与从头开始训练的模型 (端到端) 和其他预训练方法 (BYOL, MAE) 进行了比较。

1. 力估计

模型能否预测施加在皮肤上的 3 轴力 (法向力和剪切力) ? 团队使用高精度力探头压入皮肤来收集真值数据。

图 5: 我们使用两种类型的解码器分别用于 (a) 瞬时任务和 (b) 时间任务。两种解码器都包含注意力池化器,它使用学习到的查询标记与传感器特征进行交叉关注,以输出单个全手表示标记。图 6: 用于下游任务的硬件设置: (左) 显示力估计的设置。我们使用连接到力/扭矩传感器的 3D 打印探头压在 Xela 传感器上。 (中) 显示位姿估计的设置。我们在随机移动物体时跟踪安装有 ArUco 标记的物体,以获得真值位姿估计。 (右) 显示插头插入策略任务的设置。我们收集来自三个第三人称视角相机和一个手腕相机视角的触觉测量和相机观测。

结果令人震惊。如下图 10 所示,Sparsh-skin (尤其是微调版本) 与真值力实现了近乎完美的关联。

图 9: Xela 传感器力估计数据收集协议的图示。图 10: 在 Xela 传感器上使用压头进行未见法向加载时,真值力和预测力之间的相关性。

相比之下,端到端模型 (仅在标记的力数据上训练) 表现非常挣扎。这证明了在随机游戏数据上的预训练教会了模型关于皮肤如何变形的一般原理,使其后来在估计特定力时表现得更好。

2. 操纵杆状态估计

这项任务涉及操纵操纵杆,并仅根据手部的触觉反馈来估计其横滚、俯仰和偏航。

图 12: 微调后的 Sparsh-skin 与端到端 Sparsh-skin 之间的验证 RMSE 收敛率: 我们发现微调后的 Sparsh-skin 允许模型泛化并以明显更快的速度学习推断操纵杆状态所需的模式。

图 12 突出了样本效率 。 Sparsh-skin 模型 (蓝线) 学习该任务的速度比端到端模型 (灰线) 快得多。它需要更少的更新和更少的数据就能达到高性能。在数据收集既昂贵又缓慢的机器人技术中,这种速度是一个改变游戏规则的因素。

3. 物体位姿估计

在这里,机器人必须在手中滑动一个物体,并连续跟踪物体的位置 (x, y) 和旋转。这是一项困难的时间任务,因为物体会滑动和旋转。

图 13: 测试集中物体的真值位姿序列以及通过端到端和 Sparsh-skin (微调) 表示重建的轨迹。 (左) 任务解码器使用 100% 的训练数据预算进行训练,对应 108 个序列。 (右) 任务解码器使用 33% 的训练序列进行训练。

图 13 中的图表显示了轨迹跟踪。即使仅在 33% 的可用标记数据上进行训练 (右栏) ,Sparsh-skin 也能以高精度 (超过 90%) 跟踪物体的运动 (Tx, Ty),而端到端模型则经历了灾难性的失败 (准确率降至约 40%) 。

4. 策略学习: 插头插入

最后,作者在一个动态控制任务上测试了系统: 将插头插入插座。这需要整合视觉 (寻找插座) 和触觉 (对齐插头) 。

图 7: 比较 Sparsh-skin 在所有任务上结果的摘要。(a) 力估计 (RMSE(↓)): BYOL 预训练在预测法向力方面不太准确。(b) 操纵杆状态估计 (↓): Sparsh-skin 总体上优于端到端,并且即使在仅获得 3.3% 数据集的情况下,也与 \\(\\mathrm { H i } \\mathrm { S } \\mathrm { S } ^ { \\ast }\\) 具有竞争力。(c) 位姿估计误差 \\(( \\downarrow )\\) 和 (d) 位姿估计准确率 (↑): Sparsh-skin (微调) 在平移方面比端到端有 \\(\\sim 1 0 \\%\\) 的提升,在旋转方面有 \\(\\sim 2 0 \\%\\) 的提升。(e) 插头插入策略展示快照 (成功和失败) 。仅视觉策略主要在起始位置位于插座正上方时成功,而 Sparsh-skin (冻结) 实现了 \\(7 5 \\%\\) 的成功率,失败主要是由于滑动定位插座时失去抓握。

图 7 中的面板 (e) 直观地展示了差异。

  • 仅视觉: 机器人靠得很近,但经常错过孔位或无限期地推着面板,因为它无法“感觉”到它撞到了墙。
  • Sparsh-skin: 机器人感觉到了接触,调整抓握,滑动插头,并成功将其插入。

Sparsh-skin 策略实现了 75% 的成功率 , 显着优于仅视觉方法 (20%) 和端到端触觉训练 (40%)。

结论与意义

Sparsh-skin 代表了灵巧操作向前迈出的重要一步。通过将自监督学习应用于磁性皮肤传感器,作者将一种有前途但困难的硬件技术转变为机器人技术的实用工具。

主要结论包括:

  1. 泛化性: 在随机“游戏”数据上预训练的模型能够学习适用于许多不同任务 (力、位姿、控制) 的表示。
  2. 效率: 你不需要数百万个标记样本。预训练的皮肤模型可以用极少的数据学习新任务。
  3. 全手感知: 与仅指尖传感器不同,Sparsh-skin 实现了全手感知,这对于操纵大型或复杂物体至关重要。

这项工作预示着未来机器人将拥有触觉的“基础模型”——一种对接触的通用理解,使它们能够拿起小提琴、大锤或充电线,并仅通过触觉以适当的灵巧度处理每一件物品。