简介
想象一下,在漆黑一片的房间里,试图将充电线插到床头柜后面的插座上。虽然你看不见插座,但你能成功地调整插头角度,感受端口的边缘,对准并将其插入。你完全依赖于你的触觉。
对于人类来说,触觉是一种无缝、高带宽的感知模态,覆盖了我们的整个手部。然而,对于机器人来说,复制这种能力一直是一个巨大的挑战。虽然计算机视觉经历了爆发式增长,但机器人触觉感知却相对滞后。如今的大多数机器人本质上是“麻木”的,严重依赖视觉来推断接触。
当机器人学家确实实施触觉方案时,他们往往面临两难境地。他们可以使用基于视觉的触觉传感器 (如 GelSight) ,这类传感器能提供接触面的高分辨率图像,但体积庞大、速度慢且仅限于指尖。或者,他们可以使用磁性皮肤 , 这种皮肤轻薄、快速且可以覆盖整只手,但输出的是充满噪声且难以解释的磁信号。
在最近的一篇论文中,来自 Meta FAIR 实验室和卡内基梅隆大学的研究人员推出了 Sparsh-skin , 这是一种旨在弥合这一差距的突破性方法。他们提出了一种自监督学习框架,允许覆盖磁性皮肤的多指机械手通过简单地“玩弄”物体来“学习如何感觉”。

如图 1 所示,Sparsh-skin 接收原始、嘈杂的传感器数据,并将其转换为丰富的“触觉嵌入”——一种压缩的、有意义的触觉表示,可用于复杂的任务,如力估计、操纵杆控制和物体插入。
机器人皮肤面临的问题
要理解为什么 Sparsh-skin 是必要的,我们首先需要看看硬件。研究人员使用的是覆盖着 Xela uSkin 传感器的 Allegro 手 (一种四指机械手) 。这些是磁性触觉传感器。
与拍摄照片的相机不同,这些传感器通过检测磁场变化来工作。在皮肤内部,微小的磁铁悬浮在软性材料中。当皮肤压向物体时,材料变形,导致磁铁移动。下方的磁力计测量磁通量 (磁场的强度和方向) 的变化。
这种方法具有巨大的优势:
- 速度: 它们以 ~100Hz 的频率运行 (比标准相机快得多) 。
- 外形: 它们轻薄且灵活,能够覆盖指尖、指骨 (手指节段) 和手掌。
然而,它们也带来了一些麻烦。信号是高维的 (一只手上就有数百个传感器) , 充满噪声 , 并且受到迟滞现象 (当压力释放时,传感器不会立即归零) 的影响。此外,校准这些传感器以输出精确的力 (牛顿) 极其困难,通常需要昂贵的外部设备。
自监督解决方案
如果我们不能轻易地编写数学公式将磁通量转换为接触信息,就需要机器学习。但训练模型需要数据。在过去,这意味着“监督学习”——收集数千个样本并手动标记它们 (例如,“这个信号等于 2 牛顿的力”) 。
收集整只手的标记触觉数据几乎是不可能的。你无法轻易地在自然操作过程中将力传感器放置在机器人手指和物体之间以获取“真值 (ground truth) ”。
Sparsh-skin 的作者通过使用自监督学习 (SSL) 解决了这个问题。他们没有告诉机器人它感觉到了什么,而是让机器人玩了 4 小时的物体,并设计了一个数学游戏 (目标函数) ,迫使机器人自己理解数据的结构。
核心方法: 深入 Sparsh-skin
论文的核心是 Sparsh-skin 架构 , 这是一个旨在将混乱的磁信号提炼为干净、有用表示的系统。
1. 触觉标记化 (Tokenizing Touch)
第一个挑战是数据格式化。机械手不是静态图像;它是一个动态系统。
- 时间上下文: 单个磁通量快照是模糊的。要理解接触,你需要知道一瞬间前发生了什么。Sparsh-skin 使用 0.1 秒的历史窗口。
- 本体感觉 (Proprioception): 指尖感觉到触摸,如果手指是弯曲的还是伸直的,意味着完全不同的事情。该模型输入触觉信号和传感器的 3D 位置 (运动学) 。
这些输入被切分并处理成“标记 (tokens)”——代表小块信息的向量,类似于大型语言模型将单词分解为标记的方式。
2. 学生-教师架构
学习过程使用了一种称为自蒸馏 (Self-Distillation) 的技术,其灵感特别来自于像 DINO 这样的计算机视觉模型。

如图 8 所示,该架构由两个神经网络组成: 一个学生 (Student) 和一个教师 (Teacher) 。
- 学生网络: 接收触觉数据的“损坏”版本。
- 教师网络: 接收同一数据的干净 (或较少损坏) 视图。
目标是让学生观察混乱、不完整的数据,并预测教师输出的高质量表示。
至关重要的是,教师网络不是通过标准的反向传播训练的。相反,它的权重是学生权重的指数移动平均 (EMA) 。 这为学生创造了一个稳定的学习目标,防止模型作弊或坍缩成平凡解。
3. 掩码: 学习游戏
我们如何“破坏”数据以让学生学习?作者使用了块掩码 (Block Masking) 。

如图 2 所示,系统随机向学生隐藏 (掩盖) 大块传感器数据。例如,它可能会屏蔽食指或手掌上一块区域的数据。
学生必须观察剩余的可见传感器 (例如拇指和手掌) ,并利用其对物理学和手物交互的理解来“产生幻觉”或推断缺失部分的特征。如果模型能够准确预测隐藏部分的表示,就证明它理解了触觉的底层机制。
4. 为什么不是重建?
一种常见的 SSL 方法是掩码自编码 (MAE) , 其中模型试图重建被掩盖区域的精确原始像素或传感器值。
作者发现 MAE 对磁性皮肤效果不佳。磁通量充满了噪声。如果你强迫模型重建精确的噪声信号,它就会浪费能力去学习噪声而不是信号本身。
通过使用自蒸馏 (预测教师的表示而不是原始数据) ,Sparsh-skin 学习的是触觉的语义——“我正压在一个坚硬的边缘上”——而不是磁力计抖动的原始值。
实验与结果
研究人员通过冻结预训练模型并在特定任务上添加小型“解码器”来评估 Sparsh-skin。他们将其与从头开始训练的模型 (端到端) 和其他预训练方法 (BYOL, MAE) 进行了比较。
1. 力估计
模型能否预测施加在皮肤上的 3 轴力 (法向力和剪切力) ? 团队使用高精度力探头压入皮肤来收集真值数据。

结果令人震惊。如下图 10 所示,Sparsh-skin (尤其是微调版本) 与真值力实现了近乎完美的关联。

相比之下,端到端模型 (仅在标记的力数据上训练) 表现非常挣扎。这证明了在随机游戏数据上的预训练教会了模型关于皮肤如何变形的一般原理,使其后来在估计特定力时表现得更好。
2. 操纵杆状态估计
这项任务涉及操纵操纵杆,并仅根据手部的触觉反馈来估计其横滚、俯仰和偏航。

图 12 突出了样本效率 。 Sparsh-skin 模型 (蓝线) 学习该任务的速度比端到端模型 (灰线) 快得多。它需要更少的更新和更少的数据就能达到高性能。在数据收集既昂贵又缓慢的机器人技术中,这种速度是一个改变游戏规则的因素。
3. 物体位姿估计
在这里,机器人必须在手中滑动一个物体,并连续跟踪物体的位置 (x, y) 和旋转。这是一项困难的时间任务,因为物体会滑动和旋转。

图 13 中的图表显示了轨迹跟踪。即使仅在 33% 的可用标记数据上进行训练 (右栏) ,Sparsh-skin 也能以高精度 (超过 90%) 跟踪物体的运动 (Tx, Ty),而端到端模型则经历了灾难性的失败 (准确率降至约 40%) 。
4. 策略学习: 插头插入
最后,作者在一个动态控制任务上测试了系统: 将插头插入插座。这需要整合视觉 (寻找插座) 和触觉 (对齐插头) 。

图 7 中的面板 (e) 直观地展示了差异。
- 仅视觉: 机器人靠得很近,但经常错过孔位或无限期地推着面板,因为它无法“感觉”到它撞到了墙。
- Sparsh-skin: 机器人感觉到了接触,调整抓握,滑动插头,并成功将其插入。
Sparsh-skin 策略实现了 75% 的成功率 , 显着优于仅视觉方法 (20%) 和端到端触觉训练 (40%)。
结论与意义
Sparsh-skin 代表了灵巧操作向前迈出的重要一步。通过将自监督学习应用于磁性皮肤传感器,作者将一种有前途但困难的硬件技术转变为机器人技术的实用工具。
主要结论包括:
- 泛化性: 在随机“游戏”数据上预训练的模型能够学习适用于许多不同任务 (力、位姿、控制) 的表示。
- 效率: 你不需要数百万个标记样本。预训练的皮肤模型可以用极少的数据学习新任务。
- 全手感知: 与仅指尖传感器不同,Sparsh-skin 实现了全手感知,这对于操纵大型或复杂物体至关重要。
这项工作预示着未来机器人将拥有触觉的“基础模型”——一种对接触的通用理解,使它们能够拿起小提琴、大锤或充电线,并仅通过触觉以适当的灵巧度处理每一件物品。
](https://deep-paper.org/en/paper/2505.11420/images/cover.png)