引言
想象一下,你伸手到一个黑暗的包里寻找一串特定的钥匙。你看不到它们,但你的手指瞬间就会传来大量数据。你能感觉到金属的冰冷 (温度) 、锯齿状的边缘 (纹理) 、拿起它们时的重量 (本体感觉) ,甚至可能听到它们与其他物体碰撞发出的“叮当”声 (听觉) 。
人类的灵巧性依赖于这种信号的交响。我们不仅仅通过感知皮肤变形来“触摸”;我们将振动、热信号、运动和压力整合成对物理世界的连贯理解。
然而,在机器人领域,触觉感知历来受到很大限制。黄金标准通常是“基于视觉的触觉感知”——本质上是将摄像头放在一块橡胶后面,观察它是如何变形的。虽然这种方法在几何形状感知上很有效,但它遗漏了定义复杂操作所需的丰富振动、剪切力和听觉线索。
Sparsh-X 应运而生,这是旨在填补这一空白的一项新研究成果。它是一个多感官触觉表征模型,不仅观察触觉图像,还能同时“听”到接触、“感觉”到运动加速度并测量压力。

在这篇文章中,我们将深入解析 Sparsh-X 论文。我们将探讨它如何将四种截然不同的模态融合到一个单一的“触觉嵌入”中,它是如何在没有任何人工标签的情况下通过近一百万次交互进行训练的,以及它如何使机器人能够以超人的可靠性执行像插入插头和手中旋转物体这样的精细任务。
硬件: 超越简单的变形
要理解软件,我们首先需要了解硬件。近年来,大多数触觉研究都使用像 GelSight 这样的传感器。它们的简单性令人惊叹: 摄像头观察背光的、可变形的凝胶。当凝胶压在物体上时,摄像头会捕捉到印记。
然而,接触是一个动态事件。以 30Hz 运行的摄像头可能会错过工具滑落的高频振动或探针接触表面的微小冲击。
Sparsh-X 是为 Digit 360 传感器构建的。该传感器是标准触觉指尖的进化版。它在一个指尖中集成了一套“类人”传感器:
- 视觉 (Vision) : 一个超鱼眼摄像头,捕捉弹性体的变形。
- 音频 (Audio) : 两个高频采样 (48kHz) 的接触式麦克风,用于“听”振动。
- 运动 (Motion / IMU) : 一个三轴加速度计,用于检测运动和重力。
- 压力 (Pressure) : 一个气压计式的传感器,用于测量半球体内部的整体气压,这与法向力相关。
研究人员面临的挑战是巨大的: 如何将高分辨率视频、高频音频和简单的标量压力读数同时输入神经网络,并实时理解它们?
核心方法: Sparsh-X 架构
这篇论文的核心贡献是一个能够融合这些异构信号的主干架构。作者提出了一个通过自监督学习 (SSL) 训练的基于 Transformer 的模型。让我们一步步分解这个架构。
1. 输入 Token 化 (Input Tokenization)
最初为文本设计的 Transformer 在“Token (词元) ”序列上运行。第一个障碍是将截然不同的传感器数据转换为统一的 Token 格式。
- 触觉图像: 摄像头画面被裁剪至中心 (鱼眼视图) ,调整大小,并分割成 \(16 \times 16\) 的补丁 (patches) 。这些补丁被展平成向量。
- 音频: 高频声波被转换为对数梅尔声谱图 (声音频谱的视觉表示) 。然后,这些声谱图被像图像一样处理并分割成补丁。
- IMU 和压力: 这些时间序列信号经过加窗处理 (例如,取最后 0.5 秒的数据) 并投影为 Token。
可视化这些输入有助于阐明数据流的差异有多大:

2. 独立处理
一旦完成 Token 化,数据就会进入 Transformer。然而,简单地将所有模态的所有 Token 扔进一个巨大的注意力机制中,计算成本会非常高,且难以训练。
相反,Sparsh-X 采用两阶段方法。在前 \(L_f\) 层 (“单模态层”) ,每种模态都是独立处理的。图像 Token 只关注其他图像 Token;音频 Token 只关注音频。这使得网络在尝试整合感官之前,能够建立对每种特定感官的深刻理解——学习识别图像中的边缘或音频中的特定频率模式。
3. 瓶颈融合 (Bottleneck Fusion)
这是架构中巧妙的部分。在最后的 \(L_b\) 层 (“融合层”) ,模态之间需要进行交流。标准的 Transformer 方法会计算每个 Token 与其他所有 Token 之间的注意力 (二次方复杂度) 。
Sparsh-X 使用 瓶颈注意力 (Bottleneck Attention) 。 模型引入了一小组“融合 Token” (瓶颈 Token) 。
- 来自特定模态 (例如图像) 的 Token 将信息传递给融合 Token。
- 然后,融合 Token 在所有模态之间进行平均或共享。
- 融合 Token 将这种聚合的上下文信息传回给特定模态的 Token。
这就像一个中央交换机。图像不直接与音频对话;它与瓶颈对话,瓶颈总结世界的状态并更新音频流。这保持了模型的高效性,同时确保了感官的深度融合。

4. 自监督预训练
为了训练这个庞然大物,作者不想手动为数百万帧数据标记“这是一个杯子”或“这是一次滑动”。相反,他们使用了自监督学习 (SSL) 。
他们收集了一个包含约 100 万次交互的大规模数据集 (约 18 小时的连续数据) 。他们使用了两种设置: 一只在装满物品的箱子里翻找的机械手 (Allegro) ,以及一个人类用来戳、刮和轻敲各种表面的“手动拾取器”工具。

训练目标是 师生蒸馏 (Student-Teacher Distillation) (类似于 DINO) 。
- 游戏规则: 获取多感官输入并掩盖 (隐藏) 其中的块。将掩盖后的视图输入给“学生”网络,将完整视图输入给“教师”网络。
- 目标: 学生必须预测教师输出的表征。
为了成功,学生必须理解底层的物理规律。如果视觉输入被掩盖,但音频显示了一声巨大的“砰”声,学生必须推断发生了碰撞并相应地更新表征。这迫使模型学习不同感官之间的相互关系。
它真的理解物理吗?
在将模型应用到机器人上之前,研究人员想要验证学到的表征是否真正编码了有意义的物理属性。他们设置了一系列监督基准测试,冻结 Sparsh-X 的权重,仅在其上训练一个小的解码器。
摇晃测试
最有趣的实验之一涉及估计不透明瓶子内的材料和数量。想象一下拿着一瓶水和一瓶沙子。从外面看它们是一样的。只有摇晃它们时你才知道区别。
研究人员设置了一个机器人来摇晃装有药丸、大米、扁豆、水和油的瓶子。

结果: 多模态方法彻底击败了基线。
- E2E (端到端仅图像) : 表现挣扎,因为仅靠视觉变形无法捕捉流体与颗粒的内部动力学差异。
- Sparsh-X (所有模态) : 即使在训练数据极少的情况下,也实现了显著更高的准确率。
下面的图表 (中间面板) 清楚地显示了这一点。紫色线 (多模态 Sparsh-X) 始终优于绿色线 (仅图像) 。

他们还测试了 物体-动作-表面分类 (识别正在触摸什么以及如何触摸) 。下面的混淆矩阵讲述了这个故事。在左侧 (仅图像) ,模型很困惑,预测结果分散各处。在右侧 (Sparsh-X 多模态) ,对角线很强,意味着模型正确识别了动作和表面的复杂组合。

现实世界机器人技术: 策略学习
理解物理固然好,但它能帮助机器人完成有用的工作吗?作者将 Sparsh-X 集成到了两个不同的机器人控制流程中。
1. 精密插入 (模仿学习)
将插头插入插座是一个经典的机器人“难题”。公差非常紧。如果偏离一毫米,就会卡住。
团队收集了机械手插入插头的演示,并训练了一个策略来复制这些动作 (模仿学习) 。他们为策略提供了手腕摄像头视图和 Sparsh-X 触觉嵌入。
为什么多模态在这里很重要:
- 音频: 检测插脚与插座表面的初始接触。
- 压力/图像: 如果对齐错误,感知阻力。
结果非常明显。仅视觉策略几乎每次都失败,因为存在“视觉混叠”——从摄像头的角度看,即使没有对齐,插头看起来也是对齐的。仅图像的触觉策略表现尚可 (55% 成功率) ,但完整的多模态 Sparsh-X 策略实现了 90% 的成功率 。

2. 手内旋转 (仿真到现实的适应)
这可能是论文中技术上最令人印象深刻的应用。任务是在不掉落的情况下使用机械手旋转杯子。
机器人在模拟器 (Sim) 中进行训练。在模拟器中,机器人拥有“特权信息”——它知道杯子的确切摩擦系数、质量和重心。它利用这些信息完美地旋转物体。
然而,当你转移到现实世界 (Real) 时,机器人不知道摩擦力或质量。这就是“Sim-to-Real”差距。
研究人员使用 Sparsh-X 执行 触觉适应 (Tactile Adaptation) 。 他们训练了一个小型适配器网络 (使用 ControlNet) ,该网络接收现实世界的 Sparsh-X 嵌入,并试图估计机器人在模拟器中拥有的那些“特权信息”。本质上,机器人通过感觉物体来实时猜测其摩擦力和质量。
![Figure 6: We introduce real-world tactile adaptation of sim-trained policies via ControlNet [52], where the zero-convolution layer enables gradual fine-tuning of the embedding \\hat{z}_t using Sparsh-X representations.](/en/paper/2506.14754/images/006.jpg#center)
该系统证明非常鲁棒。他们通过以下方式进行了测试:
- 降低摩擦力: 给物体涂层使其变滑。
- 增加质量: 在杯子里放入重物。
在这两种情况下,配备 Sparsh-X 的机器人检测到了变化 (例如,通过 IMU/音频感觉到微小的滑动,或通过图像感觉到变形增加) ,并调整其抓握力以防止物体掉落。

结论与启示
“Sparsh-X” 论文提出了一个令人信服的观点: 为了让机器人实现人类水平的灵巧性,它们需要人类水平的感官。仅仅依靠视觉——即使是触觉视觉——是不够的。
通过结合图像、音频、运动和压力,并在海量无标签交互数据集上进行预训练,Sparsh-X 创建了一个触觉的“基础模型”。它提供了一种密集、丰富的接触表征,使得下游任务更容易学习,并且对现实世界的混乱更加鲁棒。
给学生和研究人员的关键要点:
- 多模态是倍增器: 增加音频和 IMU 不仅仅是渐进式的改进;它允许机器人感知全新类别的物理事件 (如颗粒流动或微滑动) 。
- 自监督是关键: 收集带标签的触觉数据极其缓慢。SSL 允许机器人从“玩耍” (随机交互) 中学习,这是可扩展的。
- 架构很重要: 瓶颈融合技术是在不导致计算成本爆炸的情况下处理多样化数据流的明智方法。
随着像 Digit 360 这样的传感器变得更加普及,我们可以预期机器人操作的标准将从“看着接触”转变为真正地“感觉”它。
](https://deep-paper.org/en/paper/2506.14754/images/cover.png)