引言
想象一下试图用麻木的手指系鞋带。虽然你能看清鞋带,但如果没有张力和纹理这种微妙的反馈,这个任务就会变得笨拙且令人沮丧。这就是目前大多数机器人操作的现状。虽然计算机视觉已经经历了爆炸式增长,让机器人能够高保真地“看”世界,但触觉感官——触觉感知——仍然是一个巨大的瓶颈。
在力和接触至关重要的任务中,例如拉开卡住的抽屉、将钥匙插入锁孔或处理柔软的水果,机器人通常很难操控物体。挑战主要来自两方面: 硬件 (收集可靠的触觉数据很难) 和算法 (教机器人“理解”它的感觉更难) 。
像遥操作 (teleoperation) 这样的标准方法既昂贵又缓慢。被动的人类视频数据 (如 YouTube 视频) 则完全缺乏感官信息。在这篇文章中,我们将深入探讨一篇弥补了这一差距的新论文: exUMI 。
来自上海交通大学的研究人员推出了一套综合系统,包括一个低成本的手持数据采集设备 (硬件) 和一个称为触觉预测预训练 (Tactile Predictive Pretraining, TPP) 的新型学习框架 (软件) 。通过不仅将触觉感知视为静态图像,而且视为由动作预测的动态过程,他们在接触丰富的操作任务中取得了显著成果。

第一部分: 硬件障碍
要从演示中学习,我们需要数据——大量的数据。“通用操作接口” (Universal Manipulation Interface, UMI) 是一个突破性的设备,允许研究人员使用配备摄像头的简易手持夹爪来收集机器人训练数据。然而,最初的 UMI 存在局限性:
- 本体感知漂移 (Proprioception Drift) : 它依赖视觉 SLAM (即时定位与地图构建) 来追踪夹爪在空间中的位置。在特征稀少的房间或快速运动期间,SLAM 经常失效。
- 无触觉: 它是纯视觉的。
- 夹爪状态不确定性: 它使用视觉标记 (ArUco) 来推测夹爪张开的宽度,当标记被遮挡时很容易出错。
进入 exUMI 时代: 可扩展的升级
exUMI 系统是为稳健的野外 (in-the-wild) 数据采集而设计的机器人夹爪“物理孪生”。它通过三次巧妙的工程升级解决了前代产品的缺陷。

1. 基于 AR 的稳健本体感知
exUMI 没有依赖脆弱的视觉 SLAM 算法,而是利用了成熟的虚拟现实 (VR) 追踪技术。研究人员将 Meta Quest 3 的手柄安装在手持设备上。这提供了工业级的 6D 姿态追踪 (位置和旋转) ,即使在摄像头被遮挡或背景是纯白墙壁的情况下也能正常工作——这些场景通常会让视觉追踪系统崩溃。
如下图 3 所示,背景干净或遮挡严重的场景对于传统视觉追踪来说是噩梦。而 AR 系统完全忽略了这些视觉干扰。

2. 精确的夹爪状态
为了确切知道夹爪张开了多宽 (这对抓取至关重要) ,团队摒弃了视觉标记。他们直接在关节中安装了一个低成本的 AS5600 磁性旋转编码器 。

该传感器测量附着在夹爪机构上的径向磁铁的磁场。无论光照条件如何或是否有视觉遮挡,它都能提供关于手指宽度的亚毫米级精度。
3. 视触觉感知
exUMI 的“指尖”不仅仅是橡胶垫;它们是传感器。团队升级了 9DTact 设计——一种基于视觉的触觉传感器。
它的工作原理是: 一个摄像头从内部观察硅胶垫的背面。当硅胶挤压物体时,它会发生变形。内部摄像头将这种变形捕捉为光线/颜色的变化,有效地将“触觉”转化为“图像”。

研究人员通过添加一个斜面来锁定硅胶 (防止在剪切力作用下剥离) 并制作定制模具以确保厚度一致,从而提高了这些传感器的耐用性。

同步: “摇晃”测试
集成这些不同的传感器——GoPro 摄像头、VR 手柄和触觉传感器——引入了一个主要令人头疼的问题: 延迟 (Latency) 。 如果机器人在看到碰撞后 50 毫秒才感觉到碰撞,学习算法就会感到困惑。
exUMI 系统使用了一个巧妙的校准技巧。用户只需在视觉标记前前后挥动设备。系统随后会将摄像头 (视觉) 的轨迹与 AR 追踪器 (运动) 的轨迹对齐,以此找到确切的时间偏移量,实现了误差小于 5 毫秒的同步。

第二部分: 数据优势
有了稳健的硬件,数据采集变得轻而易举。作者收集了海量的人类玩耍数据 (Human Play Data) 。 操作员没有严格遵循脚本,而是在 10 个不同的环境中与 300 多个物体互动——抓取、推动、堆叠和挤压物体。
由于系统可靠,他们收集了超过 100 万帧触觉数据 。 这个数据集的独特之处在于接触丰富度 (Contact Richness) 。 在典型的机器人数据集中,有效的接触 (实际触摸到某物) 发生的时间不到 10%。而在 exUMI 数据集中,活跃的触觉帧占数据的 60% 以上。

如上图所示,与传统遥操作相比,exUMI 允许更高的数据吞吐量,特别是在捕获活跃触觉帧方面。
第三部分: 触觉预测预训练 (TPP)
现在我们来到了论文的核心创新点。我们如何将这一百万帧柔软硅胶的图像转化为一个理解物理学的“大脑”?
研究人员认为,现有的方法存在不足,因为它们像处理标准照片一样处理触觉图像。
- 对比学习 (Contrastive Learning) (在计算机视觉中很常见) 假设如果你裁剪图像,它仍然是同一个物体。但在触觉感知中,裁剪图像完全改变了接触点——它改变了物理特性。
- 视触觉对齐 (Visual-Tactile Alignment) 试图强迫触觉传感器与摄像头视图相匹配。但通常情况下,你看到的 (平坦表面) 和你感觉到的 (光滑质地) 是不同的,这正是拥有触觉传感器的意义所在。
假设: 动作意识
触觉预测预训练 (TPP) 的核心洞察是,触觉是动作的结果。如果不知道手指正在“滑动”,你就无法理解“摩擦”的触觉信号。
因此,模型不应该仅仅对触觉图像进行分类;它应该预测它们。
算法
TPP 作为一个自监督代理任务运行。该模型被训练来回答这个问题: “鉴于我过去的感受,以及我现在移动手的方式,我在未来会感受到什么?”

让我们拆解图 6 所示的架构:
- 输入:
- 触觉历史 (Tactile History) : 过去触觉图像的序列。
- 动作历史 (Action History) : 机器人过去的移动方式。
- 当前图像 (Current Image) : 机器人现在看到的景象 (上下文) 。
- 未来动作 (Future Action) : 机器人计划如何移动。
引擎 (潜在扩散模型) : 系统使用潜在扩散模型 (LDM) 。它接收历史和条件,并试图将随机信号“去噪”为未来触觉帧的清晰预测。
目标: 通过强迫模型根据动作生成未来的触觉帧,网络隐式地学习了接触动力学 。 它学会了向下推会产生扩散模式 (压力) ,而向侧面移动会产生剪切模式 (摩擦) 。
这种预训练产生了一个冻结的触觉编码器 (\(E_T\)) 。 这个编码器随后可以插入到标准的模仿学习策略中,为机器人提供丰富、具有物理意识的触觉理解。
策略学习方程如下所示:

在这里,策略 \(\pi\) 根据机器人状态 \(s\)、触觉嵌入 \(T\) (来自我们新的 TPP 模型) 和视觉输入 \(V\) 决定下一个动作 \(a_{t+1}\)。
实验与结果
这个理论在现实世界中站得住脚吗?研究人员在 Flexiv Rizon 4 机械臂上针对几个困难任务测试了该系统。
模型真的能“预测”触觉吗?
在将其应用于机器人之前,他们检查了 TPP 模型是否能准确地“幻视”未来。

在图 7 中,请看时间轴。模型接收历史数据 (t-1, t) 。然后它预测帧 t+1 到 t+4。“Ground Truth” (真值) 行显示了实际发生的情况,而“Prediction” (预测) 行显示了模型的预测。预测非常接近,准确地预报了接触的开始和释放。
至关重要的是,一项消融研究 (下表 1) 表明,包含动作数据显著降低了预测误差。模型预测得更好,因为它知道手在做什么。

现实世界操作
终极测试涉及仅靠视觉几乎无法完成的任务。
- 拉抽屉 (Pull Drawer) : 机器人必须抓住把手并拉动。抽屉可能是空的 (容易) ,也可能装满了石头 (困难) 。视觉无法看到重量。机器人必须“感觉”阻力来调整力度。
- 孔轴插入 (Peg in Hole) : 插入紧密贴合的滑块需要精确的对齐,而由于遮挡 (机器手挡住了视线) ,摄像头经常会错过这一点。
- 开瓶盖 (Open Bottle) : 旋开瓶盖需要感知摩擦力以便旋转而不打滑。

在上面的可视化中 (图 8) ,你可以看到代表凝胶传感器压力的“热力”图。黄色箭头表示机器人推断出的切向力。
结果: 增强了 TPP 的策略显著优于基线。
- 拉抽屉 (随机重量) : 纯视觉策略几乎每次都失败 (40% 成功率) ,因为它们无法适应沉重的抽屉。TPP 策略达到了 95% 的成功率 。
- 孔轴插入 (插入阶段) : 纯视觉仅达到 50%。TPP 达到了 80% 。
实验证明,TPP 编码器提供了必要的“物理直觉”,以根据阻力和接触几何形状调整机器人的运动。
结论与启示
exUMI 论文代表了向机器人“感官完整性”迈出的重要一步。通过开源一个成本仅为 698 美元的数据采集设备设计,作者正在普及高质量、多模态机器人数据的使用权限。
更重要的是, 触觉预测预训练框架改变了我们要教机器人感觉的范式。我们不再局限于静态的纹理识别,而是正在转向动态接触预测 。 机器人不仅仅是在感觉;它在预判。
关键要点
- 硬件很关键: 你无法从糟糕的数据中学习好的策略。使用 AR 进行追踪和磁性编码器获取夹爪状态确保了 100% 的数据可用性。
- 触觉是动态的: 如果没有运动 (动作) 的上下文,触觉信号就毫无意义。
- 预测即学习: 如果机器人能够预测动作的触觉后果,它就理解了物理交互。
这项工作为机器人能够以人类手部的灵敏度和优雅来处理精细任务——从老年护理到复杂的组装——铺平了道路。
](https://deep-paper.org/en/paper/2509.14688/images/cover.png)