引言

想象一下,你伸手到一个杂乱的包里找家里的钥匙。即使看不见,当你的手指触碰到冰冷的金属时,你立刻就知道找到了。或者考虑一下检查香蕉是否成熟;看颜色会有所帮助,但轻轻捏一下就能告诉你它是软烂还是紧实。

对于人类来说,视觉与触觉 (haptics) 的融合是无缝的。但对于机器人来说,这是一个巨大的挑战。虽然得益于像 ImageNet 这样的海量数据集,计算机视觉能力已经有了爆炸式的增长,但机器人的触觉能力却相对滞后。机器人很难仅凭外观区分塑料苹果和真苹果,或者金属杯和陶瓷杯。它们需要去感知。

主要的瓶颈在于数据。收集触觉数据需要物理交互——机器人必须触摸物体才能“感觉”它。这使得数据收集过程缓慢、昂贵,且通常局限于无法反映真实世界的无菌实验室环境中。

在最近的一篇论文中,康奈尔大学的研究人员介绍了 CLAMP , 这是一个旨在解决可扩展性问题的项目。他们设计了一种低成本的手持设备,允许非专业人士在自己家中众包收集触觉数据。其成果是迄今为止最大的开源多模态触觉数据集,使机器人能够比仅靠视觉更好地识别材料和物体硬度 (顺应性) 。

图 1: 我们展示了用于在真实场景中收集多模态触觉数据的 CLAMP 设备。利用来自 16 个设备的数据,我们建立了 CLAMP 数据集,并训练了用于材料和顺应性识别的模型。我们的模型可以泛化到不同的机器人载体上,并使机器人在现实环境中具备鲁棒的操作能力。

背景: 触觉领域的数据缺口

要理解 CLAMP 的重要性,我们必须审视机器人感知的现状。

视觉是独立于动作的: 你可以从互联网上抓取数十亿张图像来训练视觉模型。数据已经存在。 触觉是依赖于动作的: 要知道一个表面是什么感觉,你必须与它互动。这种感觉取决于你按压的力度、手指滑动的速度以及传感器的温度。

以前构建触觉数据集的尝试面临着三个主要限制:

  1. 缺乏多模态性: 许多数据集只记录了力 (接触有多硬?) 。但人类的触觉是复杂的——我们感知温度 (热感) 、振动 (纹理) 和肢体位置 (本体感知) 。
  2. 缺乏规模: 大多数数据集是由实验室中的单个机器人收集的,物体数量限制在几百个以内。
  3. 缺乏多样性: 实验室物体通常是统一的 (积木、海绵) 。而现实世界充满了复杂的物品,如包装零食、异质工具和家具。

研究人员假设,如果他们能“在野外”——即利用标准化设备在真实家庭中——获取触觉数据,他们就能训练出能够泛化到不同机器人的鲁棒模型。

CLAMP 设备: 面向大众的硬件

为了众包物理数据,你不能给参与者寄送价值 5 万美元的机械臂。你需要一种便宜、便携且易于使用的东西。研究人员开发了 CLAMP 设备 (Crowdsourcing a LArge-scale Multimodal Perception device,众包大规模多模态感知设备) 。

该设备本质上是一个“智能”拾取器。它的制造成本不到 200 美元,重量约为 1.3 磅,使参与者能够轻松地单手使用。

图 2: 设备概览: CLAMP 设备采用改装的拾取器,配备了可捕捉五种触觉模态的传感器。我们的设备设计易于构建、易于携带、易于使用且易于扩展,使非专业用户能够在真实场景中收集触觉数据。

传感器套件

抓取器的“手指”配备了嵌入传感器的吸盘,旨在捕捉五种独特的触觉模态:

  1. 主动热传感 (Active Thermal) : 一个加热到 55°C 的传感器。当它接触物体时,其冷却速率有助于确定物体的导热性 (例如,金属感觉比木头冷,因为它吸热更快) 。
  2. 被动热传感 (Passive Thermal) : 测量物体表面的环境温度。
  3. 力 (Force) : 力敏电阻 (FSR) 测量抓取的硬度或“挤压感”。
  4. 振动 (Vibration) : 接触式麦克风聆听交互的声音 (比如织物的摩擦声与橡胶的寂静声) 。
  5. 本体感知 (Proprioception) : 惯性测量单元 (IMU) 跟踪抓手在抓取过程中的移动和旋转。

该设备包含一个用于计算的 Raspberry Pi Zero 和一个带有图形用户界面 (GUI) 的小屏幕,用于指导用户完成数据收集过程。用户只需拍摄物体照片,说出它是什么,然后抓取五次。

CLAMP 数据集

通过向 41 名参与者部署 16 台此类设备,研究人员积累了一个庞大的数据集。这在触觉领域是前所未有的数字:

  • 5,357 个独特的家居物品。
  • 25,100 次不同的触摸 (试验) 。
  • 1230 万 个单独的数据点。

图 6: 可视化 CLAMP 数据集在各个维度上的多样性

如上面的统计数据所示,该数据集涵盖了广泛的材料分布——从硬塑料和金属到柔软的织物和泡沫。它还捕捉了各种抓取力和速度,这对于训练一个不脆弱的模型至关重要。

为了给这个庞大的数据集打标签,团队使用了自动化管道。他们转录了用户的口头描述 (例如,“这是一个钢杯”) ,并使用 GPT-4o 分析物体的图像和描述,以生成材料 (如钢) 和顺应性 (如硬) 的真实标签 (ground truth) 。

核心方法: CLAMP 模型

收集数据只是战斗的一半。目标是赋予机器人识别材料和顺应性的能力。研究人员开发了 CLAMP 模型 , 这是一种融合视觉和触觉的“视触觉” (visuo-haptic) 架构。

架构拆解

该模型由两个并行编码器组成,处理不同类型的感官输入:

  1. 视觉编码器 (GPT-4o): 机器人拍摄物体的图像。该图像由 GPT-4o 处理以生成材料的视觉估计。然而,视觉可能会被欺骗——一个涂有金属漆的塑料勺子看起来像金属,但实际上不是。
  2. 触觉编码器 (InceptionTime): 这是一个专门为时间序列数据设计的神经网络。它接收来自热传感器、力传感器、麦克风和 IMU 的原始流。它处理这些信号以提取热衰减率或刚度分布等特征。

图 3: 模型概览: 我们提出了 CLAMP 模型,这是一个视触觉模型,融合了来自 GPT-4o [50] 视觉编码器和预训练的基于 InceptionTime [51] 的触觉编码器的输出。

阻抗与本体感知

研究人员设计的一个特定特征是阻抗 (Impedance) 。 它帮助机器人理解物体如何抵抗运动。他们利用力变化与抓手角速度之间的关系计算了这一点:

阻抗计算公式。

在这个方程中,\(F'(t)\) 是力的变化,\(\omega(t)\) 是角速度。如果抓手用力挤压但移动很小 (低速度) ,则阻抗高 (硬物体) 。如果抓手容易移动且力增加缓慢,则阻抗低 (软物体) 。

视触觉融合

视觉和触觉特征被串联 (连接在一起) 并通过多层感知机 (MLP) ——一种标准的神经网络分类器。这种融合允许模型使用触觉数据纠正视觉错误。如果视觉系统说是“金属”,但热传感器说是“温热”且接触麦克风说是“柔软”,模型可以将预测修正为“塑料”或“织物”。

性能对比基线

研究人员将他们的模型与最先进的视觉模型 (如 CLIP 和开放词汇模型) 以及仅触觉的基线进行了比较。

表 2: 我们报告了 CLAMP 数据集上材料识别模型的性能。

结果 (表 2) 显示了一个清晰的层级:

  • 纯视觉模型在材料分类方面非常吃力 (准确率接近 0 或在零样本设置中非常低,因为很难仅从 RGB 像素推断材料) 。
  • 纯触觉模型表现更好 (准确率约 59%) ,证明触觉具有信息量。
  • CLAMP 模型 (视觉 + 触觉) 实现了最高的准确率( 87% ),证明这两种感官是互补的。

关键的是,消融实验 (一次移除一个传感器) 表明, 主动热传感是最关键的触觉模态。没有力,模型无法区分刚性与柔软;没有热感,它很难区分金属与塑料。

实验与结果: 从拾取杆到机器人

机器人技术中的一个主要问题是“仿真到现实” (Sim-to-Real) 或“人到机器人” (Human-to-Robot) 的迁移。一个在人类拿着棍子收集的数据上训练的模型,能被复杂的机械臂使用吗?

研究人员在三种不同的机器人载体上对此进行了测试:

  1. Franka Emika Panda 配备 CLAMP 抓手。
  2. Franka Emika Panda 配备标准平行夹爪 (修改 CLAMP 传感器以适配) 。
  3. WidowX 机械臂配备平行夹爪。

图 4: 我们将 CLAMP 设备上的触觉传感器安装在三种机器人载体上并收集触觉数据。左: 配备 CLAMP 设备的 Franka。中: 配备平行夹爪的 Franka。右: 配备平行夹爪的 WidowX。

他们发现 CLAMP 模型的泛化能力出奇地好。仅需极少量的微调 (仅使用 15% 的机器人特定数据) ,该模型在机器人上的表现就优于纯视觉基线。这表明从众包数据集中学到的基本触觉“物理规律”具有广泛的适用性,无论移动传感器的具体机械臂是什么。

现实世界任务

为了证明其实用性,团队在三个现实场景中部署了该系统:

1. 垃圾分类 (材料识别)

机器人的任务是将垃圾分类为“可回收”或“不可回收”。这对视觉来说通常很难,因为像脏纸、压扁的罐子和塑料包装纸看起来很混乱。

  • 结果: 启用 CLAMP 的机器人成功识别了铝、纸和塑料等材料,成功率达到 90%。

2. 包内取物 (遮挡物体检测)

机器人必须在一个杂乱的包里找到一个金属物体。

  • 挑战: 摄像头无法看到包内部,也无法在物体混杂在一起时区分金属物体和非金属物体。
  • 结果: 纯视觉模型完全失败 (0 次成功取回) 。CLAMP 模型通过“触摸”物体,在 13 次试验中成功识别并取回了金属物体 6 次。

3. 香蕉分拣 (顺应性识别)

机器人需要将成熟的香蕉与过熟的香蕉分开。

  • 挑战: 从视觉上看,带斑点的香蕉可能是成熟的,也可能是过熟的。区别在于内部硬度 (顺应性) 。
  • 结果: 利用力和阻抗数据,机器人可以轻轻挤压水果以确定它是“软” (过熟) 还是“硬” (成熟/生) ,准确率达到 83%。

图 5: 我们在三个现实世界的机器人操作场景中演示了 CLAMP 模型。左: 机器人将可回收物与不可回收物分类。中: 机器人从装有多个物体的袋子中取回金属物体 (黄色方框内) 。右: 机器人区分过熟和成熟的香蕉。

结论与启示

CLAMP 项目代表了机器人感知方法的一个关键转变。它从“以实验室为中心”的数据收集观点转向了分布式、众包模式——类似于互联网如何促成了大型语言模型的发展。

主要收获:

  1. 触觉至关重要: 对于涉及分类、回收或食品处理的操作任务,视觉是不够的。触觉提供了必要的真实依据。
  2. 众包行之有效: 你不需要昂贵的机器人来收集机器人数据。一个 200 美元的手持设备可以生成数百万个高质量的训练点。
  3. 跨载体迁移: 物理学是通用的。一个学习热量如何从钢材传递到手持传感器的模型,只需极少的调整就可以将这些知识应用到机械臂上。

通过弥合视觉与触觉之间的鸿沟,并解决数据稀缺问题,CLAMP 为机器人打开了大门,使其不仅能通过观察世界,还能通过物理交互来操作——安全、智能且高效。未来的工作可能会看到这些传感器集成到更灵巧的手中,使机器人能够执行扣衬衫纽扣或洗碗等复杂任务,在这些任务中,物体的“手感”决定了一切。