机器人能感觉到它们所见之物吗？跨传感器触觉转换

引言

在计算机视觉的世界里，相机通常就是相机。无论你是将罗技网络摄像头换成高端单反相机，其基本的数据结构——代表光线的像素阵列——都保持一致。你可能需要调整图像大小，但一个在 JPEG 图像上训练好的神经网络通常只需极少的调整就能适应这种切换。

然而，在机器人技术中，触觉感知则要混乱得多。触觉传感器的形状和规格千差万别。有些是柔软充气的气泡；有些是刚性的凝胶垫；有些使用内置摄像头跟踪形变，而有些则测量电阻。这种硬件的多样性造成了一个巨大的瓶颈: 一个训练用于使用 Soft Bubble 传感器操作杯子的算法，如果你换成 GelSlim 传感器，很可能会完全失效。因为数据分布的差异实在太大了。

这迫使机器人专家每次更换硬件时都必须从头开始，收集昂贵的新数据集并重新训练模型。但是，如果我们能将一种传感器的“语言”翻译成另一种传感器的“语言”呢？

在论文 “Cross-Sensor Touch Generation” (跨传感器触觉生成) 中，来自密歇根大学和康奈尔大学的研究人员提出了一个生成式 AI 框架来解决这个问题。他们证明，尽管机械结构存在差异，但基于视觉的触觉传感器共享一个共同的几何现实。通过将源传感器的信号转换为目标传感器的“想象”信号，他们允许机器人在从未接受过训练的硬件上执行操作技能。

问题: 触觉感知中的“巴别塔”

要理解这项任务的难度，请看下图。它展示了一个机器人正在拿起一个杯子。

步骤 1: 拿起杯子

当机器人抓住物体时，其传感器会生成反馈信号。如果机器人配备的是 GelSlim 传感器，它会看到高分辨率的纹理。如果使用的是 Soft Bubble，它看到的是分辨率较低、基于深度的形变图。

步骤 2: 跨模态触觉生成

研究人员的目标是 跨模态触觉生成 (Cross-Modal Tactile Generation) 。如上图所示，系统接收真实信号 (源) ，并生成模拟信号 (目标) ，该信号模仿了在完全相同的场景下另一个传感器原本会感觉到的内容。

步骤 3: 通过姿态估计进行杯子堆叠

一旦信号被转换，它就可以被输入到下游任务中——比如上图所示的姿态估计——从而允许机器人成功地堆叠杯子，即便它使用的是从未见过当前安装在机器人手上的物理传感器的模型。

核心方法: 两条转换路径

为了弥合传感器之间的鸿沟，作者提出了两种截然不同的架构。这两种方法的选择取决于数据的可用性:

触觉到触觉 (T2T): 一种直接转换方法，需要配对数据。
触觉到深度再到触觉 (T2D2): 一种利用深度作为桥梁的间接方法，不需要配对数据。

图 2: 在触觉传感器之间转换信号。流程概览。

1. 触觉到触觉 (T2T): 端到端方法

第一种方法 T2T 将该问题视为图像到图像的转换任务，类似于使用 AI 将草图转换为逼真的照片。

研究人员收集了一个数据集，在这个数据集中，机器人使用两个不同的传感器在完全相同的物理位置探测物体。利用这些 配对数据 , 他们训练了一个 潜在扩散模型 (Latent Diffusion Model) 。该模型接收来自源传感器 (例如 GelSlim) 的读数，对其进行编码，并引导扩散过程以“构想”出目标传感器 (例如 Soft Bubble) 的对应读数。

由于这种方法是在配对样本上进行端到端训练的，因此它在捕捉细粒度细节方面非常准确。然而，收集完美配对的触觉数据在机械操作上既困难又耗时，需要将不同的传感器精确对准在同一个机器人手臂上。

2. 触觉到深度再到触觉 (T2D2): 几何桥梁

为了克服收集配对数据的负担，作者引入了 T2D2 。这种方法依赖于一个关键的洞察: 虽然传感器产生的图像看起来不同，但接触的物理 几何形状 是绝对的。

T2D2 使用 深度 (Depth) 作为中间表示 (IR) 。该流程包含三个步骤:

步骤 A: 深度估计

首先，模型从源触觉图像预测深度图。作者为此采用了 Depth Anything V2 模型。他们使用尺度不变对数损失 (scale-invariant logarithmic loss) 对其进行训练，以确预测的几何形状与现实相符:

尺度不变对数损失公式

这里，\(D_S\) 是真实深度值 (ground truth) ，\(D'_S\) 是估计的深度。这使得模型能够提取压入传感器的物体的 3D 形状。

步骤 B: 跨传感器深度适配

这是技术上最复杂的一步。深度图是特定于传感器的相机视角和视场角的。为了转换它，系统必须将深度信息从源传感器的坐标系“移动”到目标传感器的坐标系中。

首先，他们定义了一个有效像素 (实际接触物体的像素) 的掩码:

有效像素掩码公式

接下来，他们利用源传感器的相机内参 (\(K_S^{-1}\)) 将这些像素反投影为 3D 点云 (\(\mathcal{P}_T\)) ，并将它们转换到目标传感器的坐标系中 (\(T_{S \to T}\)) :

点云变换公式

最后，这个 3D 点云被重新投影回目标传感器的 2D 图像平面，以创建一个新的、适配后的深度图 (\(D''_T\)) 和一个新的接触掩码 (\(M''_T\)) :

目标深度投影公式

目标掩码生成公式

这一过程从数学上确保了即使目标传感器具有不同的尺寸或相机角度，几何形状也能得到保留。

图 6: 显示坐标系的传感器对齐图

如上面的对齐图所示，坐标变换必须考虑 GelSlim 和 Soft Bubble 等传感器之间的具体物理差异，包括旋转和不同的接触面积。

步骤 C: 深度到触觉生成

一旦深度图适配了目标传感器的规格，扩散模型就会生成最终的触觉图像。由于该模型仅学习将深度转换为特定传感器的触觉，因此它不需要来自其他传感器的配对数据。

实验结果

研究人员在三种不同的传感器上评估了他们的模型: GelSlim (高分辨率、刚性) 、Soft Bubble (柔性、基于深度) 和 DIGIT (低成本、紧凑) 。

定性表现

视觉效果非常显著。在下图中，你可以看到模型在 GelSlim 和 Soft Bubble 输出之间进行转换的能力。

图 3 和 4: T2T 和 T2D2 的定性结果

上图 (图 3): T2T 模型 (直接转换) 生成的图像清晰准确，与真实值 (GT) 非常相似。
下图 (图 4): T2D2 模型 (基于深度) 成功捕捉到了整体接触形状，但丢失了一些高频纹理信息。这是意料之中的，因为中间的深度表示充当了一个瓶颈，过滤掉了细微的表面细节。

为了测试鲁棒性，团队使用了一组多样化的工具进行数据收集，以确保模型能够泛化到训练期间未见过的物体形状。

图 7: 展示已见和未见几何形状的数据集工具

定量分析

研究人员使用标准图像指标 (PSNR, SSIM) 和触觉特定指标 (姿态估计误差) 来衡量成功率。

图像质量: T2T 始终优于 T2D2。直接转换保留了更多的视觉保真度。
几何精度: 当从 GelSlim \(\rightarrow\) Soft Bubble 转换时，误差较高。这是因为 Soft Bubble 的物理尺寸更大。模型必须对较小的 GelSlim 传感器甚至没有接触到的区域进行“外绘 (outpaint) ”或臆造触觉数据。相反，从 Soft Bubble \(\rightarrow\) GelSlim 则更容易，因为它主要涉及裁剪和细化现有数据。

下游机器人任务

对这些生成图像的终极测试是机器人是否真的可以使用它们。

1. 孔轴插入与叠杯子 (Peg-in-Hole & Cup Stacking): 团队采用了一个仅在 Soft Bubble 数据上训练的策略，并将其部署在配备 GelSlim 的机器人上。使用 T2T 将实时的 GelSlim 图像转换为“伪”Soft Bubble 图像，机器人成功地估计了物体姿态并完成了任务。T2T 方法的成功率几乎与使用原生传感器相同。

2. 弹珠滚动 (行为克隆) : 这项任务涉及将弹珠滚动到传感器的中心。策略是在 GelSlim 数据上训练的。然后机器人被切换为使用 DIGIT 传感器。

图 5: 弹珠滚动策略迁移

使用 T2D2 流程，系统实时将 DIGIT 读数转换为 GelSlim 读数。正如上图中的时间轴所示，该策略 (从未见过 DIGIT 数据) 成功地将弹珠引导到了中心。这种“零样本 (zero-shot) ”迁移凸显了基于深度方法的强大之处: 你只需校准其深度，即可插入一个新的传感器 (如 DIGIT) ，而无需收集针对现存所有其他传感器的配对训练数据。

结论与启示

这项研究朝着统一机器人领域碎片化的硬件格局迈出了重要一步。通过将触觉感知视为一个几何问题，作者证明了我们并不总是需要为新的身体重新训练我们的大脑 (或算法) 。

T2T 证明，如果有足够的配对数据，我们可以实现适用于姿态估计等精确任务的高保真转换。
T2D2 证明，我们可以通过几何实现模块化。通过使用深度作为通用语言，我们可以以最小的努力将新传感器集成到现有的生态系统中。

对于学生和研究人员来说，这项工作表明，机器人触觉的未来可能不在于单一的“完美”传感器，而在于允许所有传感器相互理解的生成模型。

引言#

问题: 触觉感知中的“巴别塔”#

核心方法: 两条转换路径#

1. 触觉到触觉 (T2T): 端到端方法#

2. 触觉到深度再到触觉 (T2D2): 几何桥梁#

步骤 A: 深度估计#

步骤 B: 跨传感器深度适配#

步骤 C: 深度到触觉生成#

实验结果#

定性表现#

定量分析#

下游机器人任务#

结论与启示#

引言