引言
在机器人领域,视觉长期以来一直占据主导地位。我们已经教会机器人识别障碍物、分类物体,并在房间内以惊人的准确度导航。但是,当涉及到操控 (manipulation) ——即真正地抓取、握持和移动物体时,仅靠视觉是不够的。试着在手指麻木的情况下系鞋带;即使你紧紧盯着双手,这也极其困难。你需要触觉。
具体来说,你需要感知剪切力 (shear) 。 剪切力是一种横向力,当物体滑过指尖或重力拉扯你手中的重物时,这种力会拉伸你的皮肤。正是这种感觉在玻璃杯真正掉落之前告诉你它快要滑脱了。
多年来,教会机器人利用剪切力一直是一个难题。我们更倾向于在仿真环境中训练机器人 (因为那里既安全又快速) ,但标准的物理模拟器将物体视为刚体。它们模拟接触深度,但无法模拟真实触觉传感器复杂的变形和皮肤拉伸。这就造成了一个巨大的 “仿真到现实的鸿沟 (sim-to-real gap) ” 。 在刚体模拟中训练出的策略在现实世界中会失效,因为感官数据看起来完全不同。
在这篇文章中,我们将深入探讨 SimShear , 这是一篇提出巧妙解决方案的研究论文。研究人员没有试图构建计算昂贵的“软体”物理模拟器,而是利用生成对抗网络 (GANs) 在刚体模拟数据上“幻造”出逼真的剪切效应。结果如何?机器人能够在仿真中学习复杂、精细的操控任务,并在现实世界中完美执行。
背景: 触觉鸿沟
要理解 SimShear,我们首先需要了解硬件和仿真问题。
研究人员使用的是一种基于视觉的触觉传感器 (具体为 TacTip) 。想象一下,一个小摄像头看着一个橡胶圆顶的内部。圆顶内部带有标记点。当圆顶压在物体上时,橡胶会变形,标记点会移动。通过追踪这些标记点,机器人就能“感觉”到接触。
仿真难题
我们希望使用强化学习或深度学习来训练机器人,这需要数千次的尝试。在真实机器人上这样做速度慢且会造成磨损。因此我们更倾向于仿真 。
然而,大多数快速物理引擎 (如 PyBullet) 都是刚体模拟器 。 当模拟传感器接触模拟物体时,物体可能会轻微穿插以计算力,但传感器不会横向“拉伸”。
- 模拟图像: 显示接触几何形状 (深度) ,但看起来完美且未变形。
- 真实图像: 显示接触几何形状加上由于摩擦和阻力 (剪切) 引起的复杂扭曲。
旧方法: 现实到仿真 (Real-to-Sim)
以前的方法试图通过降级真实世界的数据来解决这个问题。它们会获取丰富、复杂的真实图像,并使用滤波器使其看起来像简单的模拟图像。这被称为现实到仿真 (Real-to-Sim) 流程。
问题在于?你丢弃了数据。你丢弃了剪切信息,因为模拟不支持它。这限制了机器人只能执行那些只需要知道哪里有接触,而不需要知道物体如何拉扯或滑动的任务。
核心方法: SimShear
SimShear 流程反其道而行之。它不是降级真实数据,而是升级模拟数据。它的目标是从刚体模拟数据中生成包含剪切力的逼真图像,使机器人能够从“虚假”但高度逼真的感官输入中学习。

如图 1 所示,该流程由五个不同的阶段组成。让我们分解其中最关键的创新: 图像转换 (b) 和训练 (d)。
1. shPix2pix: 在梦境中注入剪切力
这种方法的核心是作者称为 shPix2pix 的神经网络模型。
标准的图像到图像转换模型 (如著名的 pix2pix) 使用 U-Net 架构。它们接收输入图像 (模拟) 并试图生成输出图像 (真实) 。然而,标准的 U-Net 在这里会失效。为什么?因为存在一对多问题 。
在刚体模拟器中,传感器向下压在物体上,无论传感器是静止的还是侧向滑动的,看起来都完全一样。在现实中,这两种情况由于剪切力的存在会产生截然不同的图像。仅看模拟图像的标准网络无法知道该生成哪个版本的“真实”图像。
解决方案: 作者修改了 U-Net 架构以接受一个“提示”。

如图 2 详细所示,shPix2pix 网络接受两个输入:
- 模拟触觉图像: 来自物理引擎的深度图。
- 剪切向量 (Shear Vector) : 从物理引擎中提取的向量,描述横向移动和旋转 (即传感器相对于物体滑动的程度) 。
网络通过卷积层 (编码) 处理图像。然后,就在“瓶颈层 (bottleneck) ” (网络最深处) ,它通过全连接层注入剪切向量。这告诉网络在重建图像 (解码) 时如何扭曲图像。
这允许生成器在刚体模拟图像上“绘制”剪切效应,创建出一种合成图像,看起来与承受横向应力的真实传感器别无二致。
2. 训练 ShearNet
一旦 shPix2pix 模型训练完成,研究人员就可以生成无限量的数据。他们运行模拟,收集刚体图像 + 剪切向量,并通过 shPix2pix 处理它们,创建一个巨大的“合成现实”图像数据集。
他们使用这个数据集来训练一个 ShearNet (具体来说是一个高斯密度神经网络) 。该网络学习观察触觉图像并输出位姿 (Pose) (位置) 和剪切力 (Shear) (力/方向) 。
关键点: 机器人的控制策略完全是在这些合成图像上训练的。在训练期间,它从未见过真实的触觉图像。然而,由于合成图像非常逼真,该策略可以零样本 (zero-shot) 迁移到现实世界 (无需微调) 。
实验与结果
这个复杂的流程真的有效吗?作者通过图像分析和物理机器人任务验证了该方法。
1. 图像转换质量
首先,他们检查了 shPix2pix 是否真的比标准 pix2pix 模型生成了更好的图像。

图 3 提供了一个惊人的视觉对比。
- 第 1 列 (模拟) : 输入是完美的、对称的圆形。
- 第 2 列 (真实) : 地面真值显示出明显的扭曲 (剪切) 。
- 第 3 列 (Pix2Pix) : 基线模型未能捕捉到剪切。它基本上只输出了对称模拟输入的模糊版本。
- 第 4 列 (ShPix2Pix) : 提出的方法准确地复现了真实图像中看到的扭曲和变形。
定量指标支持了这一点,SimShear 的像素误差 (MAPE) 明显更低,结构相似性 (SSIM) 明显高于基线。
2. 预测准确性
接下来,在这个虚假数据上训练的网络能在现实世界中预测剪切力吗?

图 4 比较了预测误差。红线代表完美预测。
- 基线 (左) : 标准 pix2pix 方法 (忽略剪切向量) 在预测剪切力 (y-shear 和 x-shear) 方面惨败。点散布得到处都是;机器人本质上是在瞎猜。
- SimShear (右) : 预测结果紧贴红线。即使网络是在“幻造”的剪切力上训练的,它也能高精度地预测现实世界的剪切力。
3. 现实世界机器人任务
最后,是实际检验的时刻。研究人员将模型部署在两个 Dobot MG400 机械臂上进行协作任务。
任务 A: 触觉追踪
一个机器人 (引导者) 移动物体,第二个机器人 (跟随者) 必须保持其传感器紧贴表面,追踪移动。这需要检测物体是否滑动以修正位置。

在图 5 中,你可以看到螺旋和环形等复杂形状的结果。蓝线 (跟随者) 几乎完美地追踪红线 (引导者) ,误差仅为 1-2 毫米。如果没有剪切感应,随着物体改变方向,机器人很可能会失去接触或按压过猛。
任务 B: 协作协同提升
这是一个更难的任务。两个机器人共同握持一个物体。引导者移动,跟随者必须同步移动以防止物体掉落。这在很大程度上依赖于感知传感器上的重量和阻力 (剪切力) 。

图 6 展示了使用各种物体的设置: 方柱体、刚性蛋体、软体大脑模型和橡皮鸭。该系统的泛化能力令人难以置信。它成功地处理了软体大脑 (其变形方式与训练数据不同) 和重型鸭子 , 在整个轨迹中保持了稳固的抓取。这证明了网络学到的剪切“概念”足够稳健,可以处理它从未见过的物体。
结论与启示
SimShear 代表了机器人灵巧性向前迈出的重要一步。通过承认简单的物理模拟是不够的——并使用生成式 AI 来弥合这一差距——研究人员使机器人能够在无需昂贵的软体模拟计算成本的情况下利用剪切力。
主要收获:
- 剪切力很重要: 对于提升和追踪等动态任务,知道你正在触摸哪里是不够的;你需要感知力。
- Sim-to-Real 适用于触觉: 我们不需要降级真实数据来匹配模拟。我们可以升级模拟来匹配现实。
- 控制回路中的生成式 AI: GANs 不仅仅用于艺术创作;在这里,它们是控制理论流程中不可或缺的一部分,充当物理引擎和现实世界之间的翻译器。
这意味着什么?这是令人兴奋的。如果我们能准确模拟滑移和重量的“感觉”,我们就离机器人像人类一样轻松处理易碎物品 (如鸡蛋或玻璃器皿) 或操作柔性物体 (如布料或线缆) 更近了一步。
](https://deep-paper.org/en/paper/2508.20561/images/cover.png)