引言

想象一下,你正试图将充电线插入桌后的端口。你其实看不清那个端口,或者你的手挡住了视线。你是怎么做到的?你依靠的是触觉 。 你会摸索边缘,对准连接器,然后轻轻摆动,直到感觉到它滑入到位。

这种视觉 (定位大致区域) 与触觉 (执行精确插入) 之间的相互作用对人类来说是第二天性。然而,对于机器人而言,复制这种“双臂组装”能力是一项巨大的挑战。虽然计算机视觉发展迅速,但赋予机器人“感觉”并对物理接触做出反应的能力——特别是同时使用双手——仍然是机器人研究的前沿领域。

主要的障碍在于数据。训练机器人执行精确组装任务通常需要模仿学习 (Imitation Learning,即通过向机器人展示示例来教学) 。但是,收集成千上万个展示人类小心翼翼地将零件摆动在一起的真实世界演示既昂贵又耗时。此外,标准的机器人学习通常会忽略触觉数据,因为触觉极其难以模拟。如果你无法准确模拟触觉,就无法在仿真环境中进行训练 (即仿真到现实的迁移,Sim-to-Real transfer) ,你就只能被困在现实世界中收集数据。

在这篇文章中,我们将深入探讨 VT-Refine , 这是在 CoRL 2025 上发表的一项新研究。这项研究提出了一个强大的“现实到仿真再到现实” (Real-to-Sim-to-Real) 的流程,结合了两个世界的优点: 人类演示的真实性和基于仿真的强化学习 (RL) 的规模化能力。

图 1: VT-Refine 框架概览。该流程从现实世界的演示开始,进入仿真环境进行强化学习微调,最后迁移回现实世界。

如图 1 所示,作者开发了一个系统,机器人可以在其中学习“看”和“感觉”,在数字孪生中磨练其技能,然后以惊人的精度将这些技能部署到现实世界中。

双臂组装的挑战

双臂操作——用双手操作物体——比标准的单臂任务增加了一层复杂性。它需要协调。在组装任务 (如将插头插入插座或将螺母拧在螺栓上) 中,误差容限通常小于一毫米。

仅靠视觉往往是不够的。当机器手接近物体时,手本身会遮挡相机的视线。这就是触觉反馈变得不可或缺的地方。

研究人员指出了当前机器人学习中的两个主要瓶颈:

  1. 数据稀缺: 为接触密集型任务收集真实世界数据的成本很高。此外,人类的演示往往是“次优的”。人类可能在第一次尝试时就完美地插入了零件,但这并不能教会在机器人卡住时如何恢复。
  2. 触觉的仿真到现实差距 (Tactile Sim-to-Real Gap) : 仿真对于扩大训练规模非常有用,但模拟柔软、黏糊的触觉传感器的物理特性计算量大且往往不准确。如果模拟的触觉与真实的触觉不匹配,策略在迁移到真实机器人时就会失败。

VT-Refine 通过创建一个无缝循环来解决这些问题: 从现实世界开始,在高保真触觉仿真中掌握任务,最后返回现实世界。

硬件: 为仿真而设计

这项研究中最明智的决定之一是触觉传感器的选择。许多现代研究人员使用光学触觉传感器 (如 GelSight) ,利用内部摄像头捕捉接触表面的高分辨率图像。虽然这些传感器提供了惊人的细节,但它们极其难以准确模拟。光学传感器的“仿真到现实”差距是巨大的。

VT-Refine 的作者采取了不同的方法。他们设计了一种名为 FlexiTac 的定制压阻式传感器。

图 2: FlexiTac 传感器设置。(a) 带有抓手上传感器的现实世界硬件。(b) 使用弹簧-阻尼模型的仿真模型。

为什么要用压阻式?

如图 2 所示,FlexiTac 传感器由能够测量法向力 (压力) 的传感单元 (触觉像素,taxels) 网格组成。

  • 现实世界: 它使用夹在柔性电路之间的力敏薄膜。其分辨率约为 2mm,虽然与相机相比显得粗糙,但足以检测接触模式。
  • 仿真环境: 由于传感器测量的是法向力,因此可以使用弹簧-阻尼模型 (Kelvin-Voigt 模型) 进行模拟。

这种设计选择具有战略意义。模拟器不需要模拟复杂的光折射 (如光学传感器所需) ,只需计算传感器上的某个点被“挤压”了多少 (穿透深度) ,并应用公式输出力值。这种计算速度快,可进行 GPU 并行处理,最重要的是,它在仿真和现实之间提供了非常小的差距。

仿真引擎: TacSL

为了使“现实到仿真再到现实”中的“仿真”部分发挥作用,环境必须是真实设置的数字孪生。研究人员使用了 TacSL , 这是一个建立在 Isaac Gym 之上的库,允许在 GPU 上进行大规模并行化。

图 9: 触觉仿真流程。详细展示了带有传感器垫的手指 (a) 如何被建模为触觉像素网格 (b),并使用弹簧-阻尼物理模型 (c)。

仿真过程如图 9 所示,工作原理如下:

  1. 建模: 传感器垫被建模为“触觉像素”网格。
  2. 碰撞: 当机器人接触物体时,模拟器计算“相互穿透深度” (\(d\)) ——本质上是物体推入柔软传感器垫的深度。
  3. 物理计算: 它使用弹簧-阻尼方程将该深度转换为力信号: \[f_n = -(k_n d + k_d \dot{d})\mathbf{n}\] 其中 \(k_n\) 是刚度 (弹簧) ,\(k_d\) 是阻尼 (粘度) 。

通过调整这些 \(k\) 值,研究人员可以使模拟传感器的行为与真实的 FlexiTac 传感器完全一致。这种高保真度使得在矩阵 (仿真) 中训练的策略能够在现实世界中发挥作用。

VT-Refine 流程

核心方法包括两个不同的阶段: 现实世界预训练仿真微调

图 3: 两阶段训练过程。第一阶段使用真实数据进行预训练。第二阶段使用仿真通过强化学习进行微调。

第一阶段: 现实世界预训练

过程始于人类。操作员使用遥操作装置执行大约 30 次组装任务。按照深度学习的标准,这是一个非常小的数据集,但这里的目标不是完美——而是初始化。

机器人记录:

  • 视觉数据: 来自以自我为中心的相机的点云。
  • 触觉数据: 指尖的压力读数。
  • 本体感觉: 自身关节的位置。

这些输入被送入扩散策略 (Diffusion Policy) 。扩散模型 (即 DALL-E 等图像生成器背后的技术) 非常擅长对多模态分布进行建模。它们帮助机器人学习运动的总体“流向”。

然而,仅仅通过 30 次演示,机器人在任务上只能做到“还行”。它可以拿起零件并将它们靠近,但往往在精确插入时失败,因为它没有看到足够多的失败案例来知道如何自我纠正。

第二阶段: 仿真微调

这正是 VT-Refine 大放异彩的地方。预训练的策略被迁移到仿真中。现在,机器人可以以比实时快数千倍的速度进行练习。

研究人员使用了强化学习 (RL) , 具体来说是一种称为扩散策略策略优化 (Diffusion Policy Policy Optimization, DPPO) 的方法。

在仿真中:

  1. 机器人尝试组装零件。
  2. 如果成功,它获得奖励 (1) 。如果失败,它什么也得不到 (0) 。
  3. 因为它已经知道了基础知识 (来自第一阶段) ,所以它不会随机乱动。它从目标附近开始。
  4. 通过 RL,它学会了微调其动作。它发现特定的触觉信号 (感觉手指左侧发生碰撞) 应该导致特定的调整 (向右摆动) 。

这个微调阶段注入了有限的人类演示中缺失的“探索性”行为——摆动、调整和力度修正。

统一表示: 点云

为了确保机器人在现实和仿真之间切换时不会感到困惑,输入被转换为统一的格式: 视触觉点云 (Visuo-Tactile Point Clouds)

  • 视觉点: 源自深度相机。
  • 触觉点: 手指上触觉像素的 3D 位置。

通过将触觉数据视为 3D 空间中的几何点 (就像视觉数据一样) ,神经网络学习了空间关系。例如,它了解到“指尖上的点 (触觉) 正与物体上的点 (视觉) 发生碰撞”。这种表示对视觉噪声和光照变化具有高度的鲁棒性。

实验结果

研究人员在 AutoMate 数据集中的五个具有挑战性的任务上评估了 VT-Refine,例如将不同的插头插入插座。他们将该方法与仅视觉基线进行了比较,并分析了仿真微调的影响。

微调有效吗?

结果非常明显。如图 6 所示,视触觉策略 (蓝线) 显著优于仅视觉策略 (橙线) 。

图 6: 显示训练周期内成功率的微调曲线。视触觉策略 (蓝色) 的表现始终优于仅视觉策略 (橙色) 。

注意蓝线的轨迹。它以不错的成功率开始 (归功于现实世界的预训练) ,但随后随着 RL 微调的介入,成功率飙升至 90-100%。这证明机器人正在有效地从其模拟练习课程中学习。

仿真到现实的迁移表现

最终的测试是将策略部署回物理机器人上。

图 7: 不同阶段的成功率比较: 预训练与微调后,分别在仿真和现实环境中。

图 7 强调了一个关键发现: 仿真中的微调提高了现实世界的表现。 看看“预训练 (现实) ”和“微调 (现实) ”之间的跳跃。对于困难的资产 (如 Asset 00081 和 00007) ,成功率大幅跃升。“仿真-现实差距” (从仿真移动到现实时的性能下降) 微乎其微,验证了触觉仿真的高保真度。

在具体数字方面,下方的表 1 详细列出了具体的成功率。对于“视触觉策略 (Visuo-Tactile Policy) ”,我们可以看到大多数物体在微调后的粗体数字在 0.85 - 0.95 范围内,而微调前仅为 0.55 - 0.65。

表 1: 现实世界实验表,显示了视触觉策略在经过 RL 微调后成功率的显著提高。

  • (注: 虽然图像组中的表格描述文本提到“Table 2”,但此处展示的数据对应于论文中讨论现实世界结果的表 1) 。*

定性分析: “摆动”

这种改进在视觉上是什么样子的?

图 8: 策略执行比较。(a) 带有摆动/重新调整动作的成功插入。(b) 机器人卡住或错位的失败案例。

在图 8(a) 中,我们看到了微调后的策略在运行。作者将其描述为“摆动并对接 (wiggle-and-dock) ”机动。机械臂持续协调,感知力量。当零件没有完美对齐时,机器人不会只是更用力地推 (这会导致卡住) ;它会稍微回缩,重新定向,并再次尝试,直到触觉图显示可以顺滑滑入。

将此与图 8(b) 中的基线策略进行对比。没有微调后的触觉感知,机器人会以错误的角度推动,导致卡死。它缺乏修复小错误的“反应”能力。

校准的重要性

不容忽视的一个技术细节是传感器校准。你不能简单地假设模拟器的物理特性与现实世界相匹配。作者使用了“现实到仿真”的校准步骤。

图 4: 传感器校准直方图。仿真 (橙色) 中的传感器读数分布与现实 (蓝色) 读数紧密匹配。

他们戳压真实的传感器,记录数据,然后调整模拟器的刚度参数,直到模拟数据匹配。图 4 显示了传感器读数的直方图。现实 (蓝色) 和仿真 (橙色) 分布之间的重叠非常好。如果没有这种校准,RL 智能体就会学会对现实世界中不存在的力做出反应,导致部署时失败。

结论与启示

VT-Refine 代表了机器人操作向前迈出的重要一步。它成功地弥合了深度学习对数据的渴求与现实世界数据稀缺之间的鸿沟。

主要收获:

  1. 触觉至关重要: 对于精确组装,仅靠视觉是不够的。触觉反馈提供了纠正对齐错误所需的线索。
  2. 仿真扩展技能: 通过使用“现实到仿真”流程,我们可以利用仿真的速度来完善策略,这远超仅靠人类演示所能达到的程度。
  3. 软硬件协同: 选择压阻式传感器不仅仅是硬件决策;这也是一个软件决策。它实现了准确、快速的仿真,这是整个操作的关键所在。
  4. 点云表示: 将视觉和触觉统一为单一的几何表示,简化了学习过程并有助于迁移。

该框架预示着这样一个未来: 机器人可以从人类那里学习粗略的技能,然后在仿真中“做梦”来完善它们,最终掌握目前需要人类灵巧度的复杂、接触密集型任务。无论是组装电子产品还是处理易碎物品,视觉、触觉和仿真的结合都是下一代全能机器人的关键。