简介

在机器人领域,视觉技术往往独占鳌头。我们惊叹于机器人能够“看见”并穿越复杂的环境。然而,当涉及到精细的操作艺术——比如定位工件、组装组件或插入 U 盘时,视觉就有其局限性了。相机往往会受到遮挡 (机器人自己的手经常会挡住视线) 和光照变化的影响。这正是触觉感知变得不可或缺的地方。

为了让机器人能够精确地操纵物体,它必须知道物体在其手中确切的 6D 姿态 (位置和方向) 。这就是所谓的手内姿态估计 (in-hand pose estimation) 。 虽然人类可以本能地做到这一点,但对于机器人来说,这是一个巨大的计算挑战,特别是当处理它们从未见过的物体或从不同角度看起来完全相同的对称形状物体时。

在最近一篇题为 UniTac2Pose 的论文中,研究人员提出了一个突破性的框架,统一了姿态估计、跟踪和不确定性估计。通过利用完全在模拟中训练的基于能量的扩散模型 (energy-based diffusion models) , 该方法允许机器人以高精度“感觉”物体的姿态,从而弥合了虚拟训练与现实世界应用之间的差距。

图 1: UniTac2Pose 的核心是一个基于能量的扩散模型,它统一了触觉姿态估计、跟踪和不确定性,以多接触为条件,并可泛化到未见过的 CAD 模型。

触觉感知的挑战

本研究中使用的触觉传感器 (如 GelSlim 传感器) 能够提供接触面的高分辨率“图像”。虽然这些传感器提供了丰富的几何数据,但它们也带来了特定的挑战:

  1. 局部模糊性 (Local Ambiguity) : 触觉传感器只能看到物体的一小块区域。触摸立方体上的平面表面,无论摸哪里感觉都一样。将这种局部印记映射到全局物体形状是非常困难的。
  2. 模拟到现实的差距 (Sim-to-Real Gap) : 在现实世界中训练机器人既慢又贵。在模拟中训练虽然快,但模拟的物理特性和渲染效果很少能与现实世界完美匹配。
  3. 泛化能力 (Generalization) : 大多数现有方法都是针对特定物体训练的。如果你给机器人一个稍微不同的工具 (一个“类内”物体) ,传统模型就会失效。

以往的尝试使用了回归 (直接预测) 、点云配准 (对齐 3D 点) 或特征匹配。然而,这些方法通常难以处理初始化敏感性问题,容易陷入“局部极小值” (还算不错但并非完全正确的猜测) ,或者无法处理对称物体。

UniTac2Pose 框架

UniTac2Pose 的核心创新在于它从直接预测转变为迭代的、基于能量的方法。系统不再是一次性猜测姿态,而是定义了一个“能量景观”,其中正确的姿态具有最高的能量 (或可能性) 。然后,它使用扩散过程引导随机猜测向该峰值移动。

图 2: 方法概述。(I): 我们首先使用基于有限元的触觉模拟器 XENSIM 生成合成数据集。我们随机采样手内姿态以生成纯模拟的多样化训练数据集。(II): 在推理过程中,能量网络接收现实世界触觉、渲染触觉、物体姿态和扩散时间步长作为输入,并输出姿态的能量和分数。对于姿态估计和跟踪,我们从先验分布中采样 N 个姿态候选者,并通过预过滤、优化和后排序获得最终姿态。对于不确定性估计,我们计算优化后姿态的方差来表示抓取的不确定性。

如图 2 所示,该框架在两个主要阶段运行: 合成数据生成现实世界推理流程

1. 从模拟中学习

研究人员开发了一个纯合成的训练流程。他们使用触觉模拟器 (XENSIM) 生成了数千次虚拟抓取。对于给定的物体网格 (CAD 模型) 和姿态,他们模拟触觉传感器将会看到什么。这创建了一个海量的 (姿态, 物体, 触觉图像) 三元组数据集,且无需进行任何一次现实世界的实验来进行训练。

2. 基于能量的扩散模型

系统的核心是能量网络 (Energy Net) 。 这个神经网络接收提议的姿态、物体的 3D 模型以及观察到的触觉图像作为输入。它输出一个标量“能量”分数,指示该姿态正确的可能性有多大。

至关重要的是,该网络使用去噪分数匹配 (Denoising Score Matching, DSM) 进行训练。目标函数确保能量场的梯度指向真实的姿态。

公式 1: 去噪分数匹配的损失函数

在这里,模型学习去噪一个受扰动的姿态,有效地学习了能量景观的“斜率”。研究人员将能量函数参数化为特征向量与姿态本身的内积:

公式 2: 能量参数化

3. 渲染-比较架构

UniTac2Pose 最巧妙的设计选择之一是渲染-比较 (render-and-compare) 机制。为了弥合模拟与现实的差距,网络不仅仅是盲目地查看触觉数据。

在网络内部,系统获取候选姿态并从 CAD 模型渲染出一个合成的触觉图像。然后,它将这个渲染的图像与机器人观察到的实际现实世界触觉图像进行比较。通过将“想象”的触觉和“感觉”到的触觉都输入到网络中,模型专注于几何一致性,而不是过度拟合特定的视觉纹理。

三阶段推理过程

当机器人实际抓取物体时,UniTac2Pose 通过三个不同的阶段确定姿态。

阶段 1: 预过滤 (Pre-filtering)

系统首先从先验分布中采样大量的随机姿态候选者 (猜测) 。它将这些候选者通过能量网络以获得粗略的分数。排名较低的候选者会立即被丢弃,只留下最有希望的猜测。

公式 7: 预排序条件

阶段 2: 迭代优化 (Iterative Refinement)

这正是扩散模型大显身手的地方。剩余的候选者会被迭代优化。系统计算能量函数的梯度——本质上是在问: “我应该朝哪个方向微调这个姿态,使其更符合触觉数据?”

这个过程被建模为概率流 ODE (常微分方程) 。通过跟随梯度,候选者从充满噪声的猜测“流”向真实的姿态。

公式 8: 用于优化的概率流 ODE

阶段 3: 后排序 (Post-Ranking)

经过优化后,候选者应该紧密地聚集在真实姿态周围。系统使用能量网络最后一次对它们进行评分,并选择能量最高的候选者作为最终估计。

公式 9: 最终姿态选择

超越估计: 跟踪与不确定性

由于该框架是概率性的,它提供的不仅仅是一个单一的坐标输出。

姿态跟踪: 如果物体移动,系统不会从头开始。它使用上一帧的估计作为下一帧的“先验”。这允许大约 10 Hz 的实时跟踪。

不确定性估计: 如果优化后的候选者分布很散,意味着模型很困惑 (高方差) 。如果它们紧密聚集,则模型很自信。这个方差 (\(S^2\)) 是衡量不确定性的直接指标。

公式 16: 基于方差的不确定性计算

这种能力对于操作至关重要。如果不确定性很高,机器人可以决定在不同的位置重新抓取物体以获得更好的读数。

实验结果

研究人员在配备 GelSlim 3.0 传感器的 Franka Panda 机器人上验证了 UniTac2Pose。他们测试了 30 种不同的物体,包括管道、连接器和工具。

可视化差异

基于模拟训练的有效性取决于合成数据与现实的匹配程度。图 5 展示了真实触觉图像 (上) 与模拟图像 (下) 的对比。虽然不完全相同,但几何特征 (接触形状) 的一致性足以让渲染-比较模块有效地工作。

图 5: 模拟和现实世界的触觉图像。

性能对比基准

该方法与标准基准进行了比较:

  • FilterReg: 一种点云配准方法。
  • Regression (回归) : 直接预测姿态的标准深度学习模型。
  • Matching (匹配) : 类似于 Tac2Pose 的特征匹配方法。

使用的指标是 ADD-S , 它考虑了物体的对称性 (对于像垫圈或螺母这样的圆形物体至关重要) 。

图 3: ADD 误差的可视化。我们将具有真实姿态 (红色) 和估计姿态 (黄色) 的物体点云进行可视化。ADD 误差与表 1 中报告的相同。

如图 3 所示,估计的姿态 (黄色) 与真实值 (红色) 非常吻合。定量结果表明,UniTac2Pose 显著优于基准方法,尤其是在全局配准方法经常失效的复杂形状上。

泛化到未见过的物体

也许最令人印象深刻的结果是类内泛化 (intra-category generalization) 。 研究人员在一组“管道”和“连接器”物体上训练模型,然后在模型从未见过的不同管道和连接器上进行测试。

图 4: 类别级模拟到现实评估准确率。对于管道类,我们在前 8 个物体上训练并评估所有 13 个物体。对于连接器类,我们在前 5 个物体上训练并评估所有 7 个物体。我们分别报告对称和非对称物体的 ADD-S (mm) 和 ADD (mm) 误差。较低的 ADD/ADD-S 误差意味着更好的性能。

图 4 显示,“未见过的 (Unseen) ”物体 (粉色背景) 的误差率与“见过的 (Seen) ”物体 (蓝色背景) 相当。这表明模型学习的是“管道”或“连接器”的基本几何属性,而不是死记硬背特定的物体实例。

结论与未来展望

UniTac2Pose 代表了机器人触觉感知领域迈出的重要一步。通过将姿态估计、跟踪和不确定性统一到一个基于能量的框架中,它解决了该领域长期存在的几个问题。

主要收获:

  • 模拟即足够: 如果使用强大的域随机化和渲染-比较架构,完全可以在模拟中训练高精度的触觉模型。
  • 统一框架: 一个模型即可处理估计、跟踪和不确定性,简化了机器人控制栈。
  • 泛化能力: 只要属于已知类别,机器人就有可能在无需重新训练的情况下处理新工具和零件。

局限性: 作者指出的主要缺点是速度。完整的推理过程每个姿态需要 1-2 秒,这对于动态任务来说太慢了 (尽管跟踪模式快得多,可达 10 Hz) 。

未来的工作可能会集中在使用流匹配 (Flow Matching) 等技术来加速扩散过程,这有可能使整个估计流程达到实时速度。随着机器人从结构化的工厂进入非结构化的家庭环境,这种在视觉受限情况下“感觉”和理解物体的能力将变得至关重要。