通用机器人的梦想往往集中在手上。如果我们能制造出一只拥有与人类双手同等灵巧度的机械手,那么我们肯定能通过遥操作 (Teleoperation) 让它做任何人类能做的事情,对吧?这种逻辑多年来一直推动着灵巧遥操作领域的发展。标准的方法直截了当: 捕捉人手的动作,并将其关节对关节地映射到机械手上。这个过程被称为重定向 (Retargeting) 。
但在这种逻辑中存在一个缺陷。机械手不是生物手。它们具有不同的运动学特性、不同的关节限制,而且往往拥有超越人类解剖学的能力 (例如手指可以向后弯曲得更远,或以非人类的方式旋转) 。强迫机器人严格模仿人类,我们实际上反而限制了机器人的潜力。我们将机器束缚在人类的限制中,并在“形态不匹配”中挣扎,这往往导致物体掉落和尴尬的笨拙操作。
在这篇深度文章中,我们将探讨一篇名为**“TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation Types” (TypeTele: 通过灵巧操作类型释放遥操作中的灵巧性)** 的新研究论文。研究人员提出了一种范式转变: 我们不应关注低层次的动作模仿,而应关注高层次的操作类型 (Manipulation Types) 。

如图 1 所示,核心思想是将人类的意图转化为特定的机器人动作“类型”,从而有效地弥合人类认知与机器人执行之间的鸿沟。
直接重定向的问题
要理解为什么 TypeTele 是必要的,我们需要先看看当前的方法为何会失败。大多数现有的遥操作系均利用重定向算法,试图保持人类操作员的手与机械手之间的空间一致性。如果你弯曲食指,机器人也会弯曲食指。
这听起来很直观,但它面临两大障碍:
- 形态差异 (Morphological Differences) : 机械手可能有更长的手指、不同的拇指位置,或者关节数量比人手少。直接映射通常会导致不稳定的抓取 (机器人“认为”它抓住了物体,但物理上并没有) 或自碰撞 (机器人的手指相互撞击) 。
- 潜力的浪费: 全驱动的机械手可以执行人类无法做到的姿势。例如,机器人可能能够在人类手指会骨折的配置下将手指张得更开或以更大的力进行捏取。重定向将机器人限制在只有人手物理上能做到的动作范围内。

图 2 生动地展示了这些失败案例。请注意“无法实现的抓取 (Unachievable Grasping) ”示例——握住那两个球体所需的机器人配置对于人手来说在物理上是不可能完全模仿的。因此,重定向系统永远不会命令机器人这样做,导致抓取失败。
TypeTele 解决方案: 类型引导的遥操作
研究人员提出了 TypeTele , 这是一个摆脱连续姿势模仿的系统。取而代之的是,它引入了灵巧操作类型 (Dexterous Manipulation Types) 的概念。
将“类型”想象为一种预先配置的技能或模板。系统不再告诉机器人“关节 A 移动 5 度,关节 B 移动 10 度”,而是识别出用户想要执行“拧瓶盖”或“提重物”。然后,系统将人手的动作映射到该特定类型的进程 (progression) 上。
该框架分两个主要阶段运行,如下图所示:
- 检索过程: 识别任务所需的正确操作类型。
- 遥操作过程: 使用插值策略控制动作。

1. 灵巧操作类型库
该系统的基础是一个精心构建的操作类型库。作者并非凭空猜测这些类型;他们基于现有的关于人类抓取的研究构建了一个分层分类法,并将其扩展以包含机器人特有的能力。

如图 4 所示,该库分为:
- 单手 vs. 双手: 任务需要一只手还是两只手协调?
- 抓取 vs. 非抓取: 机器人是抓着东西,还是推/按压它?
- 机器人专属类型 (Robot-Exclusive Types) : 这是一个关键的创新。这些抓取方式利用了机器人独特的结构——这些姿势对人类来说是不可能的,但对机器人操作却非常有效。

图 9 提供了这些类型的可视化目录。请注意“机器人专属”类别 (橙色边框) 。例如,“四指平行捏取 (Four-Finger Parallel Pinch) ”利用了机器人将四个手指在平面上与拇指对立的能力——这种几何形状对人类来说很难,但非常适合握持盒子。
为了让计算机可以使用这些类型,每种类型都标注了丰富的元数据: 它适用于什么物体,姿势是什么样的,以及预期的交互方式 (例如,提举 vs. 扭转) 。

2. MLLM 辅助检索
拥有 30 多种类型的库,系统如何知道该使用哪一种?操作员不应该在任务中途还要滚动菜单。
TypeTele 利用多模态大语言模型 (MLLM) , 特别是 GPT-4o,充当智能助手。过程如下:
- 输入: 系统向 MLLM 提供工作空间的当前摄像头视图和用户的口头指令 (例如,“我想倒水”) 。
- 推理: MLLM 将任务分解为多个步骤。
- 选择: 基于物体几何形状和所需的动作 (倒水) ,MLLM 为每只手从库中选择最合适的“类型”。
这使得操作员可以专注于任务,而 AI 在后台处理复杂的运动学设置。
3. 插值映射策略
一旦选择了一种类型 (例如,“粗圆柱抓取”) ,用户如何控制它?这就是 TypeTele 与传统重定向的分歧点。
TypeTele 不是映射绝对位置,而是映射抓取的进程 。 库中的每种类型都定义了两个关键状态:
- 伸展状态 (Stretch State) : 手完全张开或准备好的状态。
- 收缩状态 (Contract State) : 手完全闭合或参与动作的状态。
系统跟踪人手并计算“投影比率”——本质上是人类从张开手掌到握紧拳头的程度。这个比率 (\(p_{ratio}\)) 是使用指尖的矢量位置计算的。
确定该比率的公式为:

这里,\(\mathbf{p}\) 代表指尖位置。该公式将当前人类指尖位置投影到由伸展和收缩状态形成的矢量上,得出一个介于 0 (完全张开) 和 1 (完全闭合) 之间的值。
然后,使用这个比率通过线性插值驱动机器人的关节:

在这个方程中,\(\theta\) 代表机器人的关节角度。机器人根据人类的输入,在其自身预定义的“伸展”和“收缩”关节配置之间平滑移动。
这为什么如此精妙? 它完全绕过了形态不匹配的问题。人类操作员只需要做一个自然的闭合动作。接收到 \(0 \to 1\) 信号的机器人,就会执行一个完美的、稳定的抓取,而这个抓取已经针对其自身的手部几何形状进行了预优化。
通过类型调整进行微调
有时预定义的类型并不完美。系统允许“类型调整”,操作员可以对特定指尖应用偏移。系统使用逆运动学 (IK) 基于所需的变换 (\(T_\Delta\)) 计算新的关节角度 (\(q'\)):

实验设置与结果
为了证明该系统的有效性,研究人员建立了一个严格的测试环境,使用了两个配备 LEAP 灵巧手的 Kinova 机械臂。操作员佩戴 Rokoko 动作捕捉手套和 Meta Quest 3 头显。

他们设计了一系列任务,从简单的“拾取和放置”到像“使用剪刀”和“喷水”这样的高度复杂的动作。
与基线的比较
结果与标准的基于重定向的系统 (“基线”) 进行了比较。如表 1 所示,差异非常明显。

结果的关键要点:
- 成功率: TypeTele 在简单任务中达到了 100% 的成功率 , 并在基线系统完全失败 (0%) 的复杂任务中保持了高成功率 (80%以上) 。
- 复杂任务: 看看“使用剪刀”、“喷水”和“打开大盒子”。基线系统在这些任务上的得分均为 0。重定向根本无法处理所需的精细运动控制或特定的手部几何形状。TypeTele 则有效地处理了它们。
- 效率: 即使在基线系统有效的任务中 (如“收集与存储”) ,TypeTele 的速度也明显更快 (\(T_{all}\) 从 1231秒 降至 616秒) 。
泛化性与多功能性
人们可能会担心使用“类型”会使系统变得僵化。然而,实验表明,单一类型具有惊人的通用性。

如图 7 顶部所示,单一类型 (如按压扳机动作) 可以泛化到不同的物体,如喷雾瓶和乳液泵。图的下半部分展示了“长程 (long-horizon) ”任务,系统成功地在多种类型之间切换,完成了一个多步骤的烹饪序列。
改进自主机器人
遥操作的最终目标通常是收集数据以训练自主 AI 策略。研究人员使用从两个系统收集的数据训练了一个模仿学习策略 (使用一种称为 iDP3 的方法) 。
使用 TypeTele 数据训练的策略明显优于使用基线数据训练的策略。因为遥操作更流畅,抓取更稳定,“老师”提供了更好的范例,从而培养出了更聪明的“学生” (自主机器人) 。

用户体验
除了原始数据,研究人员还进行了用户研究。参与者发现 TypeTele 明显更易于使用。

图 11 中的图表显示,用户感到更自信,并在准确性和响应性方面给系统打出了更高的分数。这很可能是因为“插值映射”掩盖了人手动作的抖动,使机器人感觉更稳定和可预测。
结论: 灵巧性的未来
TypeTele 代表了机器人操作领域向前迈出的成熟一步。通过接受机器人与人类不同的事实——并通过“灵巧操作类型”利用这些差异——研究人员解锁了直接模仿永远无法实现的潜能。
这种方法改变了操作员的角色。操作员不再是挣扎着拉动正确绳索的木偶师,而是成为了指挥家,在发出意图信号的同时,让机器人处理手指放置和力度调节的精湛表演。随着机械手变得越来越复杂,像 TypeTele 这样的系统对于弥合人类指令与机器执行之间的鸿沟将变得至关重要。
](https://deep-paper.org/en/paper/2507.01857/images/cover.png)