机器人操纵通常感觉像是在变魔术。我们看到机器人后空翻或拿起易碎物体的视频,就会误以为这个问题已经解决了。但在真空中挥舞机械臂与在物理世界中进行交互之间存在着巨大的差异。前者需要位置控制 (从 A 点移动到 B 点) ,而后者需要力控制 (与阻力进行交互) 。

想象一下推开一扇沉重的门。你不仅仅是沿着轨迹移动你的手;你会把身体靠上去,在保持平衡的同时施加力量。如果你把这扇门当成空气来对待,你要么推不开它,要么自己会摔倒。这种结合了移动和物理交互的过程被称为移动操纵 (loco-manipulation)

传统上,赋予机器人这种“触觉”需要昂贵的硬件力传感器和复杂的控制理论。但是,如果机器人能够仅利用其内部运动数据来估计和控制力呢?

在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 “Learning a Unified Policy for Position and Force Control in Legged Loco-Manipulation” (学习足式移动操纵中的位置和力统一控制策略) 。 研究人员提出了一种统一的强化学习 (RL) 框架,教导足式机器人在没有外部力传感器的情况下同时控制位置和力。

图 1: 力位统一策略概览,实现了位置跟踪、施力及柔顺交互等多样化行为。

挑战: 缺失的触觉

足式机械臂 (如上图所示带有机械臂的四足机器狗) 提供了巨大的工作空间和高机动性。然而,控制它们是物理学上的一场噩梦。

  1. 耦合动力学: 机械臂的运动会影响腿部的平衡,反之亦然。
  2. 接触丰富型任务: 像擦黑板或打开柜子这样的任务要求机器人施加特定的力。
  3. 硬件限制: 大多数坚固且经济实惠的足式机器人都在末端执行器 (机器人的“手”) 处缺乏精确的力/扭矩传感器。

强化学习 (RL) 的最新进展对移动 (在崎岖地形上行走) 非常有效,但它们通常纯粹关注位置——让机器人的肢体到达特定坐标。当这些只关注位置的机器人遇到接触丰富型任务时,它们往往会失败,因为它们不理解。相反,模仿学习 (通过观察人类来学习) 通常依赖于仅记录轨迹的数据集,遗漏了完成任务所需的关键力信息。

这篇论文的作者通过提出一种统一策略 (Unified Policy) 来弥补这一差距,该策略学习将力和位置共同建模。

核心方法: 基于 RL 的统一控制

这种方法的核心是一个巧妙的数学公式,允许 RL 智能体通过调整位置指令来控制力。这是基于阻抗控制 (Impedance Control) 原理。

数学基础

在经典物理学中,弹簧-质量-阻尼系统描述了物体如何对力做出反应。这种关系通常写为:

阻抗控制公式。

在这里, \(F\) 是合力, \(x\) 是位置,而 \(K\)\(D\)\(M\) 分别代表刚度、阻尼和质量。

研究人员针对机器人的末端执行器对此进行了简化。他们假设为了施加特定的力,机器人只需要瞄准一个“虚拟”的目标位置。如果机器人想用 10 牛顿的力推墙,它不应该瞄准墙表面;它应该瞄准墙的后面。控制器的刚度会在试图修正误差时产生力。

这推导出了目标位置 (\(x^{target}\)) 的计算公式:

根据力指令计算目标位置的公式。

在这个方程中:

  • \(x^{cmd}\) 是位置指令。
  • \(F^{cmd}\) 是机器人应该施加的力。
  • \(F^{ext}\) 和 \(F^{react}\) 代表外部扰动和反作用力。

通过操纵 \(x^{target}\),策略可以在不同模式之间无缝切换。如果 \(F^{cmd}\) 为零,它的行为就像位置控制器。如果 \(x^{cmd}\) 固定但 \(F^{cmd}\) 变化,它的行为就像力控制器。

学习架构

研究人员在强化学习框架内实现了这一数学逻辑。他们不仅仅是编写方程;他们训练了一个神经网络来学习动力学。

如下图 图 2 所示,该架构主要由三部分组成:

  1. 编码器 (Encoder) : 压缩机器人状态 (关节角度、速度) 的历史记录。
  2. 状态估计器 (State Estimator) : 这是一个“虚拟传感器”。它基于本体感觉 (内部身体感知) 预测外部力和机器人的真实状态。
  3. 执行器 (Actor) : 输出实际电机指令的策略。

图 2: 方法概览,展示了 RL 架构、估计器及部署流程。

状态估计器至关重要。由于机器人没有力传感器,它必须通过分析关节的实际运动与应该如何运动之间的差异来推断接触力。如果机械臂被命令向右移动但意外停止,估计器就会意识到“我一定撞到了什么东西”,并计算出反作用力。

控制基座

机器人不仅仅是一条手臂;它是一个四足动物。基座 (身体) 需要移动以支持手臂的推拉动作。研究人员使用速度指令而不是位置指令 (因为机器人基座是在世界中移动,而不是相对于自身移动到固定点) ,将他们的公式扩展到了机器人基座。

使用速度进行基座力控制的公式。

基座的目标速度计算方式与末端执行器位置类似,允许腿部补偿手臂施加的力:

计算目标基座速度的公式。

训练: 模拟触觉

如何在仿真中训练机器人处理力?你必须稍微“折磨”它一下。

在 Isaac Gym 仿真器的训练过程中,研究人员对机器人实施了严格的课程训练。他们随机采样:

  • 位置指令: “移动到这里。”
  • 力指令: “用这么大的力推。”
  • 外部扰动: 他们对机器人施加随机的虚拟力,以模拟风、重物或碰撞。

通过奖励机器人在这些混乱条件下同时跟踪目标位置 (\(x^{target}\)) 和基座速度 (\(v^{target}\)) ,该策略学习到了鲁棒的内部交互模型。

对于那些对机器人看到的具体信号感兴趣的人,观测空间 \(o_t\) 包括重力矢量、角速度、关节状态和先前的动作:

定义观测空间向量的公式。

你也可以在下表中查看用于塑造此行为的具体奖励项和随机化范围。请注意针对碰撞和剧烈运动的惩罚,这鼓励了平滑、安全的操作。

表 A.1: RL 训练中使用的奖励项。 表 A.2: 域随机化参数。

从低级控制到高级技能

这种统一策略最强大的应用之一是模仿学习 (IL)

在标准的 IL 中,人类操作机器人执行任务 (如打开抽屉) ,机器人克隆轨迹。但是如果抽屉很涩,只会克隆位置的机器人就会失败,因为它不知道该用多大的力拉。

研究人员使用他们学到的统一策略作为基础。因为该策略包含一个力估计器 , 他们可以收集包含位置估计力数据的演示。

  1. 遥操作: 人类控制机器人。
  2. 力估计: 低级策略估计任务期间发生的接触力。
  3. 力感知训练: 在此数据上训练高级扩散策略 (Diffusion Policy) 。它学习同时输出位置力指令。

这创建了一个“力感知”模仿策略,它处理接触丰富型任务的能力比仅基于视觉的基线要好得多。

实验与结果

团队在配备 Z1 机械臂的宇树 B2 四足机器人上验证了他们的方法,甚至在 G1 人形机器人上测试了跨形态能力。

1. 虚拟传感器有效吗?

首先,他们检查了“想象”的力是否与现实相符。在仿真中,跟踪误差极小。在现实世界中,他们将估计器与测力计 (一种力测量设备) 进行了对比。

图 3: 跟踪误差评估及现实世界力估计准确性。 图 A.9: 额外的力控制评估图表,展示了测量力与估计力的对比。

图 3(d)图 A.9 所示,估计力 (蓝色/虚线) 相当好地跟踪了测量力 (红色/实线) 。它并不完美——存在“仿真到现实的差距 (sim-to-real gap) ”——但其一致性足以用于操纵。

2. 它能执行有用的技能吗?

统一策略仅通过改变输入指令就能实现几种截然不同的行为:

  • 力控制: 抵抗重力托住 2.5kg 的重物 (图 5a) 。
  • 柔顺性: 机器人基座在被推时会顺从移动,允许人类引导它 (图 5b) 。
  • 阻抗控制: 机器人表现得像弹簧一样,抵抗扰动 (图 5d) 。

图 5: 多样化技能,包括力控制、跟踪及阻抗控制。

3. 现实世界任务成功率

终极测试是在四个任务上将他们的力感知模仿学习与标准的纯视觉基线进行比较:

  1. 擦黑板: 需要持续的压力。
  2. 开柜门: 需要克服磁力锁。
  3. 关柜门: 类似的阻力。
  4. 开抽屉 (遮挡) : 机器人看不到把手,必须通过“感觉”找到它。

图 4: 力感知模仿学习结果及成功率。

图 4(c) 中的结果令人震惊。在“擦黑板”任务中,成功率从 22% (无力感知) 跃升至 58% (有力感知) 。 在“开抽屉 (遮挡) ”任务中,机器人实际上是盲操作,成功率从 30% 上升到 76%

定量结果总结如下:

表 A.3: 力感知策略与非力感知策略的成功率对比。

当机器人仅依靠视觉 (w/o Force) 时,它通常只是勉强擦过黑板或拉抽屉的力气不够。有了统一策略,它能“感觉到”接触并调整其力指令以维持交互。

结论

这篇论文代表了足式移动操纵向前迈出的重要一步。通过创建一个将力和位置视为同一枚硬币两面的统一策略,研究人员在不增加任何新传感器的情况下赋予了机器人触觉。

关键要点:

  • 硬件独立性: 使用标准的本体感觉和 RL 即可实现复杂的力控制,消除了对脆弱且昂贵的力传感器的需求。
  • 统一架构: 单一策略可以处理位置跟踪、施力和柔顺性。
  • 更好的数据: 学习到的估计器允许收集“力感知”演示,显著提高了模仿学习在接触丰富型任务中的表现。

尽管挑战依然存在——特别是在工作空间边缘的力估计准确性以及仿真与现实之间的差距方面——但这项工作为机器人不仅通过看,而且通过“感觉”与我们的世界互动奠定了基础。