ReLIC：教会四足机器人像用手一样用腿

引言

想象一下，你正搬着一个又大又重的箱子穿过门口。为了通过，你可能需要用臀部把门顶开，同时用手臂平衡箱子，或者用一只脚把门吸踢开。作为人类，我们要进行这种“移动操作 (loco-manipulation) ”——即同时协调移动和操作——是毫不费力的。我们将肢体视为多功能的工具；腿通常用于走路，但如果任务需要，它瞬间就能变成操作器。

然而对于机器人来说，这种流畅的协调是一个巨大的计算难题。大多数机器人系统将腿严格用于运输，将手臂严格用于操作。要打破这种严格的分配，需要一个控制系统，能够在不摔倒的情况下动态地、即时地重新分配肢体角色。

在这篇文章中，我们将深入探讨 ReLIC (Reinforcement Learning for Interlimb Coordination，肢体间协调强化学习) , 这是由 RAI 研究所、加州大学伯克利分校和康奈尔大学的研究人员提出的一个新框架。ReLIC 允许四足机器人 (具体是装有手臂的 Boston Dynamics Spot) 通过动态混合基于模型的控制和强化学习，执行诸如搬运瑜伽球、用脚关抽屉以及操纵大箱子等复杂任务。

ReLIC 使机器人能够灵活使用肢体，例如同时使用腿和手臂搬运瑜伽球。

如上图 1 所示，核心创新在于灵活性。机器人不仅仅是在“行走”或“抓取”；它正在协调一条手臂 (绿色) 和一条选定的腿 (红色) 来处理物体，同时其余三条腿 (紫色) 处理复杂的平衡和移动物理学问题。

挑战: 为什么移动操作如此困难？

要理解 ReLIC 为何是一项突破，我们首先需要看看为什么这个问题很难。

在传统机器人技术中，我们经常看到一种“分而治之”的方法。如果一个移动操作机器人需要捡起一个物体，它通常会:

行驶到位置 (移动) 。
停下。
捡起物体 (操作) 。
驶离。

这种方法很安全，但速度慢且受限。真正的移动操作——同时做这两件事——引入了动力学耦合 (dynamic coupling) 。手臂施加的力会影响机器人的平衡。反过来，腿部的步态会引入震动和运动，手臂必须对此进行补偿。

如果你加上要求，让一条腿停止行走并开始操作 (例如，关抽屉) ，问题的复杂性就会爆炸式增长。机器人实际上将其拓扑结构从稳定的四足爬行变成了不稳定的三足平衡。以前的方法主要依赖于预定义的启发式规则 (针对特定任务的硬编码规则) 或基于模型的轨迹优化，这需要对环境有精确的了解，并且往往难以应对非结构化世界的混乱现实。

ReLIC 架构

研究人员提出了一个分层框架，将问题分为两个层级: 任务层 (Task Level) (我想做什么？) 和指令层 (Command Level) (我该如何驱动电机来做到这一点？) 。

系统的核心是位于指令层的 ReLIC 控制器 。这并不是一个将摄像头像素作为输入并输出电机扭矩的端到端神经网络。相反，它是一个混合架构，旨在结合两者的优点: 经典控制的精确性和强化学习 (RL) 的鲁棒性。

ReLIC 框架概览，展示了用户输入、机器人状态与双模块控制器之间的交互。

自适应控制器: 双模块的故事

如图 2 所示，控制器由两个相互作用的模块组成:

基于模型的 (MB) 控制器: 该模块优先考虑任务的成功率。它计算分配给操作任务的肢体所需的运动。它通常使用逆运动学 (IK) 来计算如何精确地调整关节角度以达到特定的目标坐标。
RL 控制器: 该模块优先考虑移动的稳定性。这是一个经过训练的神经网络，旨在保持机器人直立和行走，无论操作肢体正在执行什么奇怪的动作。

动态肢体分配

“魔法”在于这两者如何结合。系统使用一个二进制掩码，表示为 \(m\)。

如果特定肢体的 \(m=1\)，则该肢体处于操作模式 。
如果 \(m=0\)，则该肢体处于移动模式 。

发送给机器人电机的最终动作是一个混合组合。操作肢体遵循精确的基于模型的控制器，而移动肢体 (以及整体身体平衡) 由 RL 策略管理。这种解耦允许机器人无缝切换角色。一条腿这一秒是步行者，下一秒就可以是推手。

学会用三条腿走路

该系统最具挑战性的部分是训练 RL 策略。机器人不仅需要学习如何用四条腿走路 (小跑) ，还需要学习在一条沉重的手臂和第四条腿在空中挥舞做其他事情时，如何用三条腿走路 (跳跃) 。

仿真与训练

研究人员在物理模拟器 (IsaacLab) 中训练了该策略。机器人受到各种随机条件的影响——不同的摩擦水平、机器人质量和外部推力——以确保策略的鲁棒性。

RL 智能体接收大量数据流:

本体感知 (Proprioception) : 关节位置、速度和重力矢量。
指令 (Commands) : 机器人应该去哪里。
历史 (History) : 它之前采取了什么动作。

步态正则化

如果你只是告诉 RL 智能体“别摔倒”，它通常会学到奇怪、抖动的行为，这看起来不自然且可能损坏硬件。为了防止这种情况，研究人员引入了特定的步态正则化 (Gait Regularization) 奖励。

步态正则化图表显示了稳定三足移动的脚部接触时序。

如图 10 所示，系统强制执行特定的接触时序。

四足: 它鼓励对称的小跑步态。
三足: 它强制执行“周期性跳跃步态”。当一条腿被抬起进行操作时，其他三条腿必须通过特定的交错模式循环以保持动态稳定性。

这种结构化的学习方法确保了当机器人从四条腿切换到三条腿时，它不会手忙脚乱；而是过渡到一种稳定的、有节奏的跳跃状态。

跨越现实差距: 仿真到现实 (Sim-to-Real)

机器人技术中最大的障碍之一是“仿真到现实”的转移。在干净的模拟环境中完美运行的策略通常在现实世界中会失败，因为真实的电机具有模拟器无法完美建模的摩擦、延迟和扭矩限制。

ReLIC 团队发现，标准的域随机化是不够的，特别是在三足行走的高压场景下。解决方案是电机校准 (Motor Calibration) 。

他们在真实机器人上部署了一个初始策略，收集实际电机的响应数据 (扭矩与速度) ，并将其与模拟进行比较。

扭矩-速度校准图显示了理想模拟限制与真实世界数据之间的差异。

在图 11 中，红线代表模拟器中理想的扭矩限制。蓝点是真实数据。请注意，真实机器人 (蓝点) 经常在简单的红色方框之外运行，或者在接近极限时表现不同。通过将校准后的数据反馈回模拟环境并重新训练，RL 策略学会了尊重硬件的实际物理限制，从而实现了更流畅、更成功的现实世界部署。

与机器人对话: 任务接口

如果你不能告诉机器人要做什么，那么一个强大的控制器也是无用的。ReLIC 支持三个层级的用户交互，从低级控制到高级 AI 推理。

1. 直接目标 (Direct Targets)

这是最直接的方法。操作员使用操纵杆或预定义的轨迹告诉手臂和腿确切去哪里。这对于精确、重复的动作很有用。

2. 接触点 (Contact Points)

在这种模式下，用户在 3D 点云中的物体上指向一个点，然后说“把脚放在这”或“把手放在那”。系统随后生成轨迹以实现该接触。

接触点接口允许用户在环境的 3D 扫描中选择特定的交互点。

3. 语言指令 (Language Instructions)

这是最具未来感的接口。用户发出自然语言命令，如“用手臂和腿关上两个打开的抽屉”。

为了实现这一点，系统使用了一个包含视觉-语言模型 (VLM) 的管道:

分割 (Segment) : 机器人拍摄照片。一个名为 SAM2 (Segment Anything Model) 的模型勾勒出所有物体。
推理 (Reason) : GPT-4o 分析图像和提示。它决定哪个物体是“抽屉”，并推断出手或脚应该推哪里来关闭它。
执行 (Execute) : 这些推断出的点作为目标输入到 ReLIC 控制器中。

视觉-语言管道使用 GPT-4o 来解释场景语义并生成接触点。

实验结果

研究人员通过 12 项旨在测试不同协调方面的多样化任务，将 Spot 推向了极限。

12 项评估任务，范围从操纵瑜伽球到关抽屉和移动椅子。

任务分为:

移动肢体间协调: 移动时搬运大物体 (例如，瑜伽球、运输箱) 。
静态肢体间协调: 用三条腿站立同时进行操作 (例如，垃圾桶、打气筒) 。
足部辅助操作: 腿部辅助手臂的任务 (例如，工具箱、椅子) 。

成功率

结果令人印象深刻。下表将 ReLIC 与两个基线进行了比较: 端到端 RL 策略 (试图一次性学习所有内容) 和模型预测控制 (MPC) 基线。

各任务的成功率。ReLIC (紫色柱) 始终优于 E2E 和 MPC 基线。

ReLIC 实现了 78.9% 的平均成功率。

ReLIC-Direct (深紫色) 表现最好，因为人类操作员提供了最优目标。
ReLIC-Contact 和 ReLIC-Language (浅紫色) 表现稍低，但仍证明了机器人可以自主找出如何行动。
基线 (橙色和棕褐色) 几乎完全失败。MPC 基线无法处理复杂的三足动力学，而端到端 RL 基线未能学会与移动同时进行的精确操作。

灵活协调的可视化

视觉上最有趣的结果之一是观察机器人何时决定将腿用于什么目的。

任务期间肢体使用的时间轴，显示了平衡、操作和协调之间的动态切换。

在图 7 中，我们看到了肢体使用的“时间轴”。

绿色: 手臂操作。
红色: 腿部操作。
紫色: 肢体间协调 (两者) 。
灰色: 平衡。

看一看 甲板箱 (Deck Box, B) 任务。机器人使用手臂，然后切换到用腿撑开盖子，然后协调两者。这种无缝切换——无需机器人重启或停止以更改“模式”——是 ReLIC 系统的标志。

结论

ReLIC 代表了机器人自主性的重要一步。通过承认移动和操作是不同但紧密相连的问题，研究人员设计了一个既鲁棒 (归功于 RL) 又精确 (归功于基于模型的控制) 的系统。

其意义不仅仅在于打开抽屉或搬运箱子。这种“全身智能”对于最终将在我们的家庭和建筑工地上工作的机器人至关重要——在这些非结构化环境中，机器人可能需要用肘部推开门或用脚支撑倒塌的架子。

尽管仍存在局限性——例如依赖外部视觉系统进行语言接口，以及高层规划器的开环性质——但 ReLIC 证明，灵活的肢体间协调不仅是可能的，而且在当前硬件上是实用的。

注: 本博客文章解读了 Zhu 等人 (2025) 的研究论文《Versatile Loco-Manipulation through Flexible Interlimb Coordination》。

引言#

挑战: 为什么移动操作如此困难？#

ReLIC 架构#

自适应控制器: 双模块的故事#

动态肢体分配#

学会用三条腿走路#

仿真与训练#

步态正则化#

跨越现实差距: 仿真到现实 (Sim-to-Real)#

与机器人对话: 任务接口#

1. 直接目标 (Direct Targets)#

2. 接触点 (Contact Points)#

3. 语言指令 (Language Instructions)#

实验结果#

成功率#

灵活协调的可视化#

结论#

引言