引言

机器人技术中最持久的瓶颈之一就是数据。要训练机器人执行有用的任务——比如整理厨房或分类物体——通常需要成千上万次演示,由人类手动引导机器人完成动作。这个过程被称为模仿学习 (imitation learning) ,它缓慢、昂贵且难以扩展。

相反,互联网上充斥着“人类数据”。有数以百万计的人做饭、打扫卫生和操作物体的视频。如果机器人能从这些数据中学习,我们就能一夜之间解决可扩展性问题。然而,这里有一个陷阱: 具身差距 (embodiment gap) 。 人类的手看起来或移动起来都不像机器人的夹爪。此外,人类视频是“无动作的 (action-free) ”——它们包含视觉信息,但缺乏机器人执行任务所需的精确电机指令 (关节角度、扭矩) 。

我们如何跨越这一鸿沟?斯坦福大学的一篇新论文《Action-Free Reasoning for Policy Generalization》提出了一种名为 RAD (通过无动作数据进行推理,Reasoning through Action-free Data) 的新架构。

RAD 的核心洞察简单而深刻: 与其试图将人类手部动作直接映射到机器人动作,不如教机器人学习人类行为背后的推理。通过从人类视频中学习高级逻辑 (例如,“我需要将夹爪移动到杯子上方”) ,并从机器人数据中学习低级电机控制,RAD 创建了一个比以往方法泛化能力强得多的策略。

RAD 通过思维链推理从人类和机器人数据中学习。

问题: “动作标签”赤字

在标准模仿学习中,我们建模一个策略 \(\pi(a|o)\),它根据观察 \(o\) 预测动作 \(a\)。机器人演示非常适合这种方式,因为它们提供了配对的观察 (相机图像) 和动作 (电机指令) 。

然而,人类视频仅提供观察 (\(o\)) ,没有标签 \(a\)。以前解决这个问题的尝试通常分为两类:

  1. 视觉表征学习 (Visual Representation Learning) : 利用人类视频学习更好的视觉编码器 (如 R3M 或 MVP) ,以此理解世界的结构,然后冻结该编码器并使用机器人数据在其之上训练一个小型的策略网络。
  2. 具身动作提取 (Grounded Action Extraction) : 试图伪造动作标签。这涉及跟踪人手 (使用 MediaPipe 或 HaMeR 等工具) ,并将手部轨迹作为机器人末端执行器轨迹的代理。

第二种方法的缺点在于具身差距。人类旋转手腕去抓杯子依赖于腕部的灵活性和手指的灵巧性,而平行夹爪根本不具备这些能力。如果机器人过于刻板地模仿人类动作,往往会失败。

RAD 采取了不同的方法。它假设虽然人类和机器人的动作不同,但推理是共享的。“从侧面接近杯子”这一决定对两种具身形态都是有效的,即使执行它所需的电机指令完全不同。

RAD 方法论

RAD 建立在视觉-语言-动作 (VLA) 模型的最新进展之上。这些模型 (如 OpenVLA) 使用大型语言模型 (LLM) 作为骨干网络来处理视觉输入并输出机器人动作。

研究人员引入了“推理链 (Reasoning Chain) ”——即在最终动作之前的中间文本步骤序列。模型通过自回归方式学习预测这一链条。

架构

RAD 在两个数据集的混合体上训练一个大型 Transformer 模型:

  1. 机器人数据: 包含 \((Observation, Reasoning, Action)\)。
  2. 人类 (无动作) 数据: 包含 \((Observation, Reasoning)\)。

机器人数据教模型如何将推理“接地 (ground) ”到物理运动中。而人类数据——规模可能大得多——教模型如何推理世界、处理新物体以及理解多样化的环境。

目标函数

为了训练这种混合模态模型,RAD 优化了一个联合目标。

对于机器人数据 , 模型最大化推理链 (\(l^1 \dots l^C\)) 和最终动作 (\(a\)) 的似然:

显示机器人数据损失函数的公式,包含动作损失和推理损失的总和。

这里,\(L_{action}\) 是标准的模仿学习损失,而 \(L_{reasoning}\) 确保模型学习导致动作的逻辑步骤。

对于人类数据 , 由于没有地面实况 (ground-truth) 机器人动作,模型仅优化推理部分:

显示无动作数据损失函数的公式,仅关注推理步骤。

通过在两个目标之间共享参数 \(\theta\),从多样化人类数据中学到的推理能力可以直接迁移到机器人的决策过程中。

生成标签: 管道

你可能会问: 基于文本的推理从何而来? 人类视频并没有附带解释主体内心独白的字幕。

作者开发了一个自动化管道,利用预训练的视觉语言模型 (VLA) 和手部追踪工具来合成这些标签。

推理链由几个层级步骤组成:

  1. 任务规划 (Task Plan) : 高级目标 (例如,“拿起控制器”) 。
  2. 子任务推理与子任务 (Subtask Reasoning & Subtask) : 接下来的任务片段是什么? (例如,“移动到控制器”) 。
  3. 移动推理 (Move Reasoning) : 手臂应该如何移动? (例如,“移近物体”) 。
  4. 移动原语 (Move Primitive) : 方向指令 (例如,“向下移动”) 。
  5. 夹爪位置与可见物体 (Gripper Position & Visible Objects) : 空间接地信息。
  6. 动作 (Action) : 最终的机器人电机指令 (仅针对机器人数据) 。

为了给人类视频生成这些标签,该管道使用 HaMeR (一种手部追踪 Transformer) 来检测手部运动。它分析帧与帧之间手部位置的变化以确定原语 (例如,如果手向下移动,原语就是“向下移动”) 。

然后,它将图像、检测到的物体 (通过 Grounding DINO) 和移动原语输入 Gemini (一个强大的 VLM) 。Gemini 被提示去推断 (生成) 能够逻辑连接场景与动作的高级推理。

RAD 管道图示,展示了如何为人类和机器人数据生成推理。

如上图 3 所示,该管道将原始像素转换为丰富的、语义化的“思维链 (Chain-of-Thought) ”数据。这有效地将“无动作”视频变成了“富含推理”的监督数据。

实验结果

研究人员在真实的 WidowX 机械臂上评估了 RAD。他们将其与 ECoT (具身思维链) 进行了比较,后者是一个强大的基线,使用推理但在机器人数据上训练。他们还与 ECoT-GT (夹爪追踪) 进行了比较,后者使用人类数据,但仅从手部位置学习,忽略了高级语言推理。

实验旨在测试三个轴向的泛化能力:

  1. 组合性 (Compositional) : 已知的物体和任务,但组合方式是新的 (例如,将苹果放在盘子上,尽管机器人之前只见过苹果在碗里) 。
  2. 新物体 (New Objects) : 涉及机器人数据集中从未见过的物体的任务。
  3. 新场景 (New Scenes) : 在视觉上不同的环境中执行已知任务。

1. 将人类行为迁移到机器人

RAD 能否纯粹从人类视频中学习一项任务?为了测试这一点,团队在仅存在于人类视频中但缺席于机器人演示数据的任务上训练了机器人。

条形图显示 RAD 在迁移学习中优于基线。

结果 (图 4) 非常显著。RAD (及其特定轴向变体 RAD-A) 的表现始终优于基线。

  • 组合性任务: RAD 的成功率显著高于仅追踪手部位置的基线 (ECoT-GT) 。这表明理解人类移动的原因 (推理) 比仅仅知道他们哪里移动 (追踪) 更具可迁移性。
  • 定性分析: 作者指出,RAD 模型显示出更好的“抓取智能”——例如,从侧面而不是中心抓取大杯子,这是从人类推理痕迹中学到的细微差别。

2. 泛化到完全未见过的任务

机器人技术的圣杯是泛化到既不在机器人数据中也不在人类训练数据中出现的任务。这测试了模型外推其推理逻辑的能力。

条形图显示 RAD 在未见任务上的泛化能力更强。

图 5 凸显了巨大的提升。在“新场景”泛化方面,RAD 从 20% 的成功率 (ECoT 基线) 跃升至 50%。通过在多样化的人类视频上训练,模型学会了忽略干扰物 (如背景中随机的毛绒玩具) 并专注于相关物体,这是纯机器人训练模型通常缺乏的技能。

3. 从“野外”学习

机器人实验室的数据是干净且受控的。真实世界的人类视频是混乱的。作者从“域外”环境——真实的厨房、杂乱的办公桌和看起来完全不像机器人训练环境的桌面——收集了数据。

用于训练的真实世界环境数据示例。

他们发现,添加这种“野外”数据显著提高了性能。

显示跨环境迁移带来的性能提升的表格。

如表 I 所示,在不同环境 (如图 9 中的办公桌设置) 的数据上进行训练,使测试设置的成功率提高了约 15-20%。这证实了从多样化视觉输入中学到的语言推理对背景变化具有鲁棒性。

此外,扩展数据量也很重要。

表格显示增加数据量可提高成功率。

表 II 显示,增加 250 个域外演示将成功率从 4/10 提高到 6.5/10。这是对未来的一个有希望的信号: 仅仅从互联网上抓取更多的人类视频就能产生更聪明的机器人,而无需任何新的机器人远程操作会话。

结论与启示

RAD 框架为机器人技术中的数据稀缺问题提供了一个引人注目的解决方案。通过将模仿目标从动作转移到推理 , 它允许机器人从当今可用的大量非结构化人类视频数据中学习。

给学生和研究人员的关键要点:

  1. 语言是通用接口: 物理动作特定于身体,但基于语言的推理是与具身无关的。它充当了人类与机器人之间的桥梁。
  2. 无动作数据很有价值: 我们不需要关节角度来学习策略。如果我们能从视频中提取“意图”和“计划”,我们就能提高机器人的通用智能。
  3. 管道很关键: RAD 的成功在很大程度上依赖于自动化标签管道 (HaMeR + Gemini) 的质量。随着基础模型的改进,这种合成数据生成将变得更加准确,可能会进一步提升 RAD 的性能。

这项工作表明,下一代通用机器人将不仅仅是由实验室里的远程操作员训练出来的,而是通过“观看”YouTube 并学习我们不仅做什么,还要学习我们为什么这样做来训练出来的。