引言

想象一下尝试学习一项新技能,比如弹奏钢琴上的特定曲目。一位优秀的老师不会等到你弹完整首曲子才告诉你“通过”或“失败”。相反,他们会在你弹奏时提供持续的反馈: “和弦按对了”、“这里速度慢了太多”,或者“那个音弹错了,再试一次”。

在机器人领域,这种密集的、信息丰富的反馈至关重要。通常,我们使用 模仿学习 (Imitation Learning) (演示数千次具体的动作) 或 强化学习 (Reinforcement Learning, RL) (在成功时给予奖励信号) 来教导机器人。然而,两者都有一个主要的瓶颈: 扩展性

如果你想让机器人执行一项全新的任务,通常需要收集大量新的人类演示,或者手动编写复杂的数学函数来定义该特定任务的“成功”。这既缓慢又昂贵,还需要专家知识。

但是,如果机器人仅仅通过阅读语言指令 (比如“打开红色的垃圾桶”) ,而不需要人类再次进行物理演示,就能理解新任务呢?

这正是论文 “ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations” 所解决的问题。作者介绍了一个框架,它就像那位“优秀的老师”一样。它从少量数据中学习通用的奖励函数,并利用它仅通过语言描述来训练机器人执行全新的任务。

在这篇文章中,我们将剖析 ReWiND 的工作原理,它用于理解失败的巧妙“视频倒带 (video rewind) ”技巧,以及它如何在模拟和现实世界中超越现有的方法。

问题: 新任务的代价

要理解为什么 ReWiND 是必要的,我们需要看看当前机器人学习的局限性。

  1. 手动设计奖励函数很难: 设计一个能从头到尾引导机器人的奖励函数 (密集奖励) 是很困难的。定义“成功” (门是开着的) 很容易,但要在数学上定义“向把手移动”且不让机器人找到漏洞却很难。
  2. 演示不仅昂贵: 为任务的每一个细微变体 (例如,打开蓝色垃圾桶与红色垃圾桶) 收集人类演示,对于在现实环境中部署机器人来说是不切实际的。
  3. 先前的解决方案存在局限性: 以前尝试使用语言作为奖励的方法通常会“作弊”,要么假设机器人拥有对世界的完美认知 (真值状态) ,要么需要进行大量不适合真实硬件的在线训练。

ReWiND (代表 ReWiND) 提出了一条不同的路径。它利用适量的初始数据来学习一个 奖励模型 (Reward Model) 和一个 策略 (Policy) 。 一旦训练完成,该系统可以接受新的语言指令,并在不需要人类移动一次机械臂的情况下,通过试错来自我教学。

Figure 1: Overview. We pre-train a policy and reward model from a small set of language-labeled demos. Then, we solve unseen task variations via language-guided RL without additional demos.

如图 1 所示,该工作流程将繁重的工作转移到了预训练阶段,使得部署阶段 (学习新任务) 仅需文本提示和机器人自身的交互即可引导。

ReWiND 框架

ReWiND 框架在三个不同的阶段运行。为了便于理解,我们将首先探索核心创新——奖励函数,因为它是其他一切的基础。

Figure 2: (a): We train a reward model on a small demonstration dataset and a curated subset of Open-X, augmented with instructions and video rewinding. (b): We use the trained reward model to label demos with rewards and pre-train a policy. (c): For an unseen task, we fine-tune the policy with online rollouts.

第一阶段: 学习教师 (奖励模型)

ReWiND 的核心是一个神经网络,它接收机器人的视频和文本描述,并输出一个“进度”分数 (从 0 到 1) 。如果机器人完成了文本中描述的任务,分数就会上升。如果失败或什么都不做,分数就保持在低位。

架构

作者设计了一个 跨模态时序聚合器 (Cross-Modal Sequential Aggregator) 。 这听起来很复杂,但让我们结合下面的架构图来分解它。

Figure 10: ReWiND’s Reward Model Architecture. Frozen language and image embeddings are projected to a hidden dimension. These are fed to a transformer that predicts per-timestep rewards.

  1. 冻结的编码器 (Frozen Encoders) : 他们不从头开始训练视觉或语言部分。他们使用了 DINOv2 (一个强大的视觉模型) 和 MiniLM (一个语言模型) 。这使得系统能够利用这些模型从互联网上学到的“常识”知识。
  2. 聚合 (Aggregation) : 这些视觉和文本特征被输入到一个 Transformer 中。该模型通过观察帧序列和指令来判断“取得了多少进展?”

“失败”的挑战

这是论文中最巧妙的部分。要训练奖励模型,通常需要向其展示成功的例子 (演示) 。但要成为一名好老师,模型还需要知道 失败 是什么样子的。

如果你只在完美的演示上进行训练,模型可能会认为机器人的 任何 动作都是好的。但在真实的机器人上收集成千上万次失败的尝试既危险又乏味。

解决方案: 视频倒带 (Video Rewind)

作者引入了一种名为 视频倒带 的数据增强技术。他们选取一段成功的演示视频,并机械地“倒带”其中的部分内容。

想象一段机器人拿起杯子的视频。

  • 正向: 手移动到杯子处,抓住它,并将其举起。 (成功)
  • 倒带: 手移动到杯子处,抓住它……然后创建一段假视频,手 向后 移动离开杯子,实际上就是丢掉了它。

Figure 3: Video rewind. We split a demo at intermediate timestep i into forward/reverse sections. The reverse section resembles dropping the object.

通过反向播放视频 (如图 3 所示) ,他们人为地生成了“失败”轨迹,即机器人撤销了它的进度。然后,他们训练奖励模型预测这些倒带片段的奖励是 递减 的。

这一过程的数学目标包括标准的进度损失 (公式 1) 和这个特定的倒带损失 (公式 2) :

Equation for Rewind Loss.

这迫使奖励模型对机器人失去进度变得敏感,从而为强化学习提供必要的密集反馈。

数据: Open-X

为了确保机器人不仅能理解实验室里的几项任务,作者包含了来自 Open-X Embodied 数据集 的数据。这是一个包含机器人做各种事情的大型多样化数据集。即使其中的具体任务与测试机器人的任务不完全一致,看到这种多样性也有助于视觉和语言编码器更好地泛化。

第二阶段: 离线策略预训练

一旦奖励模型 (教师) 训练完成,我们需要一个学生 (策略) 。

在让机器人在现实世界中尝试新任务 (这很慢) 之前,ReWiND 使用 离线强化学习 (Offline Reinforcement Learning) 。 它利用现有的演示,并使用训练好的奖励模型对其进行重新标注。

Equation 4: Offline reward labeling.

使用一种称为 隐式 Q 学习 (Implicit Q-Learning, IQL) 的方法,机器人学习了一个“基础策略”。可以将其视为教孩子基本的运动技能。他们可能还不知道如何“打开这个特定的红色垃圾桶”,但他们知道如何移动手臂、抓取物体以及与桌子进行一般的互动。

第三阶段: 新任务的在线学习

现在是测试时刻。我们给机器人一个新的指令: “把蓝色和橙色的杯子分开。” 机器人从未见过针对这一具体任务的演示。

  1. 机器人执行其预训练策略 (基于其通用技能进行探索) 。
  2. 奖励模型 观看尝试的视频。
  3. 根据文本指令,奖励模型分配一个奖励分数 (机器人把杯子分开了吗?) 。
  4. 机器人使用这些奖励更新其策略 (在线 RL) 。

Equation 8: Online reward labeling.

因为奖励模型提供了密集的反馈 (例如,“你越来越接近了”) ,机器人调整行为的速度比仅仅在最后收到一个简单的“成功/失败”信号要快得多。

老师真的理解了吗? (实验)

在看机器人能否学会之前,研究人员检查了奖励模型是否真的有效。一个好的奖励模型应该为正确的任务产生高奖励,为不匹配的任务产生低奖励。

混淆矩阵

作者通过给模型输入任务 A 的视频和任务 B 的指令来测试这一点。

Figure 4: Video-Language Reward Confusion Matrix. ReWiND produces the most diagonal-heavy confusion matrix, indicating strong alignment between unseen demos and instructions.

在图 4 中,纵轴代表不同的视频任务,横轴代表不同的语言指令。

  • 一个完美的模型会显示一条明亮的对角线 (任务 A 的视频匹配任务 A 的文本) ,其他地方则是深色。
  • ReWiND (最右侧) 显示出非常清晰的对角线。
  • RoboCLIPVLC 这样的基线显示出更多的“混淆” (水平或垂直条纹) ,这意味着它们难以有效地将不同的任务或指令区分开来。

分析运行过程 (Rollouts)

奖励模型对 部分 成功的有效性也至关重要。下面是一个机器人试图按下按钮但被卡住的例子。

Figure 9: Unsuccessful policy rollout for the “Push the Button” task in Meta-World and its corresponding rewards. ReWiND predicts calibrated rewards that reflect better partial progress.

在图 9 中,观察奖励图表。大多数基线 (LIV, VLC) 给出的奖励都在零附近持平,因为按钮没有被完全按下。然而, ReWiND (右下角) 给出了持续的高奖励。它识别出机器人 就在 按钮处并且正在尝试,即使它还没有点击下去。这种“部分认可”正是让 RL 算法得以学习的关键。

学生学会了吗? (结果)

最后,这个框架真的能教会机器人执行新任务吗?

模拟结果 (MetaWorld)

作者在 MetaWorld 模拟器中的 8 个未见过的任务上测试了 ReWiND。

Figure 5: MetaWorld final performance. ReWiND achieves 79% success rate, significantly outperforming baselines.

图 5 的结果非常明显。

  • ReWiND (栗色线) 达到了近 80% 的成功率
  • 最好的基线 (VLC) 徘徊在 40% 左右。
  • 标准方法如稀疏奖励 (仅从“我完成了吗?”中学习) 几乎完全失败 (接近 0%) 。

现实世界机器人结果

模拟是一回事,但现实世界涉及光照变化、物理噪声和视觉混乱。作者在双臂 (双手) 机器人设置上部署了 ReWiND。

Figure 12: Real World Bimanual Robot Setup with Koch v1.1 arms.

他们测试了 5 个不同的任务,包括需要空间推理的任务 (“把橙色杯子放在红色盘子上”) 和语义理解的任务 (“把水果颜色的物体放进盒子里”) 。

Figure 6: Real-robot RL results. Online RL with ReWiND improves a pre-trained policy by an absolute 56% across all five tasks.

如图 6 所示,预训练策略 (在线学习之前) 只有 12% 的成功率。在使用 ReWiND 进行在线训练后:

  • ReWiND 的成功率提高到了 68%
  • 基线 VLC 仅提高到了 10%。
  • 相对于开始时,ReWiND 将策略提升了 5 倍

这些任务的定性示例展示了机器人处理训练集中没有出现的视觉变化:

Figure 13: Rollouts for 5 tasks used for online RL, showing visual, spatial, and semantic generalization.

ReWiND 为什么会赢? (消融研究)

作者进行了一项“消融研究”,即移除系统的某些部分来看看什么会坏掉。这有助于识别最关键的组件。

Table 2: Ablation Study showing the impact of removing Open-X, Video Rewind, and Instruction Generation.

观察表 2,我们可以看到:

  1. 移除“视频倒带” (- Video Rewind): “策略运行排名 (Policy Rollout Ranking)” 显著下降。这证实了“假失败”视频对于奖励模型区分好坏机器人行为至关重要。
  2. 移除 Open-X (- Open-X Subset): 对未见演示的泛化能力下降。来自互联网的广泛数据对于理解新物体和词汇至关重要。
  3. 移除目标环境数据 (- Target Env Data): 如果 依赖 Open-X,模型无法与特定机器人的具身特性对齐。你需要混合广泛的互联网数据和少量的特定机器人数据。

结论

ReWiND 代表了向可扩展机器人学习迈出的重要一步。通过模仿提供密集、持续反馈的教师,它允许机器人仅使用语言指令学习它们从未见过的任务。

主要的收获是:

  • 语言是一个强大的接口: 我们可以用文本而不是昂贵的演示来定义任务。
  • 合成数据至关重要: “视频倒带”将成功数据转化为失败数据,解决了机器人数据集中缺乏负面样本的问题。
  • 混合数据: 结合特定领域的小数据与大型开源数据集 (Open-X) 可以创建鲁棒的奖励模型。

虽然仍有局限性——目前当机器人把事情搞砸时,必须有人来重置环境——但 ReWiND 让我们离未来更近了一步: 我们可以简单地要求机器人“打扫厨房”,而它能即时学会如何去做。