强化学习 (Reinforcement Learning, RL) 赋予了机器人一些不可思议的能力,从能做跑酷的四足机器人到能击败人类冠军的无人机。然而,在这个流程中存在一个显著的瓶颈: 奖励函数。设计一个能明确告诉机器人如何执行复杂任务的奖励函数需要巨大的工程投入。随着任务难度的增加,数学计算也变得愈发混乱。

无监督技能发现 (Unsupervised Skill Discovery, USD) 承诺了一条出路。理想情况下,USD 允许智能体在环境中自由探索,并在没有任何任务特定奖励的情况下自主学习多样化的“技能库”——如行走、翻滚或跳跃。问题在于?通过这种方式训练出来的机器人通常表现得像吃了糖兴奋过头的幼儿。它们的动作虽然多样,但往往不稳定、不安全,且无法控制或部署在真实硬件上。

在这篇文章中,我们将深入探讨一个名为 “Divide, Discover, Deploy” (D3) 的框架。这项研究提出了一种方法,旨在为无监督学习的混乱带来秩序。通过将机器人的状态分解为逻辑因子,基于机器人的形态应用对称性,并引入用于安全性的“风格 (style)”先验,该方法允许四足机器人完全在仿真中学习独特、安全且可部署的技能,然后在现实世界中实现零样本 (zero-shot) 执行。

“万金油”式学习的问题

标准的 USD 方法通常将机器人的状态和潜在“技能” (代表特定行为的向量) 视为不可分割的整体。它们试图最大化整个状态与整个技能向量之间的互信息。

虽然这鼓励了机器人做出某种可区分的行为,但往往导致行为的纠缠。例如,机器人可能会学习一种将“向前移动”与“原地打转”结合在一起的技能。如果你只想让机器人向前移动,你做不到,因为该特定动作与旋转绑定在了一起。此外,在没有安全约束的情况下,“最大化多样性”往往意味着“最大化搞坏变速箱的几率”。

D3 背后的研究人员通过提出这个问题解决了难点: 如果我们对机器人状态的不同部分进行区别对待会怎样?

图 1: 方法概览。智能体的状态 s 由用户分解为 N 个组件,每个组件配对一个潜在技能 z_i 和一个从 METRA 或 DIAYN 目标中选择的内在奖励 r_i。外在奖励 r_style 旨在促进安全行为。因子权重 \\lambda 允许智能体在训练期间优先考虑某些因子。策略 \\pi 使用带有对称性增强的同策略 RL (on-policy RL) 进行训练,以发现结构化、感知形态的技能。由此产生的技能具有可解释性、鲁棒性,并可由人类操作员指挥。

如上图 1 所示,这里的核心理念是模块化。状态空间被分解 (因子化) ,而不是让一个巨大的神经网络试图弄清楚所有事情。机器人针对其位置、方向和高度学习不同的技能,并使用适合各自的算法。

背景: USD 的现状

在剖析该方法之前,我们需要了解工具箱中的工具。D3 框架利用了两种流行的 USD 算法,发挥了各自的特长。

1. DIAYN (Diversity Is All You Need)

DIAYN 针对可区分的技能进行优化。它使用一个判别器,尝试根据状态 \(s\) 猜测机器人正在执行哪种技能 \(z\)。如果判别器能轻易猜出技能,说明机器人在让该行为变得独特方面做得很好。

  • 最适合: 区分度比距离更重要的有界状态空间,如方向朝向

2. METRA (Metric-Aware Abstraction)

METRA 侧重于覆盖率。它最大化机器人在学习到的潜在空间中行进的距离。本质上,它是在告诉机器人: “选一个方向,然后尽可能朝那个方向走远点。”

  • 最适合: 目标是覆盖地面的无界状态空间,如平面位置 (\(x, y\) 坐标) 。

核心方法: 分解 (Divide)、发现 (Discover)、部署 (Deploy)

D3 框架引入了一种分离关注点的结构化学习方法。让我们一步步拆解其架构。

1. 因子化与算法分配

机器人的状态空间 \(S\) 被分割成 \(N\) 个用户定义的因子。对于四足机器人,这些可能是:

  1. 平面位置 (\(x, y\)): 无界。
  2. 转向速率 (Heading Rate): 有界。
  3. 基座高度 (Base Height): 有界。
  4. 基座横滚/俯仰 (Base Roll/Pitch): 有界。

至关重要的是,作者为每个因子分配了特定的 USD 算法。他们发现 METRA 在位置因子上表现优异 (鼓励机器人探索房间) ,而 DIAYN 更适合朝向等因子 (鼓励不同的转弯角度) 。

2. 目标函数

智能体被训练以最大化一个复合目标函数。它看起来很复杂,但实际上只是不同目标的加权和:

总目标函数的公式,将内在奖励和风格奖励相加。

以下是各项的含义:

  • \(\lambda_i\): 特定因子的权重。
  • \(I_{\text{USD}_i}\): 因子 \(i\) 的内在奖励 (来自 METRA 或 DIAYN) 。
  • \(J_{\text{style}}\): “风格”奖励 (下文详述) 。

策略 \(\pi\) 接收状态、期望的技能向量 \(z\) 和因子权重 \(\lambda\) 作为输入。这这就构成了一个多目标强化学习设置。

图 2: 提出的技能发现算法。智能体收集转换数据,并接收结合了每个因子的内在奖励和风格奖励的总奖励。

如图 2 所示,系统运行一个同策略 RL 循环。机器人尝试一个动作,系统分别为每个因子计算奖励。例如,如果机器人向前移动但没有转弯,它可能会从“位置”因子获得高分,但从“朝向”因子获得低分。这些奖励被聚合起来用于更新策略。

3. 风格因子: 安全第一

这里最大的创新之一是风格因子 (Style Factor) 。 在纯粹的 USD 中,没有任何机制激励安全性。风格因子是一个特殊的“第零个”技能因子,它并不试图发现新行为。相反,它是一个外在奖励信号,旨在鼓励:

  • 平滑的关节速度 (无抖动) 。
  • 正确的足部接触 (不拖脚) 。
  • 当没有指令其他技能时保持静止。

这充当了一种“默认”行为。由于策略将权重 \(\lambda\) 作为输入,用户可以调高风格因子的权重让机器人表现得保守,或者调低权重以鼓励激进的探索。

4. 对称性增强

四足机器人是对称的。它们有左侧和右侧 (矢状对称) 。如果机器人知道如何左转,理论上它也知道如何右转——只需要镜像肌肉运动即可。标准的 RL 不知道这一点;它必须将“左”和“右”作为两个完全分离的技能来学习。

D3 强制策略尊重这些物理对称性。然而,这在潜在技能方面变得棘手。如果你镜像机器人的状态 (左右翻转) ,你也必须镜像技能向量 \(z\)。

对于 METRA (几何技能) ,这很简单: 如果技能向量指向“左”,镜像后的技能就指向“右”。

对于 DIAYN (分类技能) ,作者使用了一种称为拉丁方阵 (Latin Square) 的数学结构来排列技能索引。这确保了对称性的数学群结构在技能空间中得以保留。

矩阵变换展示了如何排列技能向量以满足对称性约束。

这个矩阵确保了如果你翻转状态,技能向量会以一致的方式进行变换。这极大地缩小了算法的搜索空间,并导致更清晰、更可解释的动作。

实验与结果

研究人员使用 Isaac Lab 在 ANYmal-D 机器人仿真上训练了该框架,并将其部署到了现实世界中。

零样本实机部署

最令人印象深刻的结果是其可部署性。由于风格因子和对称性约束,在仿真中学习到的技能无需微调即可在真实机器人上立即运行。

图 3: 学习到的技能在真实机器人上的部署。学习到的结构化技能空间实现了直观且可组合的控制。

图 3 展示了其可组合性。操作员可以命令机器人“向前走” (位置因子) ,同时“抬头” (方向因子) 。因为这些因子在训练期间是解耦的,它们不会相互干扰。机器人可以平滑地结合这些不同的技能。

权重的力量

因子加权机制真的有帮助吗?作者通过比较加权方法与非加权方法测试了这一点。

图 4: 因子加权对技能指标的影响。纳入每个因子的权重使得智能体能够优先考虑相关因子,从而在所有维度上产生始终更高的分数。

如图 4 所示,使用因子权重 (\(\lambda\)) 显著提高了所有维度的指标得分 (横滚-俯仰、朝向、速度等) 。这证实了允许网络动态地优先考虑特定因子有助于它为每个因子学习更好的表征。

安全性分析

风格因子不仅仅是为了美观;它是一个安全需求。下表比较了有无风格因子时机器人的行为。

表 1: 风格因子对技能指标和安全性的影响。显示使用风格因子时减少了非法接触并改善了指标。

如果没有风格因子,机器人会产生大量的“非法接触” (例如,大腿撞击身体) 。有了风格因子,基座和大腿的非法接触降至接近零。这就是机器人是能在 5 分钟内把自己弄坏,还是能运行数小时的区别。

多样性比较

D3 与其他 USD 方法 (如标准 DIAYN 或 DUSDi,一种之前的解耦方法) 相比如何?

表 2: 不同 USD 方法在各状态因子上的比较。METRA 在位置多样性方面表现出色,而 DIAYN 在朝向多样性方面表现出色。

表 2 验证了“混合 (Mixed)”策略的有效性。注意位置多样性 (Position Diversity) 一列。纯 DIAYN 难以覆盖距离 (得分为 0.389) ,而纯 METRA 表现优异 (9.832) 。然而,对于朝向 (Heading) , METRA 表现不佳 (0.212) ,而 DIAYN 很强 (1.067) 。

混合 (Mixed/Ours) 方法兼具两家之长: 高位置多样性 (8.776) 和高朝向多样性 (1.031) 。

对称性的影响

最后,让我们看看对称性如何影响学习到的潜在空间。

图 5: 对称性增强对技能到状态映射的影响。有了对称性,技能映射是平衡且可解释的。

在图 5 中,散点图显示了不同技能实现的横滚和俯仰角。

  • 左图 (无对称性) : 分布混乱且倾斜。一个“转弯”技能可能会毫无理由地使机器人稍微向前倾斜。
  • 右图 (有对称性) : 分布完美居中且平衡。技能很干净,意味着“横滚”技能纯粹影响横滚,而不会任意地渗入其他动作。

下游应用: 导航

为了证明这些技能是有用的,作者利用它们来解决导航任务 (到达目标位置和朝向) 。他们将分层策略 (使用 D3 技能) 与“直接 (Direct)” PPO 策略和“Oracle (专家策略) ” (手动调整的专家) 进行了比较。

表 3: 下游导航任务的性能。混合方法的表现接近 Oracle。

表 3 中的结果令人震惊。 直接 (Direct) RL 方法完全失败 (奖励: 1.85) 。 混合 (Mixed/Ours) 方法达到了 148.55 的奖励,在统计上非常接近 Oracle (164.37)。这表明无监督技能为下游任务提供了高质量、可控的动作空间。

结论与启示

“Divide, Discover, Deploy” 框架代表了无监督技能发现技术的成熟。它摆脱了那种寄希望于单一目标函数解决所有问题的“魔法黑盒”方法,转向了一种结构化的、具有工程意识的方法论。

通过承认位置不同于方向 (因子化) ,承认机器人是对称的 (对称性先验) ,以及承认机器人不应损坏自己 (风格先验) ,作者成功地弥合了无监督技能的“虚实迁移 (Sim-to-Real)”鸿沟。

局限性: 这项工作并非没有局限。如下图 6 所示,该框架在处理复杂的交互任务时遇到了困难,例如在没有明确奖励的情况下推箱子或避障。智能体往往诉诸蛮力而不是灵巧的操作。

图 6: 更复杂技能发现的环境。在没有明确奖励的情况下,智能体未能发现安全的避障或复杂的操作。

然而,对于移动和身体控制,D3 提供了一个稳健的蓝图。它表明,机器人学习的未来可能在于这种混合空间: 由强大的结构先验和人类洞察力指导的无监督发现。