简介

想象一下，你正在教机器人擦白板。你向它演示动作，它学会了完美模仿轨迹。但随后你发现了一块顽固的污渍。你告诉机器人，“擦用力点，”或者“擦快点。”在典型的机器人系统中，这就是出问题的地方。大多数模仿学习模型将任务视为静态序列: 它们学会了做什么，但难以根据执行过程中的定性反馈来调整怎么做。

随着大语言模型 (LLM) 进入机器人领域，我们越来越擅长发出像“拿起苹果”这样的高级指令。然而，在高级指令与对机器人肌肉 (速度、力度和平滑度) 的细粒度连续控制之间架起桥梁，仍然是一个巨大的障碍。

在论文 “Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics” 中，来自埼玉大学和筑波大学的研究人员提出了一个新的解决方案。他们开发了一种运动生成模型，允许人类使用“修饰指令” (modifier directives) ——如“强”、“弱”、“快”或“慢”——来实时调整机器人的行为。

图 1: 所提方法的概述。它根据人类给出的修饰指令和当前机器人状态生成下一个运动轨迹。

如图 1 所示，该系统接收人类输入 (描绘为物理和时间参数的滑块) 并即时修改机器人的轨迹。本篇博文将深入探讨他们如何通过结合模仿学习与解纠缠表示学习 (Disentangled Representation Learning) 来实现这一目标，从而让机器人将任务的“做什么”与“怎么做”区分开来。

挑战: 潜空间的“黑盒”

为了理解这里的创新，我们需要先看看现代机器人如何通过演示进行学习。一个流行的方法涉及变分自编码器 (VAEs) 。

在标准设置中，机器人观察人类执行任务 (如擦拭板子) 。VAE 将这种高维运动数据压缩为低维的“潜空间”——一种对运动的紧凑数值摘要。之后，机器人从这个潜空间采样以重构动作。

问题在于这个潜空间通常是一个“黑盒”。内部的变量是纠缠在一起的。如果你试图微调潜空间中的一个数字来让机器人移动得更快，它可能会同时改变动作的效率或完全改变轨迹。机器人并没有学会将“速度”作为一个独立的概念；它只是学会了特征的混乱组合。

研究人员通过使用解纠缠表示学习 (DRL) 来解决这个问题。他们的目标是组织潜空间，使特定的变量对应特定的物理概念 (如力度或速度) ，而其余变量处理一般运动。

提出的方法

本研究的核心是一个改进的条件 VAE (CVAE) ，它允许在线运动生成——这意味着机器人可以在移动过程中调整路径，而不仅仅是在开始之前。

1. 使用“弱”标签进行数据收集

训练机器人理解“力度”通常需要昂贵的传感器和精确的物理数据。然而，人类不用牛顿思考；我们要用定性术语思考。

作者使用了一个基于双边控制的遥操作系，其中人类控制一个从动机器人。这使他们不仅能记录位置，还能记录接触任务期间施加的力。

图 3: (A) 通过双边控制进行数据收集。(B) 演示者对修饰指令进行弱监督标记。

关键在于，他们使用了弱监督 。演示者不是用精确的力测量值标记每一毫秒的数据，而是简单地给整个序列打上定性标签:

物理: 弱 (\(0.0\))，中 (\(0.5\))，强 (\(1.0\))
时间: 慢 (\(0.0\))，中 (\(0.5\))，快 (\(1.0\))

这种方法使数据收集变得更加容易和直观，因为它与人类自然给出指令的方式一致。

2. 学习架构

该架构旨在将潜空间分为两个不同的部分。让我们看看系统概览:

图 2: (A) 离线学习架构概览。(B) 在线推理概览。

在 图 2(A) 中，你可以看到离线训练过程。模型接收当前机器人状态 (\(s_t\)) 和未来动作序列 (\(A_t\))。它将其压缩为潜变量 \(z\)。

关键创新点在这里: 潜变量 \(z\) 在数学上被强制分为两组:

受限变量 (\(z^c\)): 这些被专门训练来代表修饰指令 (速度、力度) 。
非受限变量 (\(z^u\)): 这些捕捉执行任务所需的其他所有内容 (轨迹、几何形状) ，与修饰语无关。 \[ \boldsymbol { z } = \{ z _ { s } ^ { c } , z _ { n } ^ { u } \} = \{ \underbrace { z _ { 1 } ^ { c } , \dots , z _ { S } ^ { c } } _ { \mathrm { ~ \normalfont ~ \left. ~ \right\} } , z _ { 1 } ^ { u } , \dots , z _ { N } ^ { u } } \] 为了强制这种分离，受限变量 (\(z^c\)) 被传递给一个小型的分类器 (多层感知机 MLP) ，试图预测弱标签 (例如“强”或“快”) 。如果变量 \(z^c\) 不包含足够的信息来预测标签，模型就会受到惩罚。

损失函数

训练涉及平衡三个不同的目标 (损失函数) ，定义如下:

\[ \begin{array} { c l } { \displaystyle \mathcal { L } _ { s } = \mathcal { L } _ { b c e } \big ( y _ { s } , \hat { y } _ { s } \big ) = - \big [ y _ { s } \cdot \log ( \sigma ( \hat { y } _ { s } ) ) + ( 1 - y _ { s } ) \cdot \log ( 1 - \sigma ( \hat { y } _ { s } ) ) \big ] } \\ { \displaystyle \mathcal { L } _ { m o d i } = \sum _ { s = 1 } ^ { S } \mathcal { L } _ { s } } \\ { \displaystyle \mathcal { L } = \alpha \mathcal { L } _ { r e c } + \beta \mathcal { L } _ { k l } + \gamma \mathcal { L } _ { m o d i } } \end{array} \]

\(\mathcal{L}_{rec}\) (重构损失) : 确保机器人能够实际执行动作。
\(\mathcal{L}_{kl}\) (KL 散度) : 保持潜空间的组织性和平滑性 (标准 VAE 做法) 。
\(\mathcal{L}_{modi}\) (修饰符损失) : 这是新组件。它强制潜空间的受限部分准确预测“弱标签” (人类指令) 。

通过同时优化这三者，模型学习到一个潜空间，在这个空间里，你可以手动微调 \(z^c\) 来控制速度或力度，而不会破坏动作本身。

3. 在线推理与动作分块

训练完成后，我们要看 图 2(B) (在线推理) 。这里，人类操作员充当控制器。通过调节滑块，他们将特定值输入到 \(z^c\) (例如，将“力度”变量设为 1.0) 。非受限变量 \(z^u\) 设为 0。

然而，在动作中间改变控制输入可能会导致机器人抽搐或抖动。为了解决这个问题，作者利用了动作分块 (Action Chunking) 。模型不是只预测下一个时间步，而是预测一小段未来的动作序列 (一个“块”) 。

为了在人类改变指令时实现平滑过渡，机器人通过先前预测的加权平均值来计算下一个位置。

\[ \hat { \pmb { s } } _ { t + 1 } = \frac { \sum _ { i = 1 } ^ { \operatorname* { m i n } ( t , W - 1 ) } w _ { i } \hat { \pmb { A } } _ { t + 1 - i } [ i ] } { \sum _ { i = 1 } ^ { \operatorname* { m i n } ( t , W - 1 ) } w _ { i } } , \qquad w _ { i } = \frac { 1 } { \log ( i + 1 ) } . \]

加权函数 \(w_i = 1 / \log(i+1)\) 赋予早期预测更高的重要性，同时缓慢融合新的指令。正如我们将在实验中看到的那样，这种特定的加权方案对于稳定性至关重要。

实验与结果

作者使用 CRANE-X7 机械臂在擦拭任务和拾取放置任务中评估了他们的方法。

擦拭任务

主要实验涉及擦拭白板。这项任务很理想，因为它需要连续接触，并且具有清晰的定性变化: 速度 (时间) 和压力 (物理) 。

图 4: 擦拭任务: 机器人抓住白板擦，利用全身和关节擦拭白板。

研究人员将他们提出的方法 (包含解纠缠损失) 与不带解纠缠约束的标准 CVAE-LSTM 和 ACT (基于 Transformer 的动作分块) 进行了比较。

机器人听话了吗？

研究人员测量了修饰指令误差 (MDE) ——该指标计算机器人的实际动作 (力度/速度) 与指令潜变量的一致性。MDE 越低意味着控制越好。

表 2: 擦拭任务中的成功率和修饰指令一致性指数

表 2 显示了结果。

CVAE-LSTM (本文提出) : 实现了 100% 的任务成功率 。更重要的是，看 \(z_2\) (时间) 这一列。MDE 为 0.22 , 显著低于标准 CVAE-LSTM (1.06)。这证明潜变量 \(z_2\) 成功捕捉到了“速度”的概念。
纠缠: 理想情况下，改变“速度”变量不应改变“力度”。提出的方法改善了这种分离，尽管仍存在一些纠缠 (例如，改变速度对力度有小幅影响，但远小于基线模型) 。

平滑处理的重要性

论文的一个关键发现是关于在线调整的稳定性。因为人类可以在任何毫秒改变指令，机器人需要平滑地融合这些指令。

表 3: 权重参数与任务成功率 (TSR，在动作分块中) 之间的关系

表 3 比较了动作分块的不同加权策略。

无权重: 机器人完全失败 (0% 成功率) ，因为动作剧烈震荡。
提出的权重 (\(1/\log(i+1)\)): 实现了 100% 的成功率 。

这表明，仅仅拥有解纠缠的潜空间是不够的；你还需要一个稳健的机制来实时将这些指令合成为平滑的轨迹。

局限性: 拾取放置任务

为了测试泛化能力，作者尝试了拾取放置任务，涉及空间指令 (放置在左、中或右) 。

图 5: (B) 拾取放置任务的工作区顶视图。拾取放置任务: 机器人拾起方块并将其放置在指定位置。

虽然机器人成功完成了任务，但解纠缠效果较差。空间指令 (左/中/右) 是离散和符号化的，不同于速度或力度的连续性质。

结果表明，该方法最适合连续的动态特征 (如“更快”或“更用力”) ，而不是离散逻辑 (如“向左走”) 。这表明不同类型的指令可能需要不同的架构方法。

结论

本文是在使模仿学习更具交互性和适应性方面迈出的重要一步。通过使用解纠缠表示学习 , 作者成功创建了一个系统，其中:

定性指令 (“强”、“快”) 被映射到潜空间的特定轴上。
弱监督允许在没有复杂传感器的情况下轻松收集训练数据。
带有加权动作分块的在线推理允许人类实时引导机器人，而不会导致不稳定性。

其意义是令人兴奋的。我们不再需要为任务的每一个微小变化重新训练机器人，而是可以教它一般动作，然后像调节收音机一样“微调”它——调高速度旋钮或调低力度旋钮——直到行为完全符合我们的需求。虽然在离散、符号化指令方面仍面临挑战，但这项工作为机器人不仅成为自动播放机器，而是成为反应灵敏的协作者铺平了道路。

简介#

挑战: 潜空间的“黑盒”#

提出的方法#

1. 使用“弱”标签进行数据收集#

2. 学习架构#

损失函数#

3. 在线推理与动作分块#

实验与结果#

擦拭任务#

机器人听话了吗？#

平滑处理的重要性#

局限性: 拾取放置任务#

结论#

简介