简介
想象一下,你正在教机器人擦白板。你向它演示动作,它学会了完美模仿轨迹。但随后你发现了一块顽固的污渍。你告诉机器人,“擦用力点,”或者“擦快点。”在典型的机器人系统中,这就是出问题的地方。大多数模仿学习模型将任务视为静态序列: 它们学会了做什么,但难以根据执行过程中的定性反馈来调整怎么做。
随着大语言模型 (LLM) 进入机器人领域,我们越来越擅长发出像“拿起苹果”这样的高级指令。然而,在高级指令与对机器人肌肉 (速度、力度和平滑度) 的细粒度连续控制之间架起桥梁,仍然是一个巨大的障碍。
在论文 “Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics” 中,来自埼玉大学和筑波大学的研究人员提出了一个新的解决方案。他们开发了一种运动生成模型,允许人类使用“修饰指令” (modifier directives) ——如“强”、“弱”、“快”或“慢”——来实时调整机器人的行为。

如图 1 所示,该系统接收人类输入 (描绘为物理和时间参数的滑块) 并即时修改机器人的轨迹。本篇博文将深入探讨他们如何通过结合模仿学习与解纠缠表示学习 (Disentangled Representation Learning) 来实现这一目标,从而让机器人将任务的“做什么”与“怎么做”区分开来。
挑战: 潜空间的“黑盒”
为了理解这里的创新,我们需要先看看现代机器人如何通过演示进行学习。一个流行的方法涉及变分自编码器 (VAEs) 。
在标准设置中,机器人观察人类执行任务 (如擦拭板子) 。VAE 将这种高维运动数据压缩为低维的“潜空间”——一种对运动的紧凑数值摘要。之后,机器人从这个潜空间采样以重构动作。
问题在于这个潜空间通常是一个“黑盒”。内部的变量是纠缠在一起的。如果你试图微调潜空间中的一个数字来让机器人移动得更快,它可能会同时改变动作的效率或完全改变轨迹。机器人并没有学会将“速度”作为一个独立的概念;它只是学会了特征的混乱组合。
研究人员通过使用解纠缠表示学习 (DRL) 来解决这个问题。他们的目标是组织潜空间,使特定的变量对应特定的物理概念 (如力度或速度) ,而其余变量处理一般运动。
提出的方法
本研究的核心是一个改进的条件 VAE (CVAE) ,它允许在线运动生成——这意味着机器人可以在移动过程中调整路径,而不仅仅是在开始之前。
1. 使用“弱”标签进行数据收集
训练机器人理解“力度”通常需要昂贵的传感器和精确的物理数据。然而,人类不用牛顿思考;我们要用定性术语思考。
作者使用了一个基于双边控制的遥操作系,其中人类控制一个从动机器人。这使他们不仅能记录位置,还能记录接触任务期间施加的力。

关键在于,他们使用了弱监督 。 演示者不是用精确的力测量值标记每一毫秒的数据,而是简单地给整个序列打上定性标签:
- 物理: 弱 (\(0.0\)),中 (\(0.5\)),强 (\(1.0\))
- 时间: 慢 (\(0.0\)),中 (\(0.5\)),快 (\(1.0\))
这种方法使数据收集变得更加容易和直观,因为它与人类自然给出指令的方式一致。
2. 学习架构
该架构旨在将潜空间分为两个不同的部分。让我们看看系统概览:

在 图 2(A) 中,你可以看到离线训练过程。模型接收当前机器人状态 (\(s_t\)) 和未来动作序列 (\(A_t\))。它将其压缩为潜变量 \(z\)。
关键创新点在这里: 潜变量 \(z\) 在数学上被强制分为两组:
- 受限变量 (\(z^c\)): 这些被专门训练来代表修饰指令 (速度、力度) 。
- 非受限变量 (\(z^u\)): 这些捕捉执行任务所需的其他所有内容 (轨迹、几何形状) ,与修饰语无关。 \[ \boldsymbol { z } = \{ z _ { s } ^ { c } , z _ { n } ^ { u } \} = \{ \underbrace { z _ { 1 } ^ { c } , \dots , z _ { S } ^ { c } } _ { \mathrm { ~ \normalfont ~ \left. ~ \right\} } , z _ { 1 } ^ { u } , \dots , z _ { N } ^ { u } } \] 为了强制这种分离,受限变量 (\(z^c\)) 被传递给一个小型的分类器 (多层感知机 MLP) ,试图预测弱标签 (例如“强”或“快”) 。如果变量 \(z^c\) 不包含足够的信息来预测标签,模型就会受到惩罚。
损失函数
训练涉及平衡三个不同的目标 (损失函数) ,定义如下:
\[ \begin{array} { c l } { \displaystyle \mathcal { L } _ { s } = \mathcal { L } _ { b c e } \big ( y _ { s } , \hat { y } _ { s } \big ) = - \big [ y _ { s } \cdot \log ( \sigma ( \hat { y } _ { s } ) ) + ( 1 - y _ { s } ) \cdot \log ( 1 - \sigma ( \hat { y } _ { s } ) ) \big ] } \\ { \displaystyle \mathcal { L } _ { m o d i } = \sum _ { s = 1 } ^ { S } \mathcal { L } _ { s } } \\ { \displaystyle \mathcal { L } = \alpha \mathcal { L } _ { r e c } + \beta \mathcal { L } _ { k l } + \gamma \mathcal { L } _ { m o d i } } \end{array} \]- \(\mathcal{L}_{rec}\) (重构损失) : 确保机器人能够实际执行动作。
- \(\mathcal{L}_{kl}\) (KL 散度) : 保持潜空间的组织性和平滑性 (标准 VAE 做法) 。
- \(\mathcal{L}_{modi}\) (修饰符损失) : 这是新组件。它强制潜空间的受限部分准确预测“弱标签” (人类指令) 。
通过同时优化这三者,模型学习到一个潜空间,在这个空间里,你可以手动微调 \(z^c\) 来控制速度或力度,而不会破坏动作本身。
3. 在线推理与动作分块
训练完成后,我们要看 图 2(B) (在线推理) 。这里,人类操作员充当控制器。通过调节滑块,他们将特定值输入到 \(z^c\) (例如,将“力度”变量设为 1.0) 。非受限变量 \(z^u\) 设为 0。
然而,在动作中间改变控制输入可能会导致机器人抽搐或抖动。为了解决这个问题,作者利用了动作分块 (Action Chunking) 。 模型不是只预测下一个时间步,而是预测一小段未来的动作序列 (一个“块”) 。
为了在人类改变指令时实现平滑过渡,机器人通过先前预测的加权平均值来计算下一个位置。
\[ \hat { \pmb { s } } _ { t + 1 } = \frac { \sum _ { i = 1 } ^ { \operatorname* { m i n } ( t , W - 1 ) } w _ { i } \hat { \pmb { A } } _ { t + 1 - i } [ i ] } { \sum _ { i = 1 } ^ { \operatorname* { m i n } ( t , W - 1 ) } w _ { i } } , \qquad w _ { i } = \frac { 1 } { \log ( i + 1 ) } . \]加权函数 \(w_i = 1 / \log(i+1)\) 赋予早期预测更高的重要性,同时缓慢融合新的指令。正如我们将在实验中看到的那样,这种特定的加权方案对于稳定性至关重要。
实验与结果
作者使用 CRANE-X7 机械臂在擦拭任务和拾取放置任务中评估了他们的方法。
擦拭任务
主要实验涉及擦拭白板。这项任务很理想,因为它需要连续接触,并且具有清晰的定性变化: 速度 (时间) 和压力 (物理) 。

研究人员将他们提出的方法 (包含解纠缠损失) 与不带解纠缠约束的标准 CVAE-LSTM 和 ACT (基于 Transformer 的动作分块) 进行了比较。
机器人听话了吗?
研究人员测量了修饰指令误差 (MDE) ——该指标计算机器人的实际动作 (力度/速度) 与指令潜变量的一致性。MDE 越低意味着控制越好。

表 2 显示了结果。
- CVAE-LSTM (本文提出) : 实现了 100% 的任务成功率 。 更重要的是,看 \(z_2\) (时间) 这一列。MDE 为 0.22 , 显著低于标准 CVAE-LSTM (1.06)。这证明潜变量 \(z_2\) 成功捕捉到了“速度”的概念。
- 纠缠: 理想情况下,改变“速度”变量不应改变“力度”。提出的方法改善了这种分离,尽管仍存在一些纠缠 (例如,改变速度对力度有小幅影响,但远小于基线模型) 。
平滑处理的重要性
论文的一个关键发现是关于在线调整的稳定性。因为人类可以在任何毫秒改变指令,机器人需要平滑地融合这些指令。

表 3 比较了动作分块的不同加权策略。
- 无权重: 机器人完全失败 (0% 成功率) ,因为动作剧烈震荡。
- 提出的权重 (\(1/\log(i+1)\)): 实现了 100% 的成功率 。
这表明,仅仅拥有解纠缠的潜空间是不够的;你还需要一个稳健的机制来实时将这些指令合成为平滑的轨迹。
局限性: 拾取放置任务
为了测试泛化能力,作者尝试了拾取放置任务,涉及空间指令 (放置在左、中或右) 。

虽然机器人成功完成了任务,但解纠缠效果较差。 空间指令 (左/中/右) 是离散和符号化的,不同于速度或力度的连续性质。
结果表明,该方法最适合连续的动态特征 (如“更快”或“更用力”) ,而不是离散逻辑 (如“向左走”) 。这表明不同类型的指令可能需要不同的架构方法。
结论
本文是在使模仿学习更具交互性和适应性方面迈出的重要一步。通过使用解纠缠表示学习 , 作者成功创建了一个系统,其中:
- 定性指令 (“强”、“快”) 被映射到潜空间的特定轴上。
- 弱监督允许在没有复杂传感器的情况下轻松收集训练数据。
- 带有加权动作分块的在线推理允许人类实时引导机器人,而不会导致不稳定性。
其意义是令人兴奋的。我们不再需要为任务的每一个微小变化重新训练机器人,而是可以教它一般动作,然后像调节收音机一样“微调”它——调高速度旋钮或调低力度旋钮——直到行为完全符合我们的需求。虽然在离散、符号化指令方面仍面临挑战,但这项工作为机器人不仅成为自动播放机器,而是成为反应灵敏的协作者铺平了道路。
](https://deep-paper.org/en/paper/2509.04737/images/cover.png)