想象一下,有人向你扔来一个纸板箱。你不会僵在原地,计算风阻,解微分方程,然后再移动。你是流利地做出反应。你伸出双臂,预判接触时刻,当箱子撞击你的手时,你稍微向后收力以缓冲冲击。这就是动态操控 (dynamic manipulation) ——通过快速的接触变化和物理力与物体进行交互。

对人类来说,这是一种本能。对机器人来说,这却是一场算法噩梦。

机器人通常更喜欢“准静态”任务——移动得足够慢,以至于可以忽略动量和冲击力。为了让机器人在现实世界中真正发挥作用,它们需要处理诸如接球、投掷或滑动物体等动态任务。然而,现有的方法往往无法在反应速度和规划所需的预见性之间取得平衡。

在这篇文章中,我们将深入探讨潜在自适应规划器 (Latent Adaptive Planner,简称 LAP) 。 这项研究提出了一种方法,允许机器人直接从人类视频中学习敏捷的接物技能,关键在于,当物体在空中飞行时,它们能够实时调整计划。

问题所在: 为什么接物对机器人来说很难

要接住一个飞行的物体,机器人必须应对三个复合挑战:

  1. 不可预测的动力学: 在空中翻滚的箱子具有复杂的空气动力学特性。在接触之前,机器人对它的质量、摩擦力和弹性一无所知。
  2. 实时延迟: 传统的路径规划算法通常太慢了。等到机器人计算出最佳轨迹时,箱子已经掉在地板上了。
  3. 具身差异 (The Embodiment Gap) : 我们希望使用人类视频来训练机器人 (因为人类数据既便宜又丰富) 。但人类和机器人的体型、关节限制和力量都不同。

模仿学习 (Imitation Learning) 的最新进展 (如扩散策略 Diffusion Policies) 已显示出潜力,但它们往往难以满足高频控制回路所需的推理速度。另一方面,强化学习 (RL) 需要成千上万次危险的真实世界试验或并不完全符合现实的模拟。

LAP背后的研究人员提出了一种混合解决方案: 将规划制定为潜在空间 (latent space) 中的推断问题,并使用智能数据再生管道利用人类视频来教导机器人。

第一部分: 向人类学习 (无需远程操作)

在机器人能够规划之前,它需要数据。通过远程操作 (用操纵杆或VR设备控制机器人) 收集机器人数据既昂贵又缓慢。作者设计了一个管道,直接从标准的人类执行任务的视频中“再生”出适合机器人的数据。

目标是将人类的动作 (视觉像素) 转化为机器人需要知道的信息 (关节扭矩和位置) 。

图 1: 基于机器人模型的数据再生管道。

第1步: 场景状态估计

首先,系统分析视频以跟踪箱子和人类的姿态。它提取箱子的3D位置和演示者的关节角度。

第2步: 物体-机器人比例映射

人类手臂和机器人手臂的长度很少相同。如果人类向前伸出50厘米,较小的机器人可能需要完全伸展,而较大的机器人几乎不需要移动。为了解决这个问题,研究人员使用了比例映射 (Proportional Mapping)

他们根据机器人手臂长度与人类手臂长度 (在视频中以像素为单位测量) 之间的比例来缩放物体的位置和尺寸。

公式 1 和 2: 比例映射方程。

这里,\({}^R p_{\mathrm{obj}}\) 是机器坐标系下的物体位置,\(s\) 是缩放因子。这确保了即使物理尺寸不同,动作的“意图”也能得以保留。

第3步: 运动学-动力学重构

这是最关键的一步。视频只提供位置信息。但要接住一个沉重的箱子,机器人需要了解 (扭矩) 。

首先,系统使用映射函数 \(f_{map}\) 将人类关节角度映射到机器人关节角度 (\(q\)) :

公式 3: 关节映射函数。

接下来,它通过对视频时间步长 (\(\Delta t\)) 上的位置进行微分来计算速度 (\(\dot{q}\)) 和加速度 (\(\ddot{q}\)) :

公式 4: 关节速度计算。 公式 5: 关节加速度计算。

最后,利用机器人的物理模型 (逆动力学) ,系统计算出执行该动作所需的扭矩 (\(\tau\)) 。

公式 6: 逆动力学方程。

在这个方程中:

  • \(\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}}\) 解释了机器人的惯性。
  • \(\mathbf{C}(\mathbf{q},\dot{\mathbf{q}})\dot{\mathbf{q}}\) 解释了科里奥利力和离心力 (旋转物理学) 。
  • \(\mathbf{G}(\mathbf{q})\) 解释了重力。
  • \(\mathbf{F}_{\mathrm{ext}}\) 解释了外力 (如箱子的冲击) 。

在这个管道结束时,研究人员已经将人类接箱子的视频转换为包含机器人关节位置、速度以及执行接物所需的特定扭矩的数据集。

第二部分: 潜在自适应规划器 (LAP)

有了数据,我们需要一个大脑。这篇论文的核心创新在于,不将机器人的计划视为固定的动作序列,而是视为潜在空间中的概率分布。

潜在变量模型

LAP定义了一个“潜在计划”,表示为向量 \(\mathbf{z}\)。你可以将 \(\mathbf{z}\) 视为整个轨迹的压缩抽象摘要 (例如,“在高处向左接住箱子”或“低位接住并兜起”) 。

该模型定义了轨迹 \(\mathbf{x}\) (观测和动作) 与这个潜在计划 \(\mathbf{z}\) 之间的联合概率分布:

公式 7: 联合概率分布。

轨迹生成器 \(p_{\theta}(\mathbf{x}|\mathbf{z})\) 是一个因果 Transformer (类似于 GPT 背后的架构) 。它根据观测历史和它当前遵循的特定潜在计划 \(\mathbf{z}\) 生成下一个动作。

公式 8: 轨迹生成器方程。

通过经典变分贝叶斯进行训练

机器人如何学习有效的 \(\mathbf{z}\) 向量?研究人员使用了经典变分贝叶斯 (Classical Variational Bayes, VB)

在典型的机器学习 (如 VAEs) 中,我们会训练一个“编码器”网络来从输入预测 \(\mathbf{z}\)。然而,LAP采用了不同的方法: 它直接为每个训练轨迹优化特定的 \(\mathbf{z}\) 向量。

在训练期间,模型试图最大化证据下界 (ELBO) 。这个目标平衡了两个目的:

  1. 重构: 计划 \(\mathbf{z}\) 应该准确地再生演示轨迹。
  2. 正则化: \(\mathbf{z}\) 的分布应保持接近标准先验 (简单的高斯分布) ,这使得潜在空间保持平滑且可导航。

公式 9: ELBO 目标函数。

训练在优化局部参数 (特定视频的特定计划 \(\mathbf{z}\)) 和全局参数 (Transformer 网络的权重 \(\theta\)) 之间交替进行。

第三部分: 通过变分重规划实现实时适应

这正是 LAP 大放异彩的地方。在动态环境中,情况是变化的。机器人可能计划在 A 点接住箱子,但空气阻力或糟糕的投掷可能使箱子飞向 B 点。

标准规划器有两个缺陷:

  1. 开环: 它们在开始时规划一次。如果世界变了,它们就会失败。
  2. 从头重规划: 它们每几毫秒重新计算整个计划。这在计算上非常昂贵,并且如果计划在步骤之间发生剧烈变化,可能会导致“抖动”行为。

LAP 引入了变分重规划 (Variational Replanning)

LAP 不会从头计算新计划,而是维护关于潜在变量 \(\mathbf{z}\) 的“信念” (后验分布) 。随着新观测结果的到来 (例如,箱子比预期的低) ,模型会执行贝叶斯更新。

关键在于,前一个时间步的后验变成了当前时间步的先验

公式 10: 贝叶斯更新公式。

机器人本质上是在问: “鉴于我之前的计划和这些新的观察结果,我应该如何稍微调整我的计划 \(\mathbf{z}\) 以适应现实?”

这在数学上被公式化为一个优化问题,模型试图最大化新观测的可能性,同时最小化与先前计划 (\(q_t\)) 的散度 (变化) 。

公式 11: 重规划优化。

这就像一个“信任区域 (trust region) ”。它允许机器人适应箱子的运动,而无需对其策略做出疯狂、不稳定的改变。它确保了动作保持平滑——这是动态操控的重要要求。

完整的系统架构

该实现使用双循环频率:

  1. 高级规划器 (30Hz) : LAP 通过变分重规划更新潜在计划 \(\mathbf{z}\)。
  2. 低级控制器 (100Hz) : Transformer 根据当前的 \(\mathbf{z}\) 生成即时运动命令 (动作) 。
  3. 安全层 (1000Hz) : 模型预测控制 (MPC) 层确保请求的扭矩不违反机器人的物理限制。

图 2: LAP 框架的系统架构。

实验与结果

研究人员在接箱子任务上评估了 LAP。这是一个出了名的难题,因为箱子会混乱地翻滚,接住它们需要“柔软”的手——吸收能量而不是僵硬地碰撞。

他们在两个不同的机器人 (Robot A 和 Robot B) 上测试了系统,以证明数据再生管道适用于不同的物理实体。

视觉分析: “类人”接物

最引人注目的结果之一是运动质量上的差异。因为 LAP 从包含扭矩的人类数据中学习,它学会了柔顺性 (compliance)

看下面的图 3。左边是人类接箱子。注意到手臂在接触时是如何向后退让的吗?这种“撤退”轨迹吸收了冲击能量。在右边,LAP 控制的机器人完美地模仿了这种行为。它不仅仅是去到一个坐标;它执行了一个动态的、节能的动作。

图 3: 感知冲击的撤退轨迹对比。

定量比较

团队将 LAP 与三个基准进行了比较:

  1. 基于模型的规划 (Model-Based) : 传统的物理求解器。
  2. 行为克隆 (Behavior Cloning, BC) : 标准的监督学习。
  3. 扩散策略 (Diffusion Policy) : 最先进的生成式方法。

结果针对两个机器人进行了汇总:

表 1: 性能比较表。

数据中的关键要点:

  • 成功率: LAP 实现了接近完美的成功率 (29/30 或 30/30) ,与基于模型的规划器相当。Diffusion 和 BC 表现挣扎 (大约 20-24 次成功) ,主要是因为它们无法足够快地适应箱子的特定轨迹。
  • 能源效率: 这是一个巨大的胜利。看看能量消耗 (焦耳) 。基于模型的规划器成功了,但它很“僵硬”,使用高扭矩强迫机器人就位 (Robot A 为 74.99 J) 。LAP 使用的能量极少 (11.47 J) ,与人类演示的效率相当。它学会了顺应物理规律,而不是与之对抗。

结论

潜在自适应规划器 (LAP) 代表了机器人操控领域向前迈出的重要一步。通过将规划过程转移到潜在空间,研究人员在经典规划的刚性和纯学习方法的不可预测性之间找到了一个最佳平衡点。

三个概念定义了这一成功:

  1. 数据再生: 通过数学缩放动作和重构力,解锁了使用廉价、丰富的人类视频训练机器人的能力。
  2. 潜在规划: 通过压缩的抽象变量控制高级行为。
  3. 变分重规划: 能够实时“滑动”该潜在变量以适应不断变化的世界,将先前的计划视为当前决策的先验。

对于机器人专业的学生来说,LAP 说明解决动态问题并不总是关乎更快的处理器或更好的传感器。通常,它关乎找到正确的表示——在这里,即一个可以动态更新的潜在分布。随着机器人走出工厂进入我们非结构化的世界,像“接住抛来的物体”这样的能力将从令人印象深刻的聚会把戏转变为必不可少的生存技能。