想象一下,试着把航天器降落在月球上,或者用机械臂将一个易碎的插头插入插座。这些任务需要极高的精度。现在,再想象一下你是通过一个有轻微延迟或手感“绵软”的操纵杆来完成这些操作的。这就是遥操作 (teleoperation) 所面临的挑战。

共享自治 (Shared Autonomy) 是一种解决方案: 这是一种协作方法,人类驾驶员通过操纵杆或 VR 控制器提供高层意图,而 AI “副驾驶”则处理底层的精确操作,稳定运动并避免碰撞。

然而,这其中存在一个主要瓶颈。现代 AI 方法,特别是扩散模型 (diffusion models) , 虽然非常擅长生成平滑、类人的动作,但它们以慢著称。它们需要数十个迭代步骤来对动作进行“去噪”,这使得它们难以应用于毫秒必争的实时机器人技术中。

在这篇文章中,我们将深入探讨一篇新论文, “FlashBack: Consistency Model-Accelerated Shared Autonomy” , 该论文提出了一种称为一致性共享自治 (Consistency Shared Autonomy, CSA) 的方法。这种方法加速了扩散过程,使机器人能够在微秒级的一步操作中理解并修正人类的动作。

图 1: 我们提出的一致性共享自治 (CSA) 算法与最先进的基于 DDPM 的共享自治基准在三个高难度控制任务上的结果对比可视化。

如上图所示,在人类单独操作可能会失败 (红色 X) ,而标准扩散 (DDPM) 虽然成功但速度较慢的情况下,CSA 以极高的效率取得了成功。

问题所在: “思考”带来的延迟

要理解为什么 CSA 必不可少,我们首先需要看看当前的共享自治是如何工作的。

传统上,系统是目标条件化 (goal-conditioned) 的。你必须明确告诉机器人,“我要拿那个红色的杯子”。然后机器人会计算通往那个杯子的路径。但是,如果环境是非结构化的,或者机器人不知道“杯子”是什么呢?

于是有了基于扩散的共享自治 。 这些模型不再预测具体目标,而是学习“专家行为”的分布。当用户输入操纵杆指令时,模型将其视为“有噪声”或不完美的动作。然后,扩散模型对这个动作进行“去噪”,使其更接近专家在这种情况下会做的动作。

问题在哪? 标准扩散 (如 DDPM) 是迭代的。 为了修正用户的动作,DDPM 可能需要在循环中运行其神经网络 10 次、20 次甚至 100 次,逐步优化动作。这会产生计算延迟。在高风险的控制任务 (如接住坠落物体或降落无人机) 中,你没有时间等待 100 次循环。你需要立刻得到答案。

解决方案: 一致性模型

研究人员建议用一致性模型 (Consistency Model, CM) 来替代标准的扩散过程。

其核心直觉很简单: 如果我们知道长途旅行的终点,为什么要一步一步地走过去?为什么不直接传送到终点呢?

用数学术语来说,扩散模型求解的是一个概率流 ODE (常微分方程) 。 这个 ODE 描述了一条从纯噪声到清晰数据样本的平滑轨迹。

  • 标准扩散: 沿着这条轨迹一步一步地推进。
  • 一致性模型: 学习将这条轨迹上的任意点直接映射到起点 (清晰的动作) 。它学会了“跳跃”。

图 9: 一致性模型与 DDPM 在 2D 示例上的对比

图 9 完美地展示了这一点。最上面一行显示了标准迭代去噪——一个缓慢的多步演变过程。最下面一行显示了一致性模型方法——只需一步即可将噪声输入解析为清晰、聚类的输出。

深度解析: CSA 是如何工作的

一致性共享自治的架构是一个教师-学生 (teacher-student) 框架。它包括训练一个高精度的“教师”,然后将其知识蒸馏给一个快速的“学生”。

1. 教师: 一个 EDM 模型

首先,研究人员基于 EDM (阐明基于扩散的生成模型的设计空间) 框架训练了一个高质量的扩散模型。该模型作为基本真值 (ground truth) 。

教师接收当前状态 (\(s\)) 并预测正确的动作 (\(a\)) 。为了让系统更智能,他们还给它输入了一个“短期意图”: 即状态变化的方向 (\(s_{next} - s\)) 。

图 3: EDM (教师) 模型的训练过程。

教师模型准确但缓慢,因为它依赖于数值求解器 (如欧拉法或改进欧拉法) 来遍历 ODE。

2. 学生: 一致性蒸馏

一旦教师训练完成,“学生” (即 CSA 模型) 就被训练来模仿教师的结果,但不需要等待。这是通过一致性蒸馏 (Consistency Distillation) 完成的。

训练过程利用了一个特性: 同一条 ODE 轨迹上的所有点都应该指向同一个起点。

  1. 取一个纯净的专家动作 \(a^0\)。
  2. 加入噪声,在同一轨迹上创建两个点: \(a^t\) (噪声较多) 和 \(a^{t-1}\) (噪声稍少) 。
  3. 要求学生网络从这两个点预测纯净的原始动作 \(a^0\)。
  4. 最小化这两个预测之间的差异。

图 2: PF ODE 流的蒸馏: 在同一轨迹上选择两个不同的状态 \\(\\{ a ^ { t } , a ^ { t - 1 } \\}\\),CM 强制预测收敛到同一目标 \\(\\hat { a } ^ { 0 }\\)

如图 2 所示,模型强制执行“一致性”。无论学生是从 \(a^t\) 还是 \(a^{t-1}\) 开始,它都应该落在同一个 \(\hat{a}^0\) 上。

用于强制执行此操作的具体损失函数为:

CSA 损失方程

在这里,学生 \(f\) 试图匹配教师求解器单步输出的结果。随着时间的推移,学生学会了通过单次前向传播,从任何噪声水平预测最终的纯净动作。

3. “闪回”推理 (FlashBack Inference)

这是论文中最具创新性的部分。我们如何在与人类的共享自治中使用它?

研究人员将人类的动作 (\(a^u\)) 视为扩散 ODE 轨迹上的一个中间状态

  1. 用户输入: 人类移动操纵杆。这是 \(a^u\)。
  2. 假设: 我们假设 \(a^u\) 只是一个“专家动作加上噪声”。
  3. 噪声估计: 我们根据想要提供的辅助程度分配一个时间步 \(t\)。这个 \(t\) 代表了我们认为人类动作有多“嘈杂” (或不可信) 。
  • 高 \(t\) = 我们认为用户非常错误 (高强度修正) 。
  • 低 \(t\) = 我们信任用户 (低强度修正) 。
  1. 一步去噪: CSA 模型接收这个“嘈杂”的用户动作,并一步“闪回”到 ODE 轨迹的起点 (\(t=0\)) 。

图 9: CM 模型的推理阶段

上图 (b) 总结了这个推理循环。用户动作进入系统,被分配一个噪声水平 \(\sigma_i\),CSA 去噪器瞬间输出修正后的共享动作 \(\hat{a}^0\)。

实验与结果

团队在仿真和现实场景中,将 CSA 与标准的 DDPM 基准进行了测试。

仿真任务

他们使用了三个仿真环境:

  1. 月球着陆器 (Lunar Lander): 一个经典的 2D 控制任务 (低维度) 。
  2. 插孔任务 (Peg Insertion): 插入间隙很小的销钉 (高维度) 。
  3. 充电插头插入 (Charger Plug Insertion): 一个公差更紧的任务,需要方向精度。

图 6: 环境设置

为了严格测试系统,他们创建了“代理驾驶员”——旨在模拟任务表现不佳 (嘈杂、滞后或缓慢) 的合成机器人,以模拟不熟练的人类操作员。

速度与性能的较量

结果非常明显。在插孔任务中,标准的 DDPM 难以平衡成功率与超时率,因为推理耗时太长。

图 8: 插孔任务带噪声的仿真结果

在图 8 中,请看“CSA”图表 (中间和右侧) 。即使“扩散比率” (AI 干预的量) 发生变化,蓝线 (成功率) 仍然保持在高位。相比之下,DDPM 策略 (左侧) 在扩散比率增加时,性能急剧下降。

更令人印象深刻的是计算速度的提升。

表 1: 月球着陆器性能

在上面的月球着陆器表格中,请注意 NFE (函数评估次数)推理时间 (Inference Time)

  • DDPM: 24 次评估,~14ms 推理时间。
  • CSA: 1 次评估,~0.92ms 推理时间。

CSA 的速度大约快了 15 倍 , 同时实现了更高的成功率 (87-91% vs 75%) 。

真实机器人评估

研究人员在真实的 UR5 机械臂上部署了 CSA,用于执行插孔任务。他们招募了 10 名人类参与者使用 VR 控制器控制机器人,并通过侧装摄像头观察任务 (去除了深度感知以增加难度) 。

表 3: 无论是否使用我们的 CSA 副驾驶时的真实插孔任务性能。

注: 上表重点展示了成功率。

在没有副驾驶的情况下,用户的成功率为 66.7% 。 有了 CSA 副驾驶,成功率跃升至 83.3% , 并且任务完成速度更快。

参与者还完成了一项关于他们体验的调查。

图 11: 真实插孔任务中人类参与者的定性调查结果

调查结果 (图 11) 显示了明显的偏好。用户认为 CSA 策略 (Assistive Policy) 比直接遥操作更具协作性一致性 。 一位用户指出,“感觉我在插入过程中得到了一些帮助,” 证实了修正的无缝衔接。

结论: 协同控制的未来

这篇 FlashBack 论文代表了共享自治领域的一个重大飞跃。通过从迭代扩散模型转向一致性模型 , 研究人员消除了阻碍先前方法的计算延迟。

关键要点:

  1. 速度: CSA 允许一步生成,使实时控制回路 (100Hz+) 成为可能。
  2. 性能: 在成功率方面优于标准扩散方法,特别是在高精度任务中。
  3. 简单性: 它不需要复杂的目标定义或启发式目标推断模块。“目标”隐含在专家演示中。

这项技术为更智能的假肢、更直观的手术机器人和更安全的遥操作机械铺平了道路——在这些系统中,AI 帮助你像专家一样行动,而你永远感觉不到延迟。