通用机器人的梦想往往让我们联想到人形机器流畅地倒水、递送工具或整理凌乱房间的画面。虽然我们在机器人控制方面已经取得了巨大进步,但要达到这种水平的“灵巧性”——即通常需要双手协作的精确、协调运动——仍然是一个巨大的挑战。
机器人需要处理复杂的输入 (视觉、语言、本体感知) 并即时输出高维动作。近年来, 扩散策略 (Diffusion Policies) 兴起,它将机器人动作生成视为图像生成: 从噪声开始,逐步将其细化为轨迹。虽然有效,但扩散模型可能很慢,需要许多步的迭代细化 (去噪) 才能产生可用的动作。
在这篇文章中,我们将探讨 ManiFlow , 这是一种由华盛顿大学、加州大学圣地亚哥分校和英伟达的研究人员提出的新方法。ManiFlow 结合了 流匹配 (Flow Matching) 与 一致性训练 (Consistency Training) 的优势,创建了一种不仅比标准扩散模型更准确,而且速度显著更快的策略——仅需 1 或 2 步即可生成高质量动作。

如上图所示,ManiFlow 能够控制多种机器人形态,从单臂到双臂设置,甚至是全尺寸人形机器人,执行倒液体和递送物体等任务。
当前策略的问题
要理解为什么需要 ManiFlow,我们首先需要看看当前最先进方法 (如扩散策略) 的局限性。
扩散模型通过迭代去除噪声来生成动作。这个过程虽然强大,但它建模的是从噪声分布到数据分布的一条复杂的弯曲轨迹。由于路径是弯曲的,求解器需要采取许多小步 (推理步数) 才能准确导航。在实时机器人设置中,采取 10、20 或 50 个推理步会引入延迟。机器人“思考”太久会导致动作不连贯或抓取失败。
流匹配 (Flow Matching) 是另一种生成框架,旨在学习一个将噪声推向数据的“速度场”。理想情况下,从噪声到数据的最有效路径是一条直线。如果我们能强迫模型学习这些直线路径,就可以在单步内从噪声跳转到动作。然而,现有的流匹配策略往往难以捕捉灵巧的多指交互的全部复杂性,或难以很好地泛化到新环境。
ManiFlow 的解决方案
ManiFlow 通过两大支柱改进了以往的方法:
- 一致性流训练 (Consistency Flow Training) : 一种新的训练目标,强制生成轨迹保持“平直”。
- DiT-X 架构: 一种专门设计的 Transformer 架构,可以更有效地处理多模态输入 (视觉、语言、机器人状态) 。
让我们逐一拆解。
1. 一致性流训练
ManiFlow 的核心创新在于它如何训练模型来预测动作。研究人员将标准的 流匹配 与 一致性训练 结合在一起。
标准流匹配
在标准流匹配中,模型 \(\theta\) 试图预测一个速度 \(v_t\),将噪声样本 \(x_t\) 移向干净数据 \(x_1\)。损失函数如下所示:

这确保了模型学习数据的方向。然而,它并不能保证所走的路径是最高效的。
加入一致性
一致性训练更进一步。它假设同一轨迹上的点都应该指向相同的最终目的地。如果你处于生成过程的中途,你预测的目的地应该与你在开始时的预测一致。
ManiFlow 在模型中引入了“步长” \(\Delta t\)。在训练期间,系统采样当前时间 \(t\) 和未来时间 \(t + \Delta t\)。然后,它强制当前步骤预测的速度与到达未来步骤估计的目标所需的速度保持一致。这有效地“拉直”了流动路径。

如 图 3 (上图) 所示,训练过程包括采样中间点 (\(x_t\), \(x_{t1}\)) 并确保轨迹沿线的自一致性。这有效地拉平了将噪声转化为动作所需的曲线。
一致性损失函数定义为:

通过联合优化这两个目标,ManiFlow 学习到的轨迹非常直,允许机器人在推理过程中以极少的步数 (通常只需一步) 生成高质量动作。
时间采样的重要性
这篇论文的另一个微妙但关键的贡献是关于 时间采样策略 (Time Sampling Strategies) 的分析。在训练生成模型时,你必须在 0 (噪声) 和 1 (数据) 之间采样一个时间步 \(t\)。
大多数模型均匀地采样 \(t\)。然而,研究人员发现,对于机器人控制而言,并非所有时间步都是平等的。“高噪声”区域 (当 \(t\) 较小时) 是模型学习运动的粗略、全局结构的地方。

如上面的分布图所示,研究人员尝试了各种策略。他们发现 Beta 分布 (将样本集中在 \(t=0\) 附近,即早期噪声水平) 始终优于均匀或对数正态采样。这表明教导机器人从纯噪声中解析出高层结构是学习过程中最关键的部分。
2. DiT-X 架构
一个稳健的策略不仅关乎数学目标,还关乎神经网络如何处理信息。机器人处理 多模态 数据:
- 高维输入: 图像、点云、语言指令。
- 低维输入: 关节角度、夹爪状态、时间步。
标准架构往往难以平衡这些输入。研究人员引入了 DiT-X , 这是一种改进的扩散 Transformer (Diffusion Transformer) 。

DiT-X 架构 (如图 2 所示) 摄取视觉 Token、语言 Token 和噪声动作。关键创新在于 DiT-X 块 。
在标准的 Transformer (DiT) 甚至多模态扩散 Transformer (MDT) 中,条件调节 (机器人状态或时间步如何影响处理过程) 往往是有限的。

如 图 4 详细所示,DiT-X 块引入了 自适应交叉注意力 (Adaptive Cross-Attention) 。 它使用 AdaLN-Zero (自适应层归一化与零初始化) 不仅对自注意力层进行条件调节,还对交叉注意力层的输入和输出进行调节。
这意味着模型可以根据当前的时间步动态地缩放和移动视觉及语言特征。例如,在运动开始时 (高噪声) ,模型可能需要关注广泛的视觉特征。在接近结束时 (精细操作) ,它需要专注于精确的几何形状。AdaLN-Zero 允许网络逐步选择性地调节这些特征。
实验结果
研究人员在仿真和真实世界中对 ManiFlow 进行了一系列严格的测试。
仿真基准测试
在仿真中,ManiFlow 在 Adroit (灵巧手操作) 、DexArt 和 RoboTwin (双臂任务) 等基准上进行了测试。

表 1 中的结果令人瞩目。ManiFlow 在各项指标上均优于 2D 和 3D 扩散策略以及标准流匹配策略。在基于点云的任务 (3D) 中,它的平均成功率达到 66.5% , 而 3D 扩散策略为 57.4%。
它在 语言条件下的多任务学习 中也表现出色。当在 48 个不同的 MetaWorld 任务上同时训练并以文本指令为条件时,ManiFlow 相比基准模型表现出了 31.4% 的相对提升 。

鲁棒性与泛化能力
机器人技术中最难的部分之一是泛化。在干净桌面上训练的机器人,如果你加一个咖啡杯 (干扰物) 或改变光照,往往会失败。
研究人员在 RoboTwin 2.0 基准上测试了 ManiFlow,该基准旨在通过域随机化 (新物体、恶劣光照、杂乱场景) 来破坏策略。

如 图 8 所示,环境变化非常剧烈。尽管如此,ManiFlow 仍显示出卓越的学习效率。

在 图 7 中,ManiFlow 与 \(\pi_0\) (一个大规模预训练模型) 进行了比较。值得注意的是,ManiFlow (从头开始训练,每个任务仅 50 次演示) 在特定双臂任务的成功率上优于预训练模型。它的扩展性也更好: 随着演示次数的增加 (最多 500 次) ,ManiFlow 达到了接近 100% 的成功率 , 而基准模型则陷入停滞。
真实世界表现
仿真是由用的,但真实世界才是终极考验。团队在三种不同的设置上部署了 ManiFlow:
- 人形机器人: 配备拟人手的 Unitree H1。
- 双臂: 两个 xArm 7 机器人。
- 单臂: Franka Emika Panda。

在真实世界测试中 (见下文 图 9 和 表 2 ),ManiFlow 达到了 69.6% 的平均成功率,几乎是 3D 扩散策略 (DP3,约 37%) 的两倍。

“交接 (Handover) ”任务特别能说明问题。这需要一只手将瓶子递给另一只手——这是一种需要精确时机和空间推理的协调挑战。ManiFlow 在 30 次尝试中成功了 22 次,而基准模型仅成功了 14 次。
推理速度
最后,我们回到 ManiFlow 的核心承诺: 速度。因为一致性流训练“拉直”了轨迹,机器人不需要 10 或 20 步来决定动作。

表 4 显示,ManiFlow 仅需 1 个推理步即可达到 63.7% 的成功率 , 2 步可达 64.5% 。 相比之下,扩散策略基准需要 10 步才能达到显著较低的成功率 (42.7%) 。这种速度使得机器人操作更加灵敏和安全。
结论
ManiFlow 代表了机器人学习向前迈出的重要一步。通过将 流匹配 和 一致性训练 的数学优雅性与强大的 DiT-X 架构 相结合,研究人员创建了一个具备以下特点的策略:
- 快速: 能够进行单步推理。
- 精确: 能够控制灵巧的多指手。
- 通用: 对不同的机器人形态有效,并对环境噪声具有鲁棒性。
这项工作表明,机器人控制的未来可能不仅仅在于更大的模型,还在于更智能的训练目标,以简化机器人必须导航的复杂几何景观。无论是折叠衣物的人形机器人,还是组装套件的双臂机器人,“拉直流动轨迹”似乎是前进的方向。
](https://deep-paper.org/en/paper/2509.01819/images/cover.png)