引言
通用机器人的梦想是创造一种能够走进任何房间,环顾四周,并仅凭指令就能完成任务的机器。无论是“清理洒出的东西”还是“给我做一个三明治”,机器人需要理解视觉世界,解析语言指令,并将其转化为精确的物理动作。
为了实现这一目标,该领域已经联合起来开发 视觉-语言-动作 (Vision-Language-Action, VLA) 模型。可以把这些看作是机器人领域的“大语言模型 (LLM)”。但它们输出的不是文本,而是机器人的动作。
然而,这存在一个巨大的入门门槛。当前最先进的 VLA,如 OpenVLA 或 RDT-1B,体量庞大。它们依赖数十亿参数的主干网络,需要大规模的 GPU 集群进行训练,并且运行推理也需要大量的硬件资源。这种计算成本将研究限制在少数资金充足的实验室中,并使得在现实世界的机器人上部署变得极其困难——因为这些机器人通常板载计算能力有限。
但是,如果规模并不代表一切呢?如果我们使用了这些巨大大脑中的错误部分呢?
在论文 “FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies” 中,来自卡尔斯鲁厄理工学院和微软研究院的研究人员挑战了“越大越好”的教条。他们推出了 FLOWER , 这是一个参数量不到 10 亿的模型,却超越了其庞大的竞争对手。

如图 1 所示,FLOWER 通过重新思考视觉和语言如何与动作生成相融合来实现这一目标。通过修剪预训练模型中的“脂肪”并引入一种新颖的基于流 (flow-based) 的架构,他们仅用 OpenVLA 等模型 1% 的预训练计算量,就达到了最先进的性能。
在这篇文章中,我们将剖析 FLOWER 的工作原理,为什么“中间融合”是一个颠覆性的改变,以及该模型如何在只需通常计算预算一小部分的情况下控制多种多样的机器人。
背景: VLA 的瓶颈
在深入了解 FLOWER 之前,我们需要了解 VLA 的标准架构。大多数通用机器人策略由两个主要部分组成:
- 主干 (VLM): 一个预训练的视觉-语言模型 (如 LLaVA 或 Florence) ,用于“看”图像和“读”指令。
- 头部 (动作生成器): 一个模块,用于接收主干的特征并预测机器人的关节角度或夹爪移动。
传统上,研究人员使用 晚期融合 (Late Fusion) 。 他们采用一个巨大的、冻结的 VLM (比如 70 亿参数) ,将图像和文本完全通过它,并使用最后的输出去驱动一个小的扩散头 (diffusion head)。
问题出在哪里?效率低下。LLM 的最后几层专门用于预测下一个文本 token (例如,确定“cat”后面跟着“the”) 。这种语义粒度对于机器人控制来说是杀鸡用牛刀,机器人控制更依赖于早期层中发现的空间理解和物理功能 (affordances) 。保留整个 VLM 意味着你要为你并未充分利用的特征支付巨大的延迟和内存代价。
相反, 早期融合 (Early Fusion) (从头开始训练 Transformer 或在开始时注入动作) 通常无法利用预训练模型中嵌入的深层语义知识。
FLOWER 旨在寻找那个“恰到好处”的区域。
核心方法: FLOWER 的架构
FLOWER 代表 Florence With Embodied Flow (Florence 具身流) 。它引入了一个 9.5 亿参数的架构,专为速度和泛化而设计。该方法依赖于两个主要的技术贡献: 中间模态融合 (Intermediate-Modality Fusion) 和 动作专用全局 AdaLN (Action-Specific Global-AdaLN) 。
让我们以此拆解其架构。

1. 中间模态融合
研究人员假设,对机器人最有用的信息不在视觉-语言模型的最后——而是在中间。
在深度神经网络中,早期层处理边缘和纹理,中间层处理物体概念和空间关系,而最后层则针对特定输出任务 (如文本生成) 进行细化。对于机器人技术来说,中间层——即模型理解“桌子上有一个杯子”的地方——至关重要。而最后一层——计算单词“杯子”的概率——则不那么重要。
FLOWER 实现了 中间融合 :
- 主干: 他们使用 Florence-2 , 一个强大的 VLM。
- 剪枝: 他们完全切断了解码器 (对于编码器-解码器模型) ,或者修剪了最后 30–50% 的层 (对于仅解码器模型) 。
- 连接: 来自这些中间层的隐藏状态被投影并注入到动作生成器中。
这一简单的改变大幅减少了参数数量并加快了推理速度,同时 提高 了性能,因为动作头接收到的是更丰富的空间特征,而不是过度处理的文本概率。
2. 流 Transformer (Flow Transformer)
一旦提取了视觉和语言特征,就需要将它们转化为运动。FLOWER 使用通过 Transformer 实现的 整流 (Rectified Flow) (一种更直、更快的扩散模型版本) 。
标准的扩散模型通过在许多步骤中逐渐去除随机信号的噪声来生成动作。这就像通过慢慢凿去灰尘来从石头中雕刻雕像。整流试图在噪声和目标动作之间画一条直线。
流匹配的核心数学目标是最小化预测速度场与通向目标动作的直线路径之间的差异:

在这里,\(v_{\theta}\) 是预测流的模型,以状态 \(s\)、目标 \(g\) 和具身信息 \(e\) 为条件。这使得 FLOWER 能够在极少的步骤 (通常为 4 到 8 步) 内生成高质量的动作轨迹,从而使其速度足以进行实时控制。
3. 动作专用全局 AdaLN
一个“通用”策略必须处理不同的机器人。Franka Emika 机械臂可能由末端执行器位置 (x, y, z 坐标) 控制,而类人手可能需要关节角度 (14 个以上的自由度) 。
通常,模型会为每个机器人使用单独的“头”,或者强制将所有数据转换为统一格式。FLOWER 采取了一种模块化的方法。核心的流 Transformer 在所有机器人之间共享。为了适应特定的硬件,他们使用了 自适应层归一化 (Adaptive Layer Normalization, AdaLN) 的一种变体。

在标准的扩散 Transformer (DiT) 中,AdaLN 参数对每一层都是唯一的,这会使模型变得臃肿。FLOWER 引入了 全局 AdaLN (Global-AdaLN) :
- 它在所有层之间共享一组调制权重。
- 它为每种 动作类型 (例如,“Delta-末端执行器”与“关节角度”) 生成唯一的调制信号。
- 它在每一层使用轻量级的 LoRA (低秩适应) 适配器进行微调。
这将 Transformer 头的参数数量减少了 20%,同时允许模型根据其控制的机器人瞬间切换“模式”。
实验与结果
为了证明不到 10 亿参数的模型可以与巨头竞争,作者在仿真和现实世界中对 FLOWER 进行了一系列测试。
设置
FLOWER 在“OXE 大杂烩 (OXE-soup)”上进行了预训练——这是 Open X-Embodiment 数据集的一个精心挑选的子集,包含约 250,000 条轨迹。这只是大型模型所用数据的一小部分,但多样化的组合 (包括 BridgeV2、Droid 和 Google Robot 数据) 被证明是足够的。
测试涵盖了 10 个基准测试中的 190 项任务,包括:
- CALVIN: 一个用于长视距语言条件任务的标准基准。
- LIBERO: 测试知识迁移和终身学习。
- SIMPLER: 一个“真实到仿真 (Real-to-Sim)”的基准,用于评估策略的迁移效果。
- Real World: 在厨房环境中操作的 Franka Panda 机器人。

仿真中的统治地位
仿真结果令人震惊。尽管体积小,FLOWER 始终匹配或超越了最先进 (SoTA) 的模型,如 OpenVLA (70 亿参数) 和 \(\pi_0\) (30 亿参数) 。

仿真基准测试的主要结论:
- CALVIN: FLOWER 在 CALVIN ABC 分割上达到了新的 SoTA,展示了在遵循多条语言指令链方面的卓越能力。
- LIBERO: 在极具挑战性的 LIBERO-Long 基准 (长序列任务) 上,FLOWER 达到了 94.9% 的成功率 , 而 OpenVLA 仅在 53% 左右挣扎。
- 效率: 由于修剪后的主干和高效的流匹配,FLOWER 需要的内存和计算量显著减少。

如表 4 所示,FLOWER 在 RTX 4090 上以超过 300 Hz (每秒帧数) 的速度运行,而 OpenVLA 仅为 6 Hz。它还仅使用 1.8GB 的 VRAM,这意味着理论上你可以在游戏笔记本电脑甚至边缘硬件上运行这个高性能的机器人策略。
真实世界厨房任务
仿真很有用,但机器人生活在物理世界中。作者在一个厨房环境中部署了 FLOWER 控制 Franka Panda 机器人,任务包括打开微波炉、移动锅具和按下烤面包机拉杆。

在直接的正面交锋中 (表 14) ,FLOWER 达到了 61% 的总体成功率,显著高于 OpenVLA (31%) 和 Octo (10%)。
特别令人印象深刻的是 FLOWER 的 泛化能力 。 研究人员在以下情况下测试了机器人:
- 新颖物体: 机器人从未见过的物品。
- 干扰物: 桌子上杂乱无章的随机垃圾。
- 光照不足: 仅用手电筒照明运行机器人。


如表 15 详述,即使在环境恶劣的情况下,FLOWER 仍保持了可观的性能。例如,在有背景干扰物的情况下,FLOWER 保持了 69.5% 的成功率,而 OpenVLA 则降至 41.7%。
适应高频控制
机器人技术中最难的挑战之一是双手 (双臂) 操作,这通常需要高频控制 (50Hz 以上) 。 Aloha 基准通过在双手之间传递立方体或插入插销等任务对此进行了测试。

FLOWER (特别是使用关节状态数据训练的变体,记为 FLOWER-J) 在插入任务上优于专门的 ACT 策略,并在传递任务上与之相当。这证明了 全局 AdaLN 架构成功地允许模型适应完全不同的动作空间 (关节角度与末端执行器位置) ,而不会损失精度。
结论与启示
FLOWER 论文是一个重要的里程碑,因为它让先进机器人学习技术的获取变得更加普及。
很长一段时间以来,趋势一直是扩大规模——更多的参数,更多的数据,更多的 GPU。FLOWER 证明了 架构比单纯的规模更重要 。 通过智能地修剪机器人不需要的 VLM 部分 (中间融合) 并设计用于处理不同身体的高效机制 (全局 AdaLN) ,作者创建了一个模型,它:
- 更快: 推理速度比 OpenVLA 快 50 倍。
- 更便宜: 预训练仅需 200 GPU 小时 (相比之下通常需要数万小时) 。
- 更好: 在困难的基准测试中达到最先进的性能。
对于学生和研究人员来说,这是令人兴奋的消息。这意味着对通用机器人做出有意义的贡献不需要超级计算机。使用标准的 GPU 和明智的架构选择,我们可以构建不仅能力强,而且效率高到足以部署在现实世界中的机器人。
FLOWER 的代码和权重已经开源,邀请社区在这个高效的基础上进行构建。当我们展望未来时,FLOWER 表明,通往通用机器人的道路可能不是构建更大的大脑,而是构建更聪明、更专注的大脑。
](https://deep-paper.org/en/paper/640_flower_democratizing_gener-2530/images/cover.png)