如果你尝试过教机械臂一项新技能,你就会知道其中的挣扎: 机器人是非常依赖数据的 (data-hungry) 。要让机器人可靠地倒水或叠衬衫,通常需要数百甚至数千次专家演示。这种“数据壁垒”是我们尚未在家庭中普及通用机器人的主要原因之一。
视觉-语言-动作 (Vision-Language-Action,VLA) 模型的最新进展——本质上是“机器人的大语言模型”——已经展现出了希望。这些模型在海量数据集上进行预训练,赋予了它们某种形式的机器人“常识”。然而,将这些巨大的模型适配到特定的本地任务中,往往需要昂贵的微调,这不仅会洗去它们的预训练知识,或者需要我们根本不具备的数据量。
ControlVLA 应运而生,这是由清华大学和北京通用人工智能研究院 (BIGAI) 的研究人员提出的一个新框架。受图像生成技术的启发,该方法允许机器人仅需 10 到 20 次演示即可掌握复杂的操纵任务。
在这篇文章中,我们将解构 ControlVLA 如何弥合大规模预训练模型与精确、低数据量的物体操纵之间的鸿沟。

核心问题: 泛化性 vs. 专一性
要理解为什么需要 ControlVLA,我们必须先看看机器人学习的现状。
两个极端
- 从头开始的模仿学习: 你专门为一个任务训练一个策略 (如扩散策略 Diffusion Policy) 。
- *优点: * 它可以非常精确。
- *缺点: * 每个新任务都需要海量数据 (100+ 次演示) 。它的迁移能力很差。
- 通用 VLA 模型: 像 Octo 或 RT-2 这样的模型在互联网规模的数据上训练。
- *优点: * 它们能很好地处理多样化的场景和语言指令。
- *缺点: * 微调它们很困难。它们往往难以达到特定任务所需的细粒度精度 (比如捡起一颗微小的螺丝) 。
缺失的一环: 以物体为中心
通用 VLA 模型的一个主要局限性在于,它们通常将场景作为整幅图像 (像素级特征) 来处理。然而,人类是基于物体来思考的。当你拿起杯子时,你关注的是把手和杯沿,而不是下面桌子的纹理。
以前尝试向机器人注入“物体意识”的方法是存在的,但它们需要精确的 CAD 模型或完全已知的 3D 姿态——这在现实世界中通常是难以企及的奢侈品。ControlVLA 通过结合 VLA 的通用推理能力和以物体为中心的表征 (Object-Centric Representations) 的精确性解决了这个问题,而且不需要数千个新样本。
ControlVLA 框架
研究人员设计了一个三阶段流水线来实现这一目标:
- 预训练: 使用大规模 VLA 模型。
- 物体表征: 提取场景中物体的具体信息。
- ControlNet 风格微调: 融合两者的秘诀。
让我们看看完整的架构:

1. VLA 骨干 (扩散策略)
ControlVLA 的基础是一个预训练策略,记为 \(\pi_g\)。作者使用的是扩散 Transformer (Diffusion Transformer) 。
如果你熟悉 DALL-E 或 Stable Diffusion 等图像生成器,你会知道它们通过从随机噪声中去除噪声来生成图像。 扩散策略 (Diffusion Policy) 做的事情一样,但针对的是机器人动作。它从随机噪声开始,迭代地对其进行“去噪”,以产生平滑的机器人运动轨迹。
在数学上,去噪过程如下所示:

训练目标则是最小化预测噪声与实际添加到动作中的噪声之间的差异:

这个预训练模型为机器人提供了一个强大的“先验”——即关于如何移动和理解图像的基本理解。
2. 以物体为中心的表征
为了在不需要 CAD 模型的情况下教机器人识别特定物体,系统结合了 GroundingDINO (用于根据文本描述查找物体) 和 SAM2 (Segment Anything Model 2,用于跟踪物体) 。
一旦物体被分割 (从背景中掩膜出来) ,ControlVLA 提取两个特征:
- 位置特征 (\(z_{pos}\)) : 物体在哪里? (编码后的坐标) 。
- 几何特征 (\(z_{geo}\)) : 它是什么形状? (通过从头训练的小型 CNN 提取) 。
这些特征被拼接成一个统一的物体表征 \(Z\)。
3. ControlNet 风格微调
这是论文中最具创新性的部分。挑战在于: 如何将这个新的物体表征 (\(Z\)) 输入到庞大的预训练 VLA 中而不破坏它?
如果只是简单地将物体特征与图像特征拼接并重新训练,就有“灾难性遗忘”的风险——机器人会忘记它的通用预训练知识。
作者借鉴了 ControlNet 的技术,这是一种最初用于控制图像生成的方法 (例如,强制 Stable Diffusion 生成特定姿势的猫) 。
双重交叉注意力机制
在标准的 Transformer 中,机器人意图动作 (\(A\)) 与其观测 (\(O\)) 之间的关系是通过交叉注意力计算的:

这里,\(Q\) 是查询 (来自动作) ,\(K, V\) 是键和值 (来自观测) 。
ControlVLA 对此进行了修改,专门为物体表征 (\(Z\)) 添加了第二条注意力分支。新公式变为:

第一项保留了原始 VLA 的行为。第二项注入了特定的物体引导信息。
零初始化: 稳定性的关键
至关重要的是,研究人员对与物体分支相关的新层采用了零初始化 。
物体特征的投影层 (\(W_z\) 和 \(B_z\)) 被初始化为零。这意味着在微调的最开始,物体分支的键 (\(K_z\)) 和值 (\(V_z\)) 为零:

为何这很高明? 在微调的第 0 步,双重注意力方程中的第二项消失了。模型的行为与预训练 VLA 完全一致。它不会产生由新的、未经训练的层引起的错误。
随着训练的进行,梯度流入这些零层,它们逐渐“苏醒”,慢慢地引导策略去关注特定的物体。
- (给对数学感兴趣读者的注: 一个常见的误解是零权重会导致零梯度从而无法学习。然而,如论文附录所示,关于权重的梯度取决于损失,而损失是非零的,这允许权重在第一步之后立即更新。) *

实验结果
研究人员在 8 项真实世界任务中测试了 ControlVLA,范围从刚性物体操纵到处理衣服等可变形物品。

实验设置涉及两个不同的机器人平台 (Franka Panda 和 AstriBot-S1) ,以确保该方法不依赖于特定硬件。

1. 成功率 vs. 基线
结果非常显著。作者将 ControlVLA 与几个最先进的基线进行了比较,包括:
- Octo: 领先的开源通用策略。
- ACT: 基于 Transformer 的动作分块 (Action Chunking) 。
- Diffusion Policy (扩散策略) : 模仿学习的标准 (从头开始训练) 。
仅使用有限的演示 (每个任务约 15-20 次) ,基线表现非常挣扎。

- ControlVLA (ControlManip) 达到了 76.7% 的总体成功率 。
- 扩散策略仅达到 20.8% 。
- Octo 和 ACT 几乎完全失败 (1.6% 和 5.0%) ,这可能是因为如果没有 ControlNet 架构,这些大型模型无法在如此少的数据下有效适应。
2. 数据效率
下限能有多低?研究人员改变了“整理玩具 (OrganizeToy) ”任务的演示次数。

如上图所示,ControlVLA (绿色柱) 仅需 20 次演示即可达到 80% 的成功率 。 为了接近这一性能,其他方法需要超过 100 次演示,而且即便如此,它们往往也达不到要求。
3. 长程任务
该方法也被证明可扩展到需要连续步骤的任务,例如“整理多个物体” (挑选三种不同的蔬菜并装篮) 或“更换抽屉中的物体” (打开抽屉,取出物品,放入新物品) 。

即便在这些复杂场景中,ControlVLA 仍保持了较高的成功率 (约 60%) ,显著优于 \(\pi_0\) 和扩散策略基线。
4. 鲁棒性与泛化能力
最后,以物体为中心的学习的一大承诺就是鲁棒性。如果机器人理解的是“杯子”,而不是“x,y 坐标处的像素”,它应该能处理不同的杯子或背景。

实验证实了这一点。当测试未见过的物体 (例如,将玩具换成一片面包) 或新背景时,ControlVLA 保持了可观的成功率 (分别为 70% 和 60%) ,而纯像素方法通常在视觉分布发生变化时失效。

结论
ControlVLA 代表了机器人操纵领域迈出的重要一步。它成功地指出了,虽然大型预训练模型提供了必要的运动基础,但它们缺乏新任务所需的具体、细粒度的接地 (grounding) 能力。
通过 ControlNet 风格的架构集成以物体为中心的表征 , 该框架融合了两个世界的优点:
- 高数据效率 : 从 10-20 次演示中学习,使得机器人的训练对现实世界的用户来说变得切实可行。
- 稳定性 : 零初始化确保了宝贵的预训练“肌肉记忆”不会在微调过程中被破坏。
- 精确性 : 显式跟踪物体使得处理倒水或折叠等复杂任务成为可能。
对于机器人学的学生和研究人员来说,ControlVLA 展示了架构适应性的力量——借用生成式 AI (ControlNet) 的概念来解决基本的控制问题。随着 VLA 模型的规模不断扩大,像这样高效的适应方法很可能成为将机器人部署到混乱、非结构化的现实世界中的标准配置。
](https://deep-paper.org/en/paper/2506.16211/images/cover.png)