RoboMonkey：将测试时扩展定律引入机器人领域

想象一下你正在尝试解决一道复杂的数学题。你会脱口而出脑海中蹦出的第一个数字吗？大概不会。你可能会草草写下几种可能的解法，反复检查你的逻辑，并在确定答案之前进行验证。人类在面对更难的问题时，自然会分配更多的“计算量” (思考时间) 。

在大型语言模型 (LLM) 领域，这一原则已被形式化为“推理时扩展 (inference-time scaling) ”。诸如思维链 (Chain-of-Thought) 推理或生成多个代码片段并进行验证等技术，彻底改变了人工智能处理复杂逻辑任务的方式。

然而，机器人领域在这一范式上很大程度上落后了。大多数现代机器人的大脑——特别是视觉-语言-动作 (VLA) 模型——都在“系统 1”的基础上运行: 它们看到图像并立即输出单个动作块。如果第一次猜测是错误的 (由于遮挡、干扰物或新颖的光照条件) ，机器人就会失败。

在最近的一篇论文中，来自斯坦福大学、加州大学伯克利分校和 NVIDIA Research 的研究人员提出了一个关键问题: 我们能否通过在测试时扩展计算量来提高机器人的性能?

他们的答案是 RoboMonkey , 这是一个将“先生成后验证”循环引入机器人操作的框架。结果令人瞩目: 通过采样多个动作并使用学习到的验证器来挑选最佳动作，RoboMonkey 在具有挑战性的现实世界任务中将成功率提高了 25%。

在这篇文章中，我们将剖析 RoboMonkey 论文，探索机器人扩展定律的发现、验证系统的架构，以及这种方法如何弥合模拟与混乱的现实世界之间的差距。

动机: 从生成到验证

最先进的机器人策略，如 OpenVLA 或 Octo，通常通过模仿学习进行训练。它们摄取大量的专家演示数据集，并学习克隆专家的行为。虽然有效，但这种方法将机器人控制纯粹视为一个生成问题。

研究人员认为，我们应该透过验证的视角来看待控制。复杂性理论表明，验证一个解决方案通常比从头生成一个解决方案要容易。如果机器人能够生成一组多样化的“提议”，并稳健地验证哪一个是正确的，它就能克服单次预测的脆弱性。

发现: 推理时扩展定律

在构建系统之前，作者首先必须证明扩展确实有帮助。他们使用 Bridge V2 数据集进行了一项研究，分析了采样动作的数量与错误率 (基于基准真实专家动作测量) 之间的关系。

他们测试了三种采样方法:

策略采样 (Policy Sampling) : 重复查询 VLA (例如 OpenVLA) 以生成动作。
高斯扰动 (Gaussian Perturbation) : 从 VLA 中采样少量动作，对其拟合一个高斯分布，并从该分布中进行大量采样。
随机采样 (Random Sampling) : 均匀采样动作 (作为基准) 。

两张图表显示动作误差随着样本数量的增加而减少。左图比较了采样方法；右图比较了不同的 VLA 架构。

如上图 Figure 1 所示，结果揭示了一个一致的 推理时扩展定律 (Inference-Time Scaling Law) 。

在左侧，我们可以看到随着样本数量 (\(k\)) 的增加，预言机动作误差 (Oracle Action Error，即批次中最佳样本的误差) 遵循幂律下降。正如右图所示，这种关系在不同的底层模型 (CogACT、Octo、OpenVLA、SpatialVLA) 中都成立。

关键洞察: 仅仅生成更多的选项就能显著增加批次中存在高质量动作的概率。值得注意的是，“高斯扰动”方法 (左图橙色线) 的表现几乎与完整的策略采样一样好，但在计算上要便宜得多——这一发现成为了 RoboMonkey 架构的支柱。

RoboMonkey 框架

基于这些扩展定律，作者提出了 RoboMonkey。该框架分两个不同阶段运行: 训练动作验证器 (Action Verifier，作为裁判) 和用于部署的“先生成后验证”流程。

展示 RoboMonkey 两个阶段的图表。阶段 1 展示了合成数据生成和训练。阶段 2 展示了带有高斯扰动和验证的部署流程。

第一阶段: 训练动作验证器

RoboMonkey 的核心是一个经过微调的视觉-语言模型 (VLM) ，充当批评者 (critic) 的角色。它接收图像、指令和提议的动作，并输出代表该动作质量的标量分数。

但是如何训练这样一个验证器呢？手动将数百万个机器人动作标记为“好”或“坏”成本过高。作者引入了一个巧妙的 合成数据生成管道 :

采样与聚类: 对于训练数据集中的给定状态和指令，他们使用标准机器人策略生成 \(N\) 个动作。为了确保多样性，他们将这些动作聚类为 \(K\) 个代表性动作。
评分: 他们计算每个生成的动作与数据集中人类专家采取的实际基准真值动作之间的均方根误差 (RMSE) 。
创建配对: 他们创建动作对。如果动作 A 的 RMSE 低于动作 B (更接近专家) ，则该配对被标记为“A > B”。

这在没有任何人工干预的情况下创建了海量的合成偏好数据集。

奖励建模目标

验证器使用改进的 Bradley-Terry 模型进行训练。这类似于 RLHF (来自人类反馈的强化学习) 模型的训练方式，但针对连续的机器人动作进行了特定调整。

标准目标鼓励模型给获胜动作 (\(a^W\)) 的评分高于失败动作 (\(a^L\)) 。然而，并非所有的胜利都是平等的。有时动作 A 只比 B 稍好一点；而在其他时候，A 是完美的，而 B 是一场灾难。为了捕捉这一点，作者根据 RMSE 的实际差异添加了一个 间隔 (margin) 项。

损失函数定义为:

用于训练奖励模型的损失函数方程，包含一个间隔项 alpha。

这里，\(\Delta_t^*\) 代表两个动作之间质量 (RMSE) 的基准真值差异。项 \(\alpha\) 是一个缩放该间隔的超参数。作者发现，设置 \(\alpha=0.1\) 显著提高了验证器区分动作的能力，与标准偏好损失相比，提高了精确率和召回率。

第二阶段: 扩展测试时计算 (部署)

一旦验证器训练完成，RoboMonkey 就准备好进入现实世界了。在部署期间，系统遵循 Figure 2 下半部分所示的流程。

初始采样: 系统从基础 VLA (例如 OpenVLA) 中采样少量的动作 (\(\hat{N}\)) 。
提议分布: 系统不是查询大型 VLA 数百次 (这会很慢) ，而是对初始样本的平移和旋转分量拟合一个 高斯分布 (\(\mathcal{N}(\mu, \Sigma)\)) 。
海量采样: 然后，它从这个高斯分布中抽取大量 (\(\hat{K}\)) 的廉价样本。
验证: 微调后的动作验证器对所有 \(\hat{K}\) 个候选者进行评分。
选择: 得分最高的动作被执行。

这种混合方法平衡了多样性和速度。VLA 提供大致的“方向” (高斯均值) ，而扰动探索局部空间以找到所需的精确移动，然后由验证器将其识别出来。

实验与结果

研究人员在模拟环境 (SIMPLER) 和物理硬件 (WidowX 机器人) 上评估了 RoboMonkey。

分布内性能 (模拟)

在复制现实世界设置的 SIMPLER 环境中，RoboMonkey 与基础 OpenVLA 模型和 V-GPS (另一个验证基准) 进行了比较。

比较成功率的柱状图。左图显示 SIMPLER 结果，RoboMonkey 优于 OpenVLA 9%。右图显示现实世界结果，有 25% 的提升。

如 Figure 3 左图所示，RoboMonkey 实现了 47.5% 的平均成功率，比基础 OpenVLA 策略提高了 9%。在需要高精度的任务中提升最为显著，例如“堆叠方块” (Stack Cube，+10%) 和“将茄子放入篮子” (Eggplant in Basket，+19%) ，在这些任务中，基础策略经常因轻微碰撞或抓取不精确而失败。

分布外鲁棒性 (现实世界)

对机器人真正的考验在于它如何处理从未见过的东西。作者设置了四个具有挑战性的现实世界任务，涉及新颖的物体 (锤子、特定颜色的杯子) 和干扰物。

结果( Figure 3 右图) 是戏剧性的。RoboMonkey 实现了 60% 的成功率 , 而 OpenVLA 仅为 35%。

以“将香蕉放入篮子”任务为例。场景包含一个黄色香蕉和一个黄色篮子。基础 OpenVLA 模型经常感到困惑，成功率为 0%，因为它无法有效地在视觉上区分目标。RoboMonkey 通过生成多样化的选项并进行验证，能够选择正确针对香蕉的动作，将成功率跃升至 60%。

展示机器人任务在现实世界、SIMPLER 和 LIBERO 环境中执行的图像网格。

Figure 7 展示了这些执行轨迹的示例。无论是堆叠杯子还是小心地将辣椒放在盘子上，验证步骤都过滤掉了困扰标准 VLA 的“幻觉”或不精确的动作。

是否太慢？ (延迟分析)

对“测试时计算”的一个常见批评是延迟。如果一个机器人需要 10 秒钟来决定如何移动 1 厘米，那它就是无用的。

作者通过使用 SGLang 实现一个针对批处理优化的自定义服务引擎来解决这个问题。

两个延迟图表。左: 优化后的 OpenVLA 击败了朴素实现。右: 高斯扰动明显快于朴素策略采样。

Figure 5 (右) 展示了为什么高斯扰动方法如此至关重要。橙色线显示，随着样本数量的增加，延迟的增长与朴素查询策略 (青色线) 相比非常缓慢。通过结合自定义服务引擎和高斯提议策略，RoboMonkey 可以在大约 650 毫秒 (1.5 Hz) 内采样并验证 16 个候选动作。这对于流畅的实时控制来说已经足够快了。

合成数据的力量

最后，作者研究了更多的数据是否会带来更好的验证器。由于数据是合成的 (从现有数据集中生成) ，理论上它是无限的。

显示成功率随着合成数据集大小呈对数线性增长的图表。

Figure 6 证实了“扩展定律”也适用于验证器的训练数据。将合成数据集的大小从 \(10^5\) 增加到 \(10^7\) 对，导致下游成功率稳步攀升。这表明，仅仅将更多现有数据处理成比较对，就可以在不需要新的物理演示的情况下获得更好的机器人。

结论

RoboMonkey 代表了我们处理通用机器人技术方式的转变。与其要求模型在第一次尝试时就完美无缺，我们正在学习让它们“头脑风暴”然后批评自己的想法更为有效。

这项工作的关键要点是:

机器人存在推理时扩展定律: 随着生成的样本增多，动作误差可靠地下降。
验证比生成更容易: VLM 可以在合成数据上进行训练，以稳健地识别好的动作，即使在分布外 (OOD) 场景中也是如此。
效率至关重要: 通过使用高斯扰动和优化的服务，这种“系统 2”思维可以实时发生。

随着机器人基础模型的不断发展，像 RoboMonkey 这样的框架表明，通往鲁棒性的道路不仅仅是更大的模型——而是更智能的推理。通过允许机器人在行动前“思考”，我们向着将它们部署在现实世界无结构的混乱中迈进了一步。

动机: 从生成到验证#

发现: 推理时扩展定律#

RoboMonkey 框架#

第一阶段: 训练动作验证器#

奖励建模目标#

第二阶段: 扩展测试时计算 (部署)#

实验与结果#

分布内性能 (模拟)#

分布外鲁棒性 (现实世界)#

是否太慢？ (延迟分析)#

合成数据的力量#

结论#