引言

想象一下,你刚刚训练好了一个全新的、尖端的“通用”机器人策略——一个能够控制机械臂完成从叠衣服到整理杂货等各种任务的大脑。你很想知道它的表现如何。但问题来了: 为了在统计上证明你的模型足够好,你需要在不同的场景下运行数千次。

谁会坐在那里 100 个小时,每次机器人成功叠好衣服后,把衣服放回篮子里?当机器人把汤罐头从桌子上撞下来时,谁来重置场景?

直到现在,答案令人遗憾地通常是“研究生”。

这就是机器人技术中的评估瓶颈 。 随着机器人模型变得越来越大、能力越来越强 (如 OpenVLA 或 Octo) ,评估它们需要大量的人力劳动。这一瓶颈严重拖慢了进步的速度。

在这篇文章中,我们将深入探讨 AutoEval , 这是一篇来自加州大学伯克利分校研究人员的论文,他们提出了一个解决方案: 让机器人自己评估自己。通过结合学习到的“重置策略”和用于成功检测的视觉语言模型,AutoEval 允许真实机器人在几乎没有人为监督的情况下全天候运行实验。

图 1: AutoEval 系统概览。用户将策略提交到队列中,系统在物理硬件上自主评估这些策略,生成详细报告,同时与人工评估的相关性达到 99%。

问题所在: 为什么评估如此困难?

在计算机视觉或 NLP 等领域,评估通常是静态的。你通过模型运行一组测试图像或文本,计算准确率,然后就完成了。在机器人技术中,评估是动态的。机器人需要与物理世界进行交互。

要评估一个操纵策略,你需要:

  1. 设置物理场景 (将物体放在特定的起始位置) 。
  2. 运行机器人策略。
  3. 判断机器人是否成功 (抽屉真的关上了吗?) 。
  4. 重置场景到初始状态,以便运行下一次试验。

如果你正在构建一个通用模型,你可能需要 2500 次以上的试运行 (rollouts) 才能获得可靠的信号。那可是数周的人力时间。

为什么不使用模拟?

你可能会问: “为什么不在模拟器中运行这些测试?”这是一种常见的方法,像 SIMPLER 这样的基准测试就在使用。然而,模拟通常受到 Sim-to-Real (模拟到现实) 差距的困扰。物理引擎很难完美地模拟摩擦力、柔软的可变形物体 (如布料) 或复杂的光照。

图 6: 与模拟环境的比较。虽然模拟 (SIMPLER) 成本低廉,但在视觉和物理上的差异往往导致与现实世界相比结果不可靠。

如图 6 所示,模拟器看起来很逼真,但如果物理特性不完美,策略可能在模拟中失败但在现实中成功 (反之亦然) 。AutoEval 认为,为了获得最可靠的结果,你必须在现实世界中进行评估——但你必须使其具有可扩展性。

AutoEval 系统

AutoEval 的设计功能类似于物理机器人的集群调度系统。用户提交一个“作业” (一个要评估的策略) ,系统处理剩下的工作。

AutoEval 的核心是一个循环,它用学习到的模型取代了人类操作员。该系统由三个主要的学习组件组成:

  1. 待测策略 (The Policy Under Test) : 你想要评估的模型。
  2. 成功分类器 (The Success Classifier) : 一个判断任务是否完成的模型。
  3. 重置策略 (The Reset Policy) : 一个将世界恢复到起始状态的模型。

1. 成功分类器

AutoEval 没有编写脆弱的代码来检测成功 (例如,“如果抓手 z 高度 < 0.1”) ,而是使用视觉语言模型 (VLM) 。研究人员微调了 PaliGemma (一种 VLM) ,以回答关于场景的二元问题。

例如,系统向 VLM 提供机器人工作空间的图像,并询问: “抽屉是开着的吗?回答是或否。” 与硬编码的传感器不同,这种方法对光照变化和轻微的相机震动具有鲁棒性。

2. 重置策略

这是系统最聪明的部分。如何在不建造复杂的传送带或机械装置的情况下自动重置场景?很简单,训练另一个机器人策略来做这件事。

研究人员收集了一个小型数据集 (约 100 条轨迹) ,内容是人类遥操作机器人“撤销”任务——打开关闭的抽屉,从水槽中取出物体,或展开布料。然后,他们训练了一个鲁棒的策略 (使用行为克隆) 来执行这些重置操作。

由于重置策略是在多样化的数据上训练的,它可以处理待评估策略留下的各种“结束状态”。

3. 循环运行

组合在一起后,系统自主运行:

  1. 试运行 (Rollout) : 机器人尝试任务 (例如,“把茄子放进水槽”) 。
  2. 评判 (Judge) : VLM 检查它是否成功。
  3. 重置 (Reset) : 重置策略将物体移回起始分布。
  4. 重复 (Repeat) : 循环继续,直到达到要求的试验次数。

图 8: AutoEval 循环的定性可视化。第一行显示放置成功,经检测器确认。中间显示失败。底部显示叠布料。在所有情况下,系统都会检测结果并为下一次尝试进行重置。

硬件: Bridge-AutoEval

为了证明这一点行之有效,作者使用 WidowX 机械臂构建了 Bridge-AutoEval , 这是他们系统的物理实例化。

他们设置了三个不同的环境:

  1. 水槽 (Sink) : 拾取和放置任务 (例如,将物体放入水槽或沥水架) 。
  2. 抽屉 (Drawer) : 关节物体操纵 (打开/关闭抽屉) 。
  3. 布料 (Cloth) : 可变形物体操纵 (折叠布料) 。

图 2: 物理设置。一个 WidowX 250 机械臂和一个罗技网络摄像头。简单、易得的硬件,复现了流行的评估任务。

图 3: 三个评估场景: 水槽 (拾取和放置) 、抽屉 (关节物体) 和布料 (可变形物体) 。

这套设置特别强大之处在于其可访问性。团队创建了一个网络界面,研究人员可以提交他们自己的策略检查点。系统将作业排队,在物理机器人上运行,并将报告通过电子邮件发送给用户。

图 4: Web 用户界面。研究人员可以远程提交作业,将物理机器人实验室视为云计算集群。

实验结果: 它有效吗?

对于任何自动化评估系统来说,最大的问题是: 它与人类的判断一致吗?

如果 AutoEval 说一个策略有 70% 的成功率,但人类观看视频后说只有 40%,那么这个系统就是无用的。

AutoEval vs. 人类 vs. 模拟器

研究人员将 AutoEval 与以下对象进行了比较:

  • 人类裁判 (Human Oracle) : “金标准”的人工评估。
  • SIMPLER: 最先进的模拟基准。
  • Val-MSE: 一种常见的离线指标 (测量验证数据集上的误差) 。

结果非常明显。

图 7: 相关性结果。AutoEval (蓝色) 与人类评估达到了近乎完美的相关性。验证 MSE (绿色) 实际上在某些情况下呈负相关,而模拟 (橙色) 则不一致。

如图 7 所示, AutoEval 与人类评估达到了 0.94 的皮尔逊相关系数

  • 离线指标 (Val-MSE) 本质上是随机噪声,有时甚至与现实世界的表现呈负相关。
  • 模拟 (SIMPLER) 对于刚性物体 (如抽屉) 效果尚可,但在涉及特定物理特性或视觉域差距的任务上表现失败。

随时间的可靠性

AutoEval 的主要卖点之一是其“全天候”运行的能力。作者通过连续运行 24 小时来测试该系统。

图 10: AutoEval 随时间的一致性。系统在大约 8 小时内保持一致的评估分数,之后电机过热会导致漂移。简单的冷却暂停即可解决此问题。

在 24 小时内,单个 AutoEval 单元执行了大约 850 个评估回合

  • 所需的人工干预: 仅 3 次。
  • 总人工时间: 约 3 分钟 (相比之下,如果手动操作则需 16 小时) 。

这代表了 >99% 的人工监督时间缩减 。 该系统不仅仅是一个理论原型;它是一个实用的工具,极大地加速了迭代周期。

结论

AutoEval 代表了我们对机器人工作流程思考方式的转变。当我们迈向机器人的“基础模型”时,瓶颈不再仅仅是收集训练数据——而是验证模型是否真的有效。

通过利用现代模型的能力 (用于感知的 VLM,用于重置的鲁棒策略) ,我们可以将评估的苦差事卸载给机器人自己。

关键要点:

  • 现实世界 > 模拟: 对于微妙的操纵任务,物理评估提供了唯一可靠的信号。
  • 自动化是可能的: 我们不需要昂贵的工程固定装置来重置场景;我们只需要学习一个“重置策略”。
  • 规模化: AutoEval 将评估从人工瓶颈转变为可扩展的云服务。

作者已经开源了他们的代码和对 Bridge-AutoEval 单元的访问权限,希望以此标准化社区对通用策略的基准测试。在未来,我们可能会看到这些单元的分布式网络,允许研究人员在全球各地的硬件上测试他们的代码,而无需离开办公桌。


欲了解更多详情、技术实现和代码,请参阅完整论文: “AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。