AutoEval：让你的机器人自己给自己打分

引言

想象一下，你刚刚训练好了一个全新的、尖端的“通用”机器人策略——一个能够控制机械臂完成从叠衣服到整理杂货等各种任务的大脑。你很想知道它的表现如何。但问题来了: 为了在统计上证明你的模型足够好，你需要在不同的场景下运行数千次。

谁会坐在那里 100 个小时，每次机器人成功叠好衣服后，把衣服放回篮子里？当机器人把汤罐头从桌子上撞下来时，谁来重置场景？

直到现在，答案令人遗憾地通常是“研究生”。

这就是机器人技术中的评估瓶颈 。随着机器人模型变得越来越大、能力越来越强 (如 OpenVLA 或 Octo) ，评估它们需要大量的人力劳动。这一瓶颈严重拖慢了进步的速度。

在这篇文章中，我们将深入探讨 AutoEval , 这是一篇来自加州大学伯克利分校研究人员的论文，他们提出了一个解决方案: 让机器人自己评估自己。通过结合学习到的“重置策略”和用于成功检测的视觉语言模型，AutoEval 允许真实机器人在几乎没有人为监督的情况下全天候运行实验。

图 1: AutoEval 系统概览。用户将策略提交到队列中，系统在物理硬件上自主评估这些策略，生成详细报告，同时与人工评估的相关性达到 99%。

问题所在: 为什么评估如此困难？

在计算机视觉或 NLP 等领域，评估通常是静态的。你通过模型运行一组测试图像或文本，计算准确率，然后就完成了。在机器人技术中，评估是动态的。机器人需要与物理世界进行交互。

要评估一个操纵策略，你需要:

设置物理场景 (将物体放在特定的起始位置) 。
运行机器人策略。
判断机器人是否成功 (抽屉真的关上了吗？) 。
重置场景到初始状态，以便运行下一次试验。

如果你正在构建一个通用模型，你可能需要 2500 次以上的试运行 (rollouts) 才能获得可靠的信号。那可是数周的人力时间。

为什么不使用模拟？

你可能会问: “为什么不在模拟器中运行这些测试？”这是一种常见的方法，像 SIMPLER 这样的基准测试就在使用。然而，模拟通常受到 Sim-to-Real (模拟到现实) 差距的困扰。物理引擎很难完美地模拟摩擦力、柔软的可变形物体 (如布料) 或复杂的光照。

图 6: 与模拟环境的比较。虽然模拟 (SIMPLER) 成本低廉，但在视觉和物理上的差异往往导致与现实世界相比结果不可靠。

如图 6 所示，模拟器看起来很逼真，但如果物理特性不完美，策略可能在模拟中失败但在现实中成功 (反之亦然) 。AutoEval 认为，为了获得最可靠的结果，你必须在现实世界中进行评估——但你必须使其具有可扩展性。

AutoEval 系统

AutoEval 的设计功能类似于物理机器人的集群调度系统。用户提交一个“作业” (一个要评估的策略) ，系统处理剩下的工作。

AutoEval 的核心是一个循环，它用学习到的模型取代了人类操作员。该系统由三个主要的学习组件组成:

待测策略 (The Policy Under Test) : 你想要评估的模型。
成功分类器 (The Success Classifier) : 一个判断任务是否完成的模型。
重置策略 (The Reset Policy) : 一个将世界恢复到起始状态的模型。

1. 成功分类器

AutoEval 没有编写脆弱的代码来检测成功 (例如，“如果抓手 z 高度 < 0.1”) ，而是使用视觉语言模型 (VLM) 。研究人员微调了 PaliGemma (一种 VLM) ，以回答关于场景的二元问题。

例如，系统向 VLM 提供机器人工作空间的图像，并询问: “抽屉是开着的吗？回答是或否。” 与硬编码的传感器不同，这种方法对光照变化和轻微的相机震动具有鲁棒性。

2. 重置策略

这是系统最聪明的部分。如何在不建造复杂的传送带或机械装置的情况下自动重置场景？很简单，训练另一个机器人策略来做这件事。

研究人员收集了一个小型数据集 (约 100 条轨迹) ，内容是人类遥操作机器人“撤销”任务——打开关闭的抽屉，从水槽中取出物体，或展开布料。然后，他们训练了一个鲁棒的策略 (使用行为克隆) 来执行这些重置操作。

由于重置策略是在多样化的数据上训练的，它可以处理待评估策略留下的各种“结束状态”。

3. 循环运行

组合在一起后，系统自主运行:

试运行 (Rollout) : 机器人尝试任务 (例如，“把茄子放进水槽”) 。
评判 (Judge) : VLM 检查它是否成功。
重置 (Reset) : 重置策略将物体移回起始分布。
重复 (Repeat) : 循环继续，直到达到要求的试验次数。

图 8: AutoEval 循环的定性可视化。第一行显示放置成功，经检测器确认。中间显示失败。底部显示叠布料。在所有情况下，系统都会检测结果并为下一次尝试进行重置。

硬件: Bridge-AutoEval

为了证明这一点行之有效，作者使用 WidowX 机械臂构建了 Bridge-AutoEval , 这是他们系统的物理实例化。

他们设置了三个不同的环境:

水槽 (Sink) : 拾取和放置任务 (例如，将物体放入水槽或沥水架) 。
抽屉 (Drawer) : 关节物体操纵 (打开/关闭抽屉) 。
布料 (Cloth) : 可变形物体操纵 (折叠布料) 。

图 2: 物理设置。一个 WidowX 250 机械臂和一个罗技网络摄像头。简单、易得的硬件，复现了流行的评估任务。

图 3: 三个评估场景: 水槽 (拾取和放置) 、抽屉 (关节物体) 和布料 (可变形物体) 。

这套设置特别强大之处在于其可访问性。团队创建了一个网络界面，研究人员可以提交他们自己的策略检查点。系统将作业排队，在物理机器人上运行，并将报告通过电子邮件发送给用户。

图 4: Web 用户界面。研究人员可以远程提交作业，将物理机器人实验室视为云计算集群。

实验结果: 它有效吗？

对于任何自动化评估系统来说，最大的问题是: 它与人类的判断一致吗?

如果 AutoEval 说一个策略有 70% 的成功率，但人类观看视频后说只有 40%，那么这个系统就是无用的。

AutoEval vs. 人类 vs. 模拟器

研究人员将 AutoEval 与以下对象进行了比较:

人类裁判 (Human Oracle) : “金标准”的人工评估。
SIMPLER: 最先进的模拟基准。
Val-MSE: 一种常见的离线指标 (测量验证数据集上的误差) 。

结果非常明显。

图 7: 相关性结果。AutoEval (蓝色) 与人类评估达到了近乎完美的相关性。验证 MSE (绿色) 实际上在某些情况下呈负相关，而模拟 (橙色) 则不一致。

如图 7 所示, AutoEval 与人类评估达到了 0.94 的皮尔逊相关系数 。

离线指标 (Val-MSE) 本质上是随机噪声，有时甚至与现实世界的表现呈负相关。
模拟 (SIMPLER) 对于刚性物体 (如抽屉) 效果尚可，但在涉及特定物理特性或视觉域差距的任务上表现失败。

随时间的可靠性

AutoEval 的主要卖点之一是其“全天候”运行的能力。作者通过连续运行 24 小时来测试该系统。

图 10: AutoEval 随时间的一致性。系统在大约 8 小时内保持一致的评估分数，之后电机过热会导致漂移。简单的冷却暂停即可解决此问题。

在 24 小时内，单个 AutoEval 单元执行了大约 850 个评估回合 。

所需的人工干预: 仅 3 次。
总人工时间: 约 3 分钟 (相比之下，如果手动操作则需 16 小时) 。

这代表了 >99% 的人工监督时间缩减 。该系统不仅仅是一个理论原型；它是一个实用的工具，极大地加速了迭代周期。

结论

AutoEval 代表了我们对机器人工作流程思考方式的转变。当我们迈向机器人的“基础模型”时，瓶颈不再仅仅是收集训练数据——而是验证模型是否真的有效。

通过利用现代模型的能力 (用于感知的 VLM，用于重置的鲁棒策略) ，我们可以将评估的苦差事卸载给机器人自己。

关键要点:

现实世界 > 模拟: 对于微妙的操纵任务，物理评估提供了唯一可靠的信号。
自动化是可能的: 我们不需要昂贵的工程固定装置来重置场景；我们只需要学习一个“重置策略”。
规模化: AutoEval 将评估从人工瓶颈转变为可扩展的云服务。

作者已经开源了他们的代码和对 Bridge-AutoEval 单元的访问权限，希望以此标准化社区对通用策略的基准测试。在未来，我们可能会看到这些单元的分布式网络，允许研究人员在全球各地的硬件上测试他们的代码，而无需离开办公桌。

欲了解更多详情、技术实现和代码，请参阅完整论文: “AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。

引言#

问题所在: 为什么评估如此困难？#

为什么不使用模拟？#

AutoEval 系统#

1. 成功分类器#

2. 重置策略#

3. 循环运行#

硬件: Bridge-AutoEval#

实验结果: 它有效吗？#

AutoEval vs. 人类 vs. 模拟器#

随时间的可靠性#

结论#

引言