在现代机器人领域,训练出一个策略仅仅是战斗的一半。另一半——往往是更昂贵的一半——是弄清楚它是否真的有效。
想象一下,你训练了一个机器人来做家务。它可以拿起杯子,打开抽屉,还能擦桌子。但它能拿起红色的杯子吗?它能打开一个卡住的抽屉吗?为了确定这一点,你需要对它进行测试。现在,想象你有五个不同版本的机器人软件 (即策略) 和五十项不同的任务。这就是 250 种独特的组合。如果你为了获得具有统计显著性的结果而将每个组合运行 10 次,那么你将面临 2,500 次物理实验。
在计算机视觉领域,运行 2,500 次测试只需几秒钟。而在机器人领域,这需要人类去重置场景、移动物体并重启系统。其成本高得令人望而却步。
这篇博客文章将探讨一篇最新的研究论文: “Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection” (基于主动实验选择的多任务机器人策略高效评估) , 该论文提出了一种更聪明的方法来处理这一瓶颈。研究人员不再随机测试所有内容,而是将评估视为一个主动学习问题,优先选择那些能以最低成本提供最多信息的实验。
问题所在: 组合爆炸
核心问题在于机器人技术的“物理性”。与在云端运行的软件评估不同,机器人评估会消耗现实世界的时间和体力。

如图 1 所示,盲目地评估每一个任务上的每一个策略是低效的。然而,任务之间往往存在结构上的共性。如果一个机器人能有效地拿起一罐可乐,那么它很有可能也能拿起一个红色的瓶子。这些任务在语义和物理上是相似的。
研究人员认为,我们可以利用这些潜在关系。通过对所有任务和策略的性能分布进行建模,我们可以智能地选择下一个要运行的实验,从而大幅减少了解机器人能力所需的总工作量。
解决方案: 主动测试
作者将机器人评估公式化为一个总体参数估计 (Population Parameter Estimation) 问题。他们的目标不仅仅是计算一个简单的成功率 (例如“60% 的成功率”) ,而是针对每一个策略-任务对,学习其结果的潜在概率分布。
他们引入了一个包含两个主要组件的框架:
- 代理模型 (Surrogate Model) : 一个神经网络,用于预测特定策略在特定任务上的表现。
- 主动实验选择 (Active Experiment Selection) : 一种策略,根据代理模型当前的不确定性,并结合运行测试的成本,来决定下一个实验。
1. 代理模型
为了预测性能,系统需要理解什么是“任务”和“策略”。作者使用了一种架构,将策略和任务都转换为向量嵌入 (embeddings) 。这些嵌入被输入到一个多层感知机 (MLP) 中,MLP 输出分布的参数 (例如用于连续奖励的高斯分布的均值和方差,或用于二元结果的成功概率) 。

语言的力量 这篇论文的一个关键贡献是他们表示任务的方式。他们发现使用自然语言处理 (NLP) 嵌入可以让模型在任务之间进行泛化。然而,并非所有的词都是生而平等的。
在机器人技术中,动词通常决定了任务的动力学特性 (例如“举起”、“推”、“打开”) ,而名词决定了对象。研究人员发现,标准的语言嵌入往往过于关注名词。为了解决这个问题,他们构建了一个着重权衡动词的任务嵌入:
\[ e _ { T _ { j } } = 0 . 8 \cdot e _ { T _ { j } } ^ { \mathrm { v e r b } } + 0 . 2 \cdot e _ { T _ { j } } ^ { \mathrm { t a s k } } + 0 . 1 \cdot \mathcal { N } ( 0 , 1 ) . \]如上式所示,嵌入 \(e_{T_j}\) 是动词嵌入和完整任务描述的加权和,加上一个小的噪声项,以帮助在向量空间中区分语义相似的任务。这使得模型能够理解“拿起一个苹果”在机械操作上与“拿起一个球”是相似的。
2. 成本感知实验选择
一旦代理模型能够预测结果,下一步就是决定运行哪个实验。目标是最大化期望信息增益 (Expected Information Gain, EIG) 。 简单来说,我们要运行那个能最大程度减少模型对机器人整体能力困惑的实验。
然而,在现实世界中,信息并不是唯一的因素——成本至关重要。切换任务 (例如清理桌子以设置开门任务) 比重复当前任务要昂贵得多。
作者提出了一个成本感知采集函数 (Cost-Aware Acquisition Function) :
\[ a _ { \mathrm { c o s t - a w a r e } } ( \pi _ { i } , T _ { j } , T _ { \mathrm { c u r r e n t } } ) = \frac { \mathbb { Z } ( \pi _ { i } , T _ { j } ) } { ( \lambda \cdot c _ { \mathrm { s w i t c h } } ( T _ { \mathrm { c u r r e n t } } , T _ { j } ) ) + 1 } , \]下面是如何解读这个公式:
- 分子 \(\mathbb{Z}(\pi_i, T_j)\) 代表信息增益 (我们能学到多少) 。
- 分母包含了从当前任务 (\(T_{current}\)) 切换到新任务 (\(T_j\)) 的成本。
- \(\lambda\) 是一个超参数,控制我们对成本的关注程度。
如果一个潜在的实验提供了很高的信息增益,但需要非常昂贵的场景切换,它的得分就会下降。系统将倾向于选择“附近的”或执行成本低廉且具有信息量的实验,只有当信息增益巨大时才会切换上下文。
实验设置
为了验证这一方法,研究人员使用了来自真实世界和模拟机器人评估的离线数据集。这使他们能够模拟主动学习过程,而无需为了论文本身物理运行数千小时的机器人时间。

他们在图 3 所示的三个不同领域进行了测试:
- HAMSTER: 具有高度多样性,包含 81 个任务和 5 个策略。
- OpenVLA: 跨越不同机器人形态 (机械臂类型) 的 29 个任务。
- MetaWorld: 一个标准的模拟基准,他们可以在其中广泛测试不同的策略以及同一策略的不同检查点。
关键结果
语言有帮助吗?
首先,作者分析了他们特定的“动词侧重”嵌入策略是否真的帮助代理模型学得更快。

图 4 显示了随时间变化的对数似然 (衡量模型预测数据好坏的指标) 。“Verb” (动词) 表示法 (绿线) 始终优于标准语言嵌入和随机嵌入。这证实了关注动作 (动词) 为预测机器人性能提供了强大的先验。
它具有成本效益吗?
最关键的问题是这种方法是否节省了工作量。研究人员将他们的成本感知 EIG 方法与随机采样 (人们目前评估机器人的标准方式) 进行了比较。

在图 6 中,我们观察L1 误差 , 它衡量预测的平均性能与真值之间的差异。
- 越低越好。
- 越靠左越好 (成本更低) 。
- 成本感知任务 EIG (Cost-aware Task EIG,蓝线) 下降迅速,这意味着它以极少的“开销”极快地估算出了机器人的真实性能。
- 随机采样 (棕色/绿色线) 需要显著更多的成本才能达到相同的准确度水平。
可视化学习过程
为了更具体地说明这一点,我们可以可视化代理模型在运行时的大脑。图 7 展示了跨任务和策略的预测性能热力图。

- t=0 时: 模型一无所知;热力图是均匀的。
- t=150 时: 模式开始显现。模型开始意识到某些任务比其他任务更难。
- t=750 时: 预测图看起来与真实分布 (True Distribution) (最右侧) 惊人地相似,尽管只采样了一小部分可能的实验。
结论与要点
这就论文强调了机器人技术中的一个关键转变: 从“暴力”评估转向“智能”评估。通过将评估阶段本身视为一个学习问题,研究人员可以节省大量的时间和资源。
关键要点:
- 结构是存在的: 机器人任务不是独立的。在一个任务上的成功可以预测在另一个任务上的成功。
- 语言是一座桥梁: 使用聚焦动词的嵌入有助于在任务之间迁移知识。
- 成本很重要: 将切换任务的物理成本纳入选择算法中,可以大幅提高效率。
随着机器人策略变得更加通用并能够执行数百项任务,像这样的方法将成为标准实践,以确保我们无需一支全天候运行实验的人类监管大军,就能验证机器人的安全性和可靠性。
](https://deep-paper.org/en/paper/2502.09829/images/cover.png)