巧干而非蛮干——利用主动测试大幅降低机器人评估成本

在现代机器人领域，训练出一个策略仅仅是战斗的一半。另一半——往往是更昂贵的一半——是弄清楚它是否真的有效。

想象一下，你训练了一个机器人来做家务。它可以拿起杯子，打开抽屉，还能擦桌子。但它能拿起红色的杯子吗？它能打开一个卡住的抽屉吗？为了确定这一点，你需要对它进行测试。现在，想象你有五个不同版本的机器人软件 (即策略) 和五十项不同的任务。这就是 250 种独特的组合。如果你为了获得具有统计显著性的结果而将每个组合运行 10 次，那么你将面临 2,500 次物理实验。

在计算机视觉领域，运行 2,500 次测试只需几秒钟。而在机器人领域，这需要人类去重置场景、移动物体并重启系统。其成本高得令人望而却步。

这篇博客文章将探讨一篇最新的研究论文: “Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection” (基于主动实验选择的多任务机器人策略高效评估) , 该论文提出了一种更聪明的方法来处理这一瓶颈。研究人员不再随机测试所有内容，而是将评估视为一个主动学习问题，优先选择那些能以最低成本提供最多信息的实验。

问题所在: 组合爆炸

核心问题在于机器人技术的“物理性”。与在云端运行的软件评估不同，机器人评估会消耗现实世界的时间和体力。

挑战概览。左侧展示了详尽评估的高昂成本。右侧展示了利用潜在关系估算性能的提议方法。

如图 1 所示，盲目地评估每一个任务上的每一个策略是低效的。然而，任务之间往往存在结构上的共性。如果一个机器人能有效地拿起一罐可乐，那么它很有可能也能拿起一个红色的瓶子。这些任务在语义和物理上是相似的。

研究人员认为，我们可以利用这些潜在关系。通过对所有任务和策略的性能分布进行建模，我们可以智能地选择下一个要运行的实验，从而大幅减少了解机器人能力所需的总工作量。

解决方案: 主动测试

作者将机器人评估公式化为一个总体参数估计 (Population Parameter Estimation) 问题。他们的目标不仅仅是计算一个简单的成功率 (例如“60% 的成功率”) ，而是针对每一个策略-任务对，学习其结果的潜在概率分布。

他们引入了一个包含两个主要组件的框架:

代理模型 (Surrogate Model) : 一个神经网络，用于预测特定策略在特定任务上的表现。
主动实验选择 (Active Experiment Selection) : 一种策略，根据代理模型当前的不确定性，并结合运行测试的成本，来决定下一个实验。

1. 代理模型

为了预测性能，系统需要理解什么是“任务”和“策略”。作者使用了一种架构，将策略和任务都转换为向量嵌入 (embeddings) 。这些嵌入被输入到一个多层感知机 (MLP) 中，MLP 输出分布的参数 (例如用于连续奖励的高斯分布的均值和方差，或用于二元结果的成功概率) 。

方法架构。任务和策略嵌入被输入到 MLP 中以预测性能分布。这为选择下一个实验的采集函数提供信息。

语言的力量 这篇论文的一个关键贡献是他们表示任务的方式。他们发现使用自然语言处理 (NLP) 嵌入可以让模型在任务之间进行泛化。然而，并非所有的词都是生而平等的。

在机器人技术中，动词通常决定了任务的动力学特性 (例如“举起”、“推”、“打开”) ，而名词决定了对象。研究人员发现，标准的语言嵌入往往过于关注名词。为了解决这个问题，他们构建了一个着重权衡动词的任务嵌入:

\[ e _ { T _ { j } } = 0 . 8 \cdot e _ { T _ { j } } ^ { \mathrm { v e r b } } + 0 . 2 \cdot e _ { T _ { j } } ^ { \mathrm { t a s k } } + 0 . 1 \cdot \mathcal { N } ( 0 , 1 ) . \]

如上式所示，嵌入 \(e_{T_j}\) 是动词嵌入和完整任务描述的加权和，加上一个小的噪声项，以帮助在向量空间中区分语义相似的任务。这使得模型能够理解“拿起一个苹果”在机械操作上与“拿起一个球”是相似的。

2. 成本感知实验选择

一旦代理模型能够预测结果，下一步就是决定运行哪个实验。目标是最大化期望信息增益 (Expected Information Gain, EIG) 。简单来说，我们要运行那个能最大程度减少模型对机器人整体能力困惑的实验。

然而，在现实世界中，信息并不是唯一的因素——成本至关重要。切换任务 (例如清理桌子以设置开门任务) 比重复当前任务要昂贵得多。

作者提出了一个成本感知采集函数 (Cost-Aware Acquisition Function) :

\[ a _ { \mathrm { c o s t - a w a r e } } ( \pi _ { i } , T _ { j } , T _ { \mathrm { c u r r e n t } } ) = \frac { \mathbb { Z } ( \pi _ { i } , T _ { j } ) } { ( \lambda \cdot c _ { \mathrm { s w i t c h } } ( T _ { \mathrm { c u r r e n t } } , T _ { j } ) ) + 1 } , \]

下面是如何解读这个公式:

分子 \(\mathbb{Z}(\pi_i, T_j)\) 代表信息增益 (我们能学到多少) 。
分母包含了从当前任务 (\(T_{current}\)) 切换到新任务 (\(T_j\)) 的成本。
\(\lambda\) 是一个超参数，控制我们对成本的关注程度。

如果一个潜在的实验提供了很高的信息增益，但需要非常昂贵的场景切换，它的得分就会下降。系统将倾向于选择“附近的”或执行成本低廉且具有信息量的实验，只有当信息增益巨大时才会切换上下文。

实验设置

为了验证这一方法，研究人员使用了来自真实世界和模拟机器人评估的离线数据集。这使他们能够模拟主动学习过程，而无需为了论文本身物理运行数千小时的机器人时间。

使用的数据集: HAMSTER (81个任务) ，OpenVLA (29个任务) ，以及 MetaWorld (模拟操作基准) 。

他们在图 3 所示的三个不同领域进行了测试:

HAMSTER: 具有高度多样性，包含 81 个任务和 5 个策略。
OpenVLA: 跨越不同机器人形态 (机械臂类型) 的 29 个任务。
MetaWorld: 一个标准的模拟基准，他们可以在其中广泛测试不同的策略以及同一策略的不同检查点。

关键结果

语言有帮助吗？

首先，作者分析了他们特定的“动词侧重”嵌入策略是否真的帮助代理模型学得更快。

任务表示方法的比较。Optimal (上限) 表现最好，但 ‘Verb’ (动词) 嵌入始终优于 ‘Random’ (随机) 和标准的 ‘Lang’ (语言) 嵌入。

图 4 显示了随时间变化的对数似然 (衡量模型预测数据好坏的指标) 。“Verb” (动词) 表示法 (绿线) 始终优于标准语言嵌入和随机嵌入。这证实了关注动作 (动词) 为预测机器人性能提供了强大的先验。

它具有成本效益吗？

最关键的问题是这种方法是否节省了工作量。研究人员将他们的成本感知 EIG 方法与随机采样 (人们目前评估机器人的标准方式) 进行了比较。

L1 均值误差 vs. 成本。成本感知方法 (蓝色和红色) 比随机基准更快地实现了更低的误差。

在图 6 中，我们观察L1 误差 , 它衡量预测的平均性能与真值之间的差异。

越低越好。
越靠左越好 (成本更低) 。
成本感知任务 EIG (Cost-aware Task EIG，蓝线) 下降迅速，这意味着它以极少的“开销”极快地估算出了机器人的真实性能。
随机采样 (棕色/绿色线) 需要显著更多的成本才能达到相同的准确度水平。

可视化学习过程

为了更具体地说明这一点，我们可以可视化代理模型在运行时的大脑。图 7 展示了跨任务和策略的预测性能热力图。

预测均值分布演变的热力图。在 t=0 时，图是均匀的。到了 t=750，它与复杂的“真实分布”非常相似。

t=0 时: 模型一无所知；热力图是均匀的。
t=150 时: 模式开始显现。模型开始意识到某些任务比其他任务更难。
t=750 时: 预测图看起来与真实分布 (True Distribution) (最右侧) 惊人地相似，尽管只采样了一小部分可能的实验。

结论与要点

这就论文强调了机器人技术中的一个关键转变: 从“暴力”评估转向“智能”评估。通过将评估阶段本身视为一个学习问题，研究人员可以节省大量的时间和资源。

关键要点:

结构是存在的: 机器人任务不是独立的。在一个任务上的成功可以预测在另一个任务上的成功。
语言是一座桥梁: 使用聚焦动词的嵌入有助于在任务之间迁移知识。
成本很重要: 将切换任务的物理成本纳入选择算法中，可以大幅提高效率。

随着机器人策略变得更加通用并能够执行数百项任务，像这样的方法将成为标准实践，以确保我们无需一支全天候运行实验的人类监管大军，就能验证机器人的安全性和可靠性。

问题所在: 组合爆炸#

解决方案: 主动测试#

1. 代理模型#

2. 成本感知实验选择#

实验设置#

关键结果#

语言有帮助吗？#

它具有成本效益吗？#

可视化学习过程#

结论与要点#