想象一下你在玩桌上冰球 (air hockey) 。你走到一张从未用过的球台前。冰球是重还是轻?桌面是滑还是涩?在你打出制胜一击之前,你会本能地轻敲冰球几次——轻轻地“戳 (poke) ”一下——来找找滑行的感觉。只有在那之后,你才会进行高速的“击打 (strike) ”。
人类天生就会进行这种主动探索 (active exploration) 。 我们在尝试一项困难任务之前,会通过与物体的交互来揭示其隐藏的物理属性。然而,对于机器人来说,这是一项巨大的挑战。传统的机器人控制通常假设我们预先知道物体的质量、摩擦力和质心。如果这些参数错了,机器人就会失败。
在这篇文章中,我们将深入探讨研究论文 “Poke and Strike: Learning Task-Informed Exploration Policies” (Poke and Strike: 学习任务导向的探索策略) , 该论文提出了一个新的强化学习 (RL) 框架。该方法教导机器人自主地“戳”物体,以确切地了解它们需要知道的信息——且仅限于必要的信息——然后再执行高风险的“击打”。
问题: 一次性任务与隐藏的物理学
这项工作解决的核心问题是涉及未知物理属性物体的一次性机器人任务 (one-shot robotic task) 。
考虑一个机械臂试图将冰球击入其够不着的球门。这是一个动态的、不可逆的动作。如果机器人对摩擦力的猜测错误,击打太轻,球会停在半路;如果击打太重,球会从桌子上弹飞。因为球门不可达,机器人无法在动作中途纠正错误。它只有一次机会。
为了成功,机器人需要做两件事:
- 探索 (Exploration) : 操纵物体 (戳它) 以估计质量和摩擦力等属性的策略。
- 执行 (Execution) : 使用这些估计的属性来执行任务 (击打它) 的策略。
这就提出了难题: 机器人如何知道哪些属性是重要的? (也许摩擦力很重要,但质量不重要) 。它应该探索多久?如果不需人类针对每个新物体进行系统微调,它如何能快速做到这一点?
解决方案: 任务导向的探索
研究人员提出了一个框架,让机器人根据任务本身的需求来学习探索策略。机器人不再试图以完美的精度学习关于物体的一切 (这太耗时了) ,而是学习识别那些对成功至关重要的属性。

如图 1 所示,该过程分为两个阶段:
- 训练 (Train,左侧) : 机器人学习探索。它生成一个探索策略 (\(\pi_{exp}\)) 和一个不确定性估计器。
- 测试 (Test,右侧) : 机器人执行学到的行为。它进行探索直到拥有足够信心,然后切换到任务策略 (\(\pi_{task}\)) 来执行击打。
让我们将其方法论分解为核心组件。
第一阶段: 特权教师 (Privileged Teacher)
第一步依赖于特权学习 (privileged learning) 。 在仿真中,我们可以获得“真值 (ground truth) ”数据——我们知道每个物体的确切摩擦力、质量和恢复系数。
研究人员训练了一个可以访问这些隐藏值的任务策略 (\(\pi_{task}\))。这个策略变成了“专家”或“教师”。它完全知道如何将冰球击入球门,因为它完美地掌握了物理规律。虽然这个策略不能直接用于现实世界 (因为我们不知道物理参数) ,但它作为成功的基准。
第二阶段: 确定什么最重要
并非所有的物理属性都同等重要。对于滑动的冰球,摩擦力至关重要。对于翻滚的盒子,质心可能更重要。
为了将这种直觉自动化,作者进行了敏感度分析 (sensitivity analysis) 。 他们采用训练好的特权任务策略,故意“欺骗”它,输入错误的物理参数,观察性能下降了多少。

图 4 完美地展示了这一点。图表绘制了成功率与估计误差 (\(\epsilon\)) 的关系。
- 陡峭的曲线 (如左图中的动摩擦力 Dynamic Friction) 意味着任务非常敏感。微小的误差就会导致失败。
- 平坦的曲线意味着该属性不太重要。机器人即使搞错了也能成功。
通过分析这些曲线,系统会自动生成误差阈值 (\(\epsilon_{threshold}\))。这些阈值规定了机器人对每个特定属性需要达到多高的精度,才能确保高成功率。
第三阶段: 学习探索
现在机器人需要学习如何测量这些属性。研究人员使用强化学习训练了一个探索策略 (\(\pi_{exp}\))。
关键在于,探索的奖励函数源自第二阶段的敏感度分析。机器人不仅因为移动而获得奖励,还因为收集到了能使其估计误差降至所需阈值以下的信息而获得奖励。
奖励函数定义如下:

在这里,只有当所有属性的误差都低于其特定阈值时,机器人才能获得正奖励 (\(r_{estimation}\))。这鼓励机器人执行那些能揭示必要物理细节的动作——比如戳或滑动物体。
同时,机器人训练一个在线属性估计器 (Online Property Estimator) 。 这是一个神经网络 (具体为 LSTM) ,它接收观察历史 (物体被戳时是如何移动的) 并输出估计的物理属性 (\(\hat{\phi}\))。
用于训练该网络的估计误差很简单:

这就建立了一个循环: 策略学习以一种让估计器更容易猜测物理属性的方式移动物体,而估计器则根据这些移动变得更擅长猜测。
第四阶段: 不确定性开关
在现实世界中,机器人不知道真值,所以它无法计算估计误差来决定何时停止探索。它需要一个替代指标。
作者引入了基于不确定性的策略切换 (Uncertainty-Based Policy Switching) 机制。他们使用神经网络集成 (ensemble) 来估计属性。如果网络之间存在分歧,不确定性就高。如果它们达成一致,不确定性就低。
不确定性量化是使用集成的协方差计算的:

\(\hat{\Sigma}_t\) 代表不确定性。系统在训练期间学习一个“不确定性阈值”。在测试阶段,机器人持续探索 (戳) ,直到它对关键属性的不确定性降至该阈值以下。一旦确信,它会立即切换到任务策略进行击打。

图 5 展示了这种相关性。随着机器人的探索 (x 轴为时间) ,实际误差 (RMSE,上图) 和估计的不确定性 (下图) 都在下降。这验证了不确定性是准确性的可靠代理。
实验结果
该方法在仿真环境和真实硬件上针对不同的任务进行了测试。
任务
主要实验集中在两个截然不同的操作挑战上:
- 击打 (Striking) : 将摩擦力/质量未知的冰球击向目标。
- 边缘推箱 (Edge Pushing) : 将质心未知的盒子 (例如一盒鸡蛋) 推到桌子边缘而不让其掉落。

性能对比基准
结果与几个基准进行了比较,包括域随机化 (Domain Randomization, DR) (一种常用技术,单一策略试图对所有可能的物理情况具有鲁棒性) 和使用通用系统辨识的方法。

图 3 显示了击打任务的成功率。
- Privilege (红线) : 这是拥有完美知识的教师策略 (~100% 成功率) 。
- Ours (青色三角形) : 本文提出的方法达到了 90.1% 的成功率 , 大幅超越其他方法。
- Baselines: 标准域随机化 (橙色) 和其他方法徘徊在 40% 以下。它们根本无法很好地适应特定的物体变化。
“Poke and Strike” 方法之所以成功,是因为它能适应。它不满足于“平均”表现;它弄清了当前冰球的具体摩擦力,并相应地调整击打方式。
现实世界验证
机器人学习的真正考验是向物理世界的迁移 (Sim-to-Real) 。作者将他们的策略部署在了 KUKA iiwa 机械臂上。

在图 6 中,我们可以看到机器人的实际操作。
- 阶段 1 (左上) : 机器人轻轻地戳冰球。
- 阶段 2 (右上) : 估计出摩擦力后,它蓄力将冰球击入绿色目标区域。
图 6(b) 中的图表显示了实时估计过程。你可以看到估计的摩擦值 (彩色线) 迅速收敛,不确定性 (底部图) 降至红色阈值线以下,从而触发了击打。
该系统能够区分由不同材料制成的冰球 (铝、尼龙与滚珠轴承) ,并调整击打力度,以确保冰球每次都能进入球门。

图 11 提供了硬件设置的特写,突出显示了用于测试探索策略鲁棒性的各种材料。
结论
“Poke and Strike” 论文为任务导向的探索提出了令人信服的论点。这种方法不再将系统辨识和控制分为两个不相关的领域,而是将它们统一起来。
主要结论:
- 效率: 机器人不应该试图学习关于物体的一切;它们应该学习对任务有用的东西。
- 自主性: 通过使用不确定性估计,机器人自行决定何时学到了足够的信息可以开始行动。
- 仿真到现实 (Sim-to-Real) : 学习估计属性使机器人能够弥合仿真与现实之间的差距,从而即时适应现实世界的摩擦力和质量。
这项研究让我们离这样的机器人更近了一步: 它们可以走进一个新环境,拿起一个不熟悉的工具,快速“掂量”或“摇晃”一下以了解它,然后开始工作。
](https://deep-paper.org/en/paper/2509.00178/images/cover.png)