如果你曾经尝试过通过机器学习教机械臂执行任务,你肯定知道其中的痛苦: 对数据的极度渴求。仅仅教一个机器人拿起马克杯并放在杯垫上,往往就需要数百甚至数千次的人类演示。如果你把马克杯稍微向左移一点,或者换成一个更高的杯子,机器人通常就会失败。
这种缺乏“样本效率” (需要太多数据) 和“泛化能力” (稍有变动即失败) 的问题,是机器人技术面临的一个巨大瓶颈。这也是为什么像《杰森一家》里的罗西 (Rosie) 那样帮我们整理厨房的机器人至今仍未出现的主要原因。
在一篇引人入胜的新论文《Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames》中,来自昆士兰科技大学机器人中心和阿德莱德大学的研究人员提出了一个巧妙的解决方案。他们展示了一种方法,让机器人能够从少至 10 次演示 中学会长程、多对象的任务——比如泡一杯茶。
这是如何做到的?通过重新思考机器人观察世界的坐标系,或者说“框架 (Frames) ”。在这篇文章中,我们将剖析他们的方法,解释 定向可供性坐标系 (Oriented Affordance Frames) 的概念,并看看这如何带来稳健且具有泛化能力的机器人行为。
问题所在: 参考“系”
要理解这篇论文的重要性,我们首先需要了解在模仿学习 (行为克隆) 过程中,机器人通常是如何“看待”任务的。
当你引导机器人完成一项任务 (演示) 时,机器人会记录世界的状态和所采取的动作。但它是如何表示这种状态的呢?
- 全局坐标系 (Global Frame): 机器人记住房内物体的确切位置 (例如,“移动到坐标 X=10, Y=20”) 。如果你移动了桌子或物体,机器人还是会移动到物体 曾经 所在的那个空位置。
- 末端执行器坐标系 (End-Effector Frame): 机器人学习相对于自己手部的运动。这有一定帮助,但仍然需要机器人从各个可能的角度观察物体,才能理解如何与其交互。
- 标准可供性坐标系 (Standard Affordance Frame): 机器人学习相对于物体特定部分 (如把手) 的运动。这比较好,但如果机器人相对于物体的起始位置不同,它在处理接近轨迹时仍然会遇到困难。
研究人员在下图中完美地阐释了这个问题:

如图 Figure 2 所示, 全局坐标系 (左) 需要演示覆盖工作空间的每一寸。 末端执行器/可供性坐标系 (中) 减轻了这种负担,但仍需要大量数据来捕捉机器人与物体之间的关系。
研究人员提出了第三种选择: 定向可供性坐标系 (右) 。这种坐标系不仅与物体对齐,而且朝向机器人。这种微妙的转变使得无论机器人或物体在房间里的实际位置如何,任务的数学表示几乎都是相同的。
解决方案: 定向可供性坐标系
这篇论文的核心贡献是一种结构化的状态和动作空间表示方法,它极大地减少了训练所需的数据量。让我们来拆解他们方法的三个主要支柱。
1. 任务分解与可供性
像泡茶这样的长程任务很难,因为误差会随着时间积累。作者通过将长程任务分解为更小的 子策略 (sub-policies) 来解决这个问题。
他们不是训练一个巨大的神经网络来“泡茶”,而是针对特定的交互训练独立的小型策略,例如“抓取杯子”、“将杯子放在茶托上”或“倒茶”。
至关重要的是,每个子任务都是由 可供性 (Affordance) 定义的。可供性是物体的一种属性,定义了它如何被使用。对于一个杯子来说,把手是用于抓取的可供性;开口是用于倒水的可供性。

Figure 5 展示了这种层级结构。复杂的任务被划分为由特定物体部位 (可供性坐标系) 和机器人工具 (工具坐标系) 定义的交互。
2. 定向可供性坐标系 (OAF)
这是这篇论文的“秘诀”。
在标准机器人技术中,物体上的坐标系 (如杯把手) 是固定的。如果杯子旋转,坐标系也随之旋转。然而,研究人员意识到,对于 策略 (学到的行为) 而言,机器人与物体之间的关系才是最重要的。
他们定义 定向可供性坐标系 如下:
- 原点: 以目标可供性为中心 (例如杯把手) 。
- 方向: 旋转坐标系,使得其中一个轴 (特别是 x 轴,或称为“漏斗轴”) 在 任务开始时 直接指向机器人的工具坐标系。

在 Figure 3 中,注意那个棕色的箭头。在 定向可供性坐标系 (中) 里,坐标系被旋转,使得轴指向机器人的夹爪 (工具坐标系) 。
为什么这很高明? 想象一下你在训练机器人抓取杯子。
- 场景 A: 杯子在机器人的左边。
- 场景 B: 杯子在机器人的右边。
在全局坐标系中,这看起来像是两个完全不同的动作 (向左移 vs 向右移) 。但在 定向可供性坐标系 中,因为坐标系旋转以面向机器人,这两种场景在数学上看起来是一样的: “沿 x 轴向前移动并闭合夹爪”。
这这就产生了一种数据的“漏斗”效应。无论演示发生在房间的哪个位置,所有的演示在 OAF 中都被对齐成一致的轨迹。

正如 Figure 4 直观展示的那样,这种对齐消除了任务的可变性。策略不需要学习如何从左边接近 和 从右边接近。它只需要学习在其自身的相对坐标系中“向前接近”。这就是为什么 10 次演示就足够了——机器人不需要看到每一种变化,因为坐标系已经把这些变化归一化了。
3. 基于基础模型的感知
为了让这种方法在现实世界中有效 (而不作弊使用二维码或标记) ,机器人需要自动找到这些可供性坐标系。
作者提出了一种利用现代 视觉基础模型 (Vision Foundation Models) 的感知流程:
- Grounding DINO: 检测物体 (例如,找到“茶壶”) 。
- SAM (Segment Anything Model): 从图像中分割出物体。
- FoundationPose: 实时跟踪物体的 6D 位姿 (位置和旋转) 。
- DINO-ViT: 匹配特定特征 (如把手) 以定义可供性点。

这个流程 (如 Figure 9 所示) 使系统在感知方面具备“零样本 (zero-shot)”能力。你不需要为每一个新马克杯训练定制的检测器;基础模型会处理识别物体及其把手位置的繁重工作。
4. 自我进度预测
机器人怎么知道什么时候停止“抓取杯子”并开始“放置杯子”?
通常,研究人员会编写复杂的“如果是-那么”规则或训练一个独立的高级管理策略。在这里,作者使用了一种更简单、优雅的方法。在训练期间,他们根据演示的完成程度计算一个进度标量 (从 0 到 1) 。
策略学会了预测这个值。当机器人运行时,它只需检查自己预测的进度。如果“抓取”策略说“我已经 100% 完成了”,系统就会自动切换到链条中的下一个子策略。

Figure 15 展示了这些预测的实际效果。你可以看到随着机器人执行每个子任务,置信度 (进度) 稳步上升。
实验结果
研究人员在三个复杂的现实世界任务上测试了他们的方法: 倒茶、放鞋和制作咖啡。主要的关注点是倒茶任务,这需要对液体和易碎物体进行精确操作。

样本效率与成功率
结果非常惊人。仅用 10 次演示 , 定向可供性坐标系 (OAF) 方法就在所有子任务中实现了 90.9% 的平均成功率 。
相比之下:
- 末端执行器坐标系: 约 48% 的成功率。
- 全局坐标系: 约 59% 的成功率 (在分布外任务中完全失败) 。

看一看上面 Figure 6 中的图表 (b) 。 蓝线 (定向可供性坐标系) 在极少的演示下就达到了高成功率。红线 (非定向) 则非常吃力。图表 (d) 更具说明性: 要达到 OAF 用 10 次演示获得的效果,标准的基于图像的策略需要近 300 次演示 。
泛化能力
对机器人的真正考验在于它能否处理以前没见过的东西。
空间泛化: 研究人员在特定的排列下训练机器人,然后将物体打乱到新的位置 (分布外,Out-of-Distribution) 。因为 OAF 将数据相对于机器人进行了“漏斗化”归集,策略仍然有效,平均达到了 83.1% 的成功率 。 在这些场景中,全局坐标系基线的成功率降至 0% 。
类内泛化: 机器人能使用它从未见过的茶壶吗?作者在一个茶具组上进行训练,并在形状和颜色各异的未见过马克杯和茶壶上进行测试。

如 Figure 8 (以及下文 Figure 7 中的物体集合) 所示,机器人成功操作了新物体。这是因为感知流程 (FoundationPose + DINO) 正确识别了新的“把手”位置,而策略只是相对于那个新坐标系执行了学到的“抓取把手”动作。

组合泛化
最后,将这些技能串联起来的能力至关重要。该方法允许“组合泛化”。这意味着你可以单独训练“倒水”策略和单独训练“抓取”策略。在运行时,即使机器人在结束“抓取”任务时的位置与训练时开始“倒水”任务的位置略有不同,你也可以将它们串联起来解决长程任务。OAF 能够吸收这些微小的不一致性。

Figure 1 完美地总结了这一点: 左侧从 10 次演示中学习,右侧在混乱、复杂、新颖的环境中部署。
对基座移动的鲁棒性
一个意外但很酷的发现是对移动操作的鲁棒性。因为坐标系是相对于工具和物体的,所以在手臂操作时,机器人的基座实际上可以移动。

Figure 10 显示了机器人即使在其基座 (安装它的推车) 位置移动时,也能成功抓起杯子。全局坐标系策略在这里会立即失败。
结论与启示
论文《Learning from 10 Demos》为反对深度学习中常见的暴力数据堆砌方法提供了有力的论据。通过注入特定的结构偏置——定向可供性坐标系——研究人员将一个艰难的学习问题变成了一个简单的问题。
以下是给学生和开发者的主要启示:
- 坐标系很重要: 你如何表示数据 (输入空间) 往往比神经网络的架构更重要。一个巧妙的坐标变换可以抵得上数千个训练样本。
- 相对优于绝对: 对于机器人技术而言,学习相对运动 (机器人对物体) 几乎总是优于学习绝对坐标,特别是在泛化方面。
- 基础模型赋能抽象: 我们现在可以依靠强大的视觉模型来提供高级语义信息 (如“把手在哪里?”) ,从而让控制策略专注于运动本身,而不是图像处理。
- 样本效率是关键: 要让机器人进入家庭,它们必须学得快。只需 10 次演示的技术在现实产品中是可行的;需要 1000 次演示的技术则不然。
这项工作为未来的机器人铺平了道路: 它们可以走进一个新的厨房,看着一个从未见过的水壶,识别出它的把手,然后倒出一杯茶——而这一切都基于几英里外实验室里的寥寥数次教学。
](https://deep-paper.org/en/paper/2410.12124/images/cover.png)