引言
想象一下,你正在教机器人清理桌子。你向它演示如何拿起一个杯子并将其放入垃圾桶。然后,你在长长的餐桌上散布二十个杯子,并告诉机器人把它们全部清理干净。
对人类来说,这是轻而易举的。我们直观地理解“拿起”和“放置”的概念,并且无论杯子在哪里或有多少个,我们都能重复应用这个概念。然而,对于机器人来说,这是一场噩梦。
大多数现代机器人学习方法,如模仿学习,非常擅长模仿特定的动作。但是,如果你只用一个杯子训练它们,当面对二十个杯子或环境略有不同时,它们往往会失败。它们缺乏从演示的像素或位姿中抽象出任务逻辑的能力。
传统的解决方案是让人类工程师手动编写符号和规则——明确告诉机器人“On(Cup, Table)” (杯子在桌子上) 是什么意思,并编写“PickUp(Cup)” (拿起杯子) 的代码。但手动编写这些世界模型不仅乏味、脆弱,而且难以扩展。
如果机器人能够通过观察少量的原始演示, 自主发明自己的逻辑会怎样?
在论文 “From Real World to Logic and Back” 中,来自亚利桑那州立大学和布朗大学的研究人员介绍了 LAMP (Learning Abstract Models for Planning,学习用于规划的抽象模型) 。该框架允许机器人直接从连续的、未标记的轨迹数据中自主发现符号概念 (如“抓取”或“空闲”) 和高级动作。

如上图 1 所示,结果令人震惊。一个仅仅学习了抓取单个物体的机器人,可以零样本泛化到涉及多达 18 个物体的复杂场景——这些任务远远超出了它在训练中所见的情况。
在这篇文章中,我们将解构 LAMP 如何在机器人传感器的连续“现实世界”与规划算法的离散“逻辑”之间架起桥梁。
背景: 机器人的两个世界
要理解 LAMP 的重要性,我们需要了解机器人技术中的鸿沟。
- 连续世界 (运动规划) : 机器人生活在一个连续的空间中。它们有关节按度数旋转,有夹爪按毫米移动。为了从 A 点移动到 B 点,它们需要计算一条轨迹——一条穿过这个连续空间的路径。这需要大量的计算,且难以在长程 (Long Horizon) 任务 (例如数千次微小的移动) 中扩展。
- 离散世界 (任务规划) : 为了解决复杂问题,我们通常用符号来思考。“拿起苹果”是一个符号动作。它有前置条件 (手必须是空的) 和效果 (手现在是满的) 。这是 任务与运动规划 (TAMP) 的世界,通常使用 PDDL (规划域定义语言) 等语言。
问题在于接口 。 谁来定义这些符号?谁来告诉机器人一组特定的关节角度算作“拿着苹果”?从历史上看,这都是人类的工作。
最近利用大型语言模型 (LLM) 或行为克隆 (BC) 来自动化这一过程的尝试都有局限性。BC 难以泛化到新的时间跨度 (它只是死记硬背轨迹) 。LLM 经常“产生幻觉”生成错误的计划,或者需要预先存在的 API 才能运行。
LAMP 提出了一种新的方式: 让机器人观察世界的几何结构,并通过统计学方法确定哪些“符号”是重要的。
核心方法: LAMP 如何工作
LAMP 代表 Learning Abstract Models for Planning (学习用于规划的抽象模型) 。其目标是接收一组原始演示 (未标记的运动学轨迹) ,并输出一个完全可用的、可供标准规划器使用的符号世界模型。
该架构被分解为一个管道,将原始数据转化为高级智能。

让我们将其分解为三个步骤: 发现关键区域、发明关系和发明动作。
步骤 1: 发现关系关键区域 (RCRs)
研究人员假设,高级动作 (如“抓取”) 实际上只是进出环境中“显著区域”的转换。
然而,绝对位置并不重要。“抓取”动作无论杯子在桌子的左侧还是右侧看起来都是一样的。重要的是夹爪与物体之间的 相对位姿 。
LAMP 分析训练数据以寻找 关系关键区域 (Relational Critical Regions, RCRs) 。
- 数据处理: 系统将原始轨迹转换为对象对之间的相对位姿 (例如,夹爪相对于杯子,杯子相对于桌子) 。
- 聚类: 它在这些相对空间中寻找系统花费大量时间或发生特定交互的区域。
- GMMs (高斯混合模型) : 它将高斯混合模型拟合到这些聚类中。

在图 2 的 (b) 和 (c) 中,你可以看到可视化的结果。红色阴影区域代表学习到的 RCR。机器人意识到: “嘿,每当我相对于罐子处于这个特定位置时,就会发生一些有趣的事情。”它不知道“抓取 (Grasp) ”这个词,但它已经在数学上定义了抓取的区域。
步骤 2: 发明语义合理的概念
一旦机器人识别出这些关键区域 (GMMs) ,它就需要将它们转化为逻辑。逻辑是二元的: 真 (True) 或假 (False) 。
LAMP 引入了一个 关系发明者 (Relation Inventor) 。 对于在两种对象类型 (例如,夹爪和罐子) 之间识别出的每个 RCR,LAMP 创建一个二元谓词。
- 如果夹爪和罐子的相对位姿落在 GMM 的高概率区域内,则该关系为 真 (True) 。
- 否则,它为 假 (False) 。
这有效地将连续世界离散化。机器人自动生成词汇表。它可能会发明一个谓词 Relation_1(Gripper, Can),也就是我们要理解的 Holding(Gripper, Can) (抓着罐子) 。它可能会发明 Relation_2(Can, Table),实际上意味着 On(Can, Table) (在桌子上) 。

图 3(a) 完美地展示了这一点。红点显示了满足发明出的关系的采样位姿。机器人已自主地将“靠近”或“抓取”的概念落实到了物理几何中。
步骤 3: 发明高级动作
现在机器人拥有了词汇表 (Relation_1,Relation_2 等) 。它现在可以查看其训练演示,并将它们从连续的数字流转换为抽象状态的序列。
抽象过程:
- 提升状态 (Lifted States) : 机器人查看演示。在时间 \(t=0\),
Relation_2为真。在时间 \(t=50\),Relation_2变为假,而Relation_1变为真。 - 转换识别: 这种变化代表了一个高级动作。机器人记录“前置条件” (之前什么是真的) 和“效果” (什么发生了变化) 。
- 动作聚类: 它将相似的转换分组在一起,以定义标准化的符号动作。

看看图 6 和图 7。对于标准相机来说,这是不同的场景 (不同的杯子颜色,不同的位置) 。但对 LAMP 来说,关系变化是完全相同的。Can-On-Table (罐子在桌上) 关系关闭,Gripper-Holding-Can (夹爪抓着罐子) 关系开启。
通过聚合这些观察结果,LAMP 编写了自己的 PDDL 动作文件,包括参数、前置条件和效果 (如图 3b 所示) 。
规划循环
一旦模型学习完成,机器人就不再需要演示了。它拥有一个符号世界模型。当给定一个新任务 (例如,“确保所有 10 个杯子都满足 Relation_2”) 时,它使用经典规划器来搜索解决方案。
因为规划器在符号层面操作,所以它速度极快,并且可以解决时间跨度远超训练数据的任务。规划器输出一系列高级动作,LAMP 随后利用 GMM 的生成特性 (从“关键区域”采样位姿) ,将这些动作细化回电机运动。
实证评估: 它有效吗?
研究人员在五个领域测试了 LAMP,包括装箱、布置餐桌和使用 Keva 木板搭建结构。训练数据非常稀疏——最多 200 个简单任务的演示 (通常只有 1-3 个物体) 。
然而,测试任务却是大规模的。
泛化因子
使用的主要指标是 泛化因子 (Generalization Factor) : 测试任务中的物体数量与训练任务中的物体数量之比。
- 模仿学习 (BC) : 泛化因子通常为 1。如果你在 3 个块上训练,它在 4 个块上就会失败。
- LAMP: 实现了高达 18倍 的因子。在“咖啡馆”领域,它在 1 个物体上训练,却解决了包含 18 个物体的场景。

在图 4(a) 中,请看蓝色柱状图与红线的对比。红线代表“模仿学习区域”。LAMP 突破了这个天花板。
与基线的比较
作者将 LAMP 与以下方法进行了比较:
- STAMP: 一个使用人工设计符号模型的机器人。LAMP 达到了与其相当的性能,证明了学习到的抽象概念与专家设计的抽象概念一样好。
- Code-as-Policies (CoP): 一种基于 LLM 的方法。CoP 表现不佳,解决的任务不到 35%,主要是因为它缺乏 LAMP 从数据中得出的精确几何基础。
图 4(b) 显示 LAMP 的样本效率也非常高。它在仅有 40 个成功演示的情况下就开始发明有效的世界模型。
结论与启示
这篇题为“From Real World to Logic and Back”的论文代表了机器人自主性的重要一步。通过让机器人发明自己的概念,我们消除了机器人技术中最大的瓶颈之一: 需要人工工程师手动定义“拿起”是什么意思。
核心要点:
- 抽象是关键: 机器人不需要死记硬背像素;它们需要理解关系。
- 几何 \(\rightarrow\) 逻辑: 连续传感与离散规划之间的桥梁在于“关系关键区域”。
- 零样本泛化: 一旦机器人理解了任务的逻辑,它就能将该任务扩展到远超其训练数据的复杂程度。
这项工作预示着这样一个未来: 我们可以向机器人展示一个简单的家务示例——比如把一个盘子放进洗碗机——机器人就能自主构建一个足够强大的心理模型,从而清理整个宴会厅。这使我们从仅仅鹦鹉学舌般模仿动作的机器人,迈向了真正理解世界结构的机器人。
](https://deep-paper.org/en/paper/2402.11871/images/cover.png)