自主发明逻辑的机器人：LAMP 如何跨越原始数据与长程规划之间的鸿沟

引言

想象一下，你正在教机器人清理桌子。你向它演示如何拿起一个杯子并将其放入垃圾桶。然后，你在长长的餐桌上散布二十个杯子，并告诉机器人把它们全部清理干净。

对人类来说，这是轻而易举的。我们直观地理解“拿起”和“放置”的概念，并且无论杯子在哪里或有多少个，我们都能重复应用这个概念。然而，对于机器人来说，这是一场噩梦。

大多数现代机器人学习方法，如模仿学习，非常擅长模仿特定的动作。但是，如果你只用一个杯子训练它们，当面对二十个杯子或环境略有不同时，它们往往会失败。它们缺乏从演示的像素或位姿中抽象出任务逻辑的能力。

传统的解决方案是让人类工程师手动编写符号和规则——明确告诉机器人“On(Cup, Table)” (杯子在桌子上) 是什么意思，并编写“PickUp(Cup)” (拿起杯子) 的代码。但手动编写这些世界模型不仅乏味、脆弱，而且难以扩展。

如果机器人能够通过观察少量的原始演示, 自主发明自己的逻辑会怎样？

在论文 “From Real World to Logic and Back” 中，来自亚利桑那州立大学和布朗大学的研究人员介绍了 LAMP (Learning Abstract Models for Planning，学习用于规划的抽象模型) 。该框架允许机器人直接从连续的、未标记的轨迹数据中自主发现符号概念 (如“抓取”或“空闲”) 和高级动作。

LAMP 框架展示了零样本泛化能力。(a) 显示了简单的训练任务。(b) 显示了发明出的符号。(c) 显示了机器人利用发明出的逻辑解决大规模、复杂的测试任务。

如上图 1 所示，结果令人震惊。一个仅仅学习了抓取单个物体的机器人，可以零样本泛化到涉及多达 18 个物体的复杂场景——这些任务远远超出了它在训练中所见的情况。

在这篇文章中，我们将解构 LAMP 如何在机器人传感器的连续“现实世界”与规划算法的离散“逻辑”之间架起桥梁。

背景: 机器人的两个世界

要理解 LAMP 的重要性，我们需要了解机器人技术中的鸿沟。

连续世界 (运动规划) : 机器人生活在一个连续的空间中。它们有关节按度数旋转，有夹爪按毫米移动。为了从 A 点移动到 B 点，它们需要计算一条轨迹——一条穿过这个连续空间的路径。这需要大量的计算，且难以在长程 (Long Horizon) 任务 (例如数千次微小的移动) 中扩展。
离散世界 (任务规划) : 为了解决复杂问题，我们通常用符号来思考。“拿起苹果”是一个符号动作。它有前置条件 (手必须是空的) 和效果 (手现在是满的) 。这是 任务与运动规划 (TAMP) 的世界，通常使用 PDDL (规划域定义语言) 等语言。

问题在于接口。谁来定义这些符号？谁来告诉机器人一组特定的关节角度算作“拿着苹果”？从历史上看，这都是人类的工作。

最近利用大型语言模型 (LLM) 或行为克隆 (BC) 来自动化这一过程的尝试都有局限性。BC 难以泛化到新的时间跨度 (它只是死记硬背轨迹) 。LLM 经常“产生幻觉”生成错误的计划，或者需要预先存在的 API 才能运行。

LAMP 提出了一种新的方式: 让机器人观察世界的几何结构，并通过统计学方法确定哪些“符号”是重要的。

核心方法: LAMP 如何工作

LAMP 代表 Learning Abstract Models for Planning (学习用于规划的抽象模型) 。其目标是接收一组原始演示 (未标记的运动学轨迹) ，并输出一个完全可用的、可供标准规划器使用的符号世界模型。

该架构被分解为一个管道，将原始数据转化为高级智能。

LAMP 算法架构概览。该过程分为关系发明和动作发明，并最终汇入混合规划。

让我们将其分解为三个步骤: 发现关键区域、发明关系和发明动作。

步骤 1: 发现关系关键区域 (RCRs)

研究人员假设，高级动作 (如“抓取”) 实际上只是进出环境中“显著区域”的转换。

然而，绝对位置并不重要。“抓取”动作无论杯子在桌子的左侧还是右侧看起来都是一样的。重要的是夹爪与物体之间的 相对位姿 。

LAMP 分析训练数据以寻找 关系关键区域 (Relational Critical Regions, RCRs) 。

数据处理: 系统将原始轨迹转换为对象对之间的相对位姿 (例如，夹爪相对于杯子，杯子相对于桌子) 。
聚类: 它在这些相对空间中寻找系统花费大量时间或发生特定交互的区域。
GMMs (高斯混合模型) : 它将高斯混合模型拟合到这些聚类中。

LAMP 流程图。注意 (b) 和 (c) 部分，系统识别出相对于对象的关键关系区域 (红色区域) 。

在图 2 的 (b) 和 (c) 中，你可以看到可视化的结果。红色阴影区域代表学习到的 RCR。机器人意识到: “嘿，每当我相对于罐子处于这个特定位置时，就会发生一些有趣的事情。”它不知道“抓取 (Grasp) ”这个词，但它已经在数学上定义了抓取的区域。

步骤 2: 发明语义合理的概念

一旦机器人识别出这些关键区域 (GMMs) ，它就需要将它们转化为逻辑。逻辑是二元的: 真 (True) 或假 (False) 。

LAMP 引入了一个 关系发明者 (Relation Inventor) 。对于在两种对象类型 (例如，夹爪和罐子) 之间识别出的每个 RCR，LAMP 创建一个二元谓词。

如果夹爪和罐子的相对位姿落在 GMM 的高概率区域内，则该关系为 真 (True) 。
否则，它为 假 (False) 。

这有效地将连续世界离散化。机器人自动生成词汇表。它可能会发明一个谓词 Relation_1(Gripper, Can)，也就是我们要理解的 Holding(Gripper, Can) (抓着罐子) 。它可能会发明 Relation_2(Can, Table)，实际上意味着 On(Can, Table) (在桌子上) 。

发明出的关系可视化。(a) 显示了对应于谓词的几何区域。(b) 显示了这些区域如何构成 PDDL 动作。

图 3(a) 完美地展示了这一点。红点显示了满足发明出的关系的采样位姿。机器人已自主地将“靠近”或“抓取”的概念落实到了物理几何中。

步骤 3: 发明高级动作

现在机器人拥有了词汇表 (Relation_1，Relation_2 等) 。它现在可以查看其训练演示，并将它们从连续的数字流转换为抽象状态的序列。

抽象过程:

提升状态 (Lifted States) : 机器人查看演示。在时间 \(t=0\)，Relation_2 为真。在时间 \(t=50\)，Relation_2 变为假，而 Relation_1 变为真。
转换识别: 这种变化代表了一个高级动作。机器人记录“前置条件” (之前什么是真的) 和“效果” (什么发生了变化) 。
动作聚类: 它将相似的转换分组在一起，以定义标准化的符号动作。

轨迹可视化。机器人将这些物理快照转换为符号状态变化 (例如，从’在桌子上’变为’在夹爪中’) 。第二个轨迹与不同的物体。尽管物体颜色或位置不同，机器人仍能识别出相同的符号模式。

看看图 6 和图 7。对于标准相机来说，这是不同的场景 (不同的杯子颜色，不同的位置) 。但对 LAMP 来说，关系变化是完全相同的。Can-On-Table (罐子在桌上) 关系关闭，Gripper-Holding-Can (夹爪抓着罐子) 关系开启。

通过聚合这些观察结果，LAMP 编写了自己的 PDDL 动作文件，包括参数、前置条件和效果 (如图 3b 所示) 。

规划循环

一旦模型学习完成，机器人就不再需要演示了。它拥有一个符号世界模型。当给定一个新任务 (例如，“确保所有 10 个杯子都满足 Relation_2”) 时，它使用经典规划器来搜索解决方案。

因为规划器在符号层面操作，所以它速度极快，并且可以解决时间跨度远超训练数据的任务。规划器输出一系列高级动作，LAMP 随后利用 GMM 的生成特性 (从“关键区域”采样位姿) ，将这些动作细化回电机运动。

实证评估: 它有效吗？

研究人员在五个领域测试了 LAMP，包括装箱、布置餐桌和使用 Keva 木板搭建结构。训练数据非常稀疏——最多 200 个简单任务的演示 (通常只有 1-3 个物体) 。

然而，测试任务却是大规模的。

泛化因子

使用的主要指标是 泛化因子 (Generalization Factor) : 测试任务中的物体数量与训练任务中的物体数量之比。

模仿学习 (BC) : 泛化因子通常为 1。如果你在 3 个块上训练，它在 4 个块上就会失败。
LAMP: 实现了高达 18倍 的因子。在“咖啡馆”领域，它在 1 个物体上训练，却解决了包含 18 个物体的场景。

比较泛化能力和鲁棒性的图表。图 (a) 显示 LAMP 与基线相比实现了巨大的泛化因子。

在图 4(a) 中，请看蓝色柱状图与红线的对比。红线代表“模仿学习区域”。LAMP 突破了这个天花板。

与基线的比较

作者将 LAMP 与以下方法进行了比较:

STAMP: 一个使用人工设计符号模型的机器人。LAMP 达到了与其相当的性能，证明了学习到的抽象概念与专家设计的抽象概念一样好。
Code-as-Policies (CoP): 一种基于 LLM 的方法。CoP 表现不佳，解决的任务不到 35%，主要是因为它缺乏 LAMP 从数据中得出的精确几何基础。

图 4(b) 显示 LAMP 的样本效率也非常高。它在仅有 40 个成功演示的情况下就开始发明有效的世界模型。

结论与启示

这篇题为“From Real World to Logic and Back”的论文代表了机器人自主性的重要一步。通过让机器人发明自己的概念，我们消除了机器人技术中最大的瓶颈之一: 需要人工工程师手动定义“拿起”是什么意思。

核心要点:

抽象是关键: 机器人不需要死记硬背像素；它们需要理解关系。
几何 \(\rightarrow\) 逻辑: 连续传感与离散规划之间的桥梁在于“关系关键区域”。
零样本泛化: 一旦机器人理解了任务的逻辑，它就能将该任务扩展到远超其训练数据的复杂程度。

这项工作预示着这样一个未来: 我们可以向机器人展示一个简单的家务示例——比如把一个盘子放进洗碗机——机器人就能自主构建一个足够强大的心理模型，从而清理整个宴会厅。这使我们从仅仅鹦鹉学舌般模仿动作的机器人，迈向了真正理解世界结构的机器人。

引言#

背景: 机器人的两个世界#

核心方法: LAMP 如何工作#

步骤 1: 发现关系关键区域 (RCRs)#

步骤 2: 发明语义合理的概念#

步骤 3: 发明高级动作#

规划循环#

实证评估: 它有效吗？#

泛化因子#

与基线的比较#

结论与启示#

引言