引言

想象一下要求机器人“在倾斜的白板上画一个完美的五角星”或者“把这些散乱的方块推成整齐的一条直线”。对于人类来说,这些要求很简单。但对于机器人而言,这代表了高层语义理解与底层几何精度之间复杂的相互作用。

多年来,机器人学家一直致力于解决 任务与运动规划 (Task and Motion Planning, TAMP) 问题。挑战在于如何跨越 离散 决策 (拿起哪个物体,使用哪个工具) 与 连续 控制 (如何在不碰撞障碍物的情况下平滑移动关节) 之间的鸿沟。

最近,基础模型 (Foundation Models, FMs) 和大型语言模型 (LLMs) 带来了革命性的希望。我们已经看到 LLM 生成代码来控制机器人的演示。然而,这里有一个陷阱: LLM 擅长推理 (“我需要拿起杯子”) ,但非常不擅长物理和精确数值 (“我需要在 x, y, z 坐标处施加 2.4N 的力”) 。目前的方法通常会导致机器人“产生幻觉”,构想出看似可行实则不可行的动作,导致碰撞或任务失败。

在这篇文章中,我们将剖析一篇新论文: “Meta-Optimization and Program Search using Language Models for Task and Motion Planning” (MOPS) 。 这项研究提出了一个迷人的解决方案: 我们不要求 LLM 直接控制机器人,而是要求它充当一个 元优化器 (meta-optimizer)。它编写一个数学程序,然后由数值优化器进行调整,最后由运动规划器进行求解。

这听起来很复杂,但它本质上是给了机器人一个负责策略的“大脑”,一个负责调优的“计算器”,以及一个负责运动的“反射系统”。让我们深入了解它是如何工作的。


背景: TAMP 问题

要理解 MOPS 为何重要,我们需要先了解当前方法的局限性。

经典 TAMP

传统的 TAMP 涉及将符号规划 (如 PDDL) 与轨迹优化联系起来。工程师手动定义“谓词” (如 IsHolding(BlockA) 这样的规则) 。规划器搜索这些规则的序列以达成目标。

  • 优点: 精确,保证安全性。
  • 缺点: 脆弱。如果工程师没有为特定情况编写规则,机器人就会失败。这需要巨大的人工投入。

“代码即策略”时代

随着 GPT-4 和其他模型的兴起,研究人员开始提示 LLM 编写 Python 代码来调用机器人原语 (例如 robot.pick_up(block)) 。

  • 优点: 极其灵活;能很好地处理自然语言指令。
  • 缺点: LLM 缺乏空间推理能力。它们可能会告诉机器人将方块放置在数学上不可能或会导致碰撞的坐标上。

缺失的一环

MOPS 的作者指出,先前基于 FM 的方法存在两个极端:

  1. 抽象过多: 链接预先封装好的技能,而不调整细节。
  2. 缺乏抽象: 试图直接预测关节角度 (LLM 在这方面表现极差) 。

MOPS 处于两者之间。它利用 LLM 来定义优化问题的 结构,但将 数值细节 留给专门的算法处理。


核心方法: MOPS

MOPS 代表 元优化与程序搜索 (Meta-Optimization and Program Search) 。 其核心思想是将规划问题视为对 约束序列 的搜索,而不是对动作序列的搜索。

该框架在一个三层循环中运行,如下图所示。

MOPS 方法及其经验性能概览图。

让我们分解这三个层级。

第 1 层: 语言模型程序搜索 (架构师)

在最高层,我们有基础模型 (FM)。系统向 FM 提供场景和目标的文本描述。

状态定义和用户目标描述的图示。

MOPS 不要求 FM “移动手臂”,而是要求 FM 生成一个 语言模型程序 (Language Model Program, LMP) 。 具体来说,它要求生成一个定义 非线性规划 (Non-Linear Program, NLP) 的函数。

这段代码并不指定 如何 移动,而是指定 哪些约束必须为真。例如,如果任务是画一条线,LLM 可能会输出代码,在数学上强制要求: “末端执行器必须在时间 \(t_1\) 和 \(t_2\) 之间与表面接触。”

LLM 输出两样东西:

  1. 约束结构 (\(\alpha_i\)): 哪些约束适用? (例如,“保持夹爪垂直”) 。
  2. 初始参数猜测 (\(\alpha_c^{init}\)): 数值的粗略猜测 (例如,“从 x=0.2 处开始画”) 。

从数学上讲,LLM 试图通过选择离散约束来最小化成本:

公式 3

这里,\(\Psi\) 代表外在成本 (我们成功了吗?) ,它取决于轨迹 \(x\)、激活的约束 \(\alpha_i\) 和连续参数 \(\alpha_c\)。

第 2 层: 黑盒优化 (调优器)

众所周知,LLM 不擅长输出精确的浮点数。如果 LLM 猜测绘图的“起点”,它可能会偏差 2 厘米,导致笔错过纸张或戳穿纸张。

第 2 层解决了这个问题。它获取 LLM 的粗略猜测,并使用 黑盒优化器 (Black-Box Optimizer, BBO)——具体来说是 CMA-ES (协方差矩阵自适应进化策略) 。

BBO 运行模拟。它接受 LLM 提供的约束,微调连续参数 (如白板的确切倾斜度或精确的抓取点) ,并在物理模拟器中检查结果。它通过迭代来最小化成本 \(\Psi\)。

这创建了一个强大的接口。LLM 处理 逻辑 (语义) ,而 BBO 处理 调优 (数值) 。

第 3 层: 基于梯度的轨迹优化 (求解器)

一旦第 2 层完善了参数,我们就拥有了一个定义完整的优化问题。现在,我们使用经典的基于梯度的求解器 (如牛顿法) 来生成实际的机器人运动。

求解器在严格遵守 LLM 定义并由 BBO 调优的约束的同时,最小化物理做功 (加速度平方) 。

目标函数如下所示:

公式 2

受限于不等式约束 \(g\) 和等式约束 \(h\):

公式 2 约束

或者,将轨迹生成组合成一个表达式:

公式 4

这一步确保机器人运动平滑,避免可能损坏硬件或物体的抖动,同时满足任务的“规则”。

闭环

这就是“元”的部分: 如果计划失败 (成本高) ,系统会将反馈传回给 LLM。它报告成本和失败模式,允许 LLM 重写程序 (例如,“哦,我需要添加一个避障约束”) 并重试。


实验与结果

研究人员在两个具有挑战性的环境中测试了 MOPS: 推物体 (Pushing)绘图 (Drawing)

任务

  1. 推物体: 机器人必须将方块排列成特定的队形 (直线、圆形) 或绕过墙壁移动方块。这需要物理推理——推一个方块可能会使另一个移位。
  2. 绘图: 机器人必须在 倾斜 的白板上画出形状 (星形、五边形、井号) 。这很棘手,因为摄像头视角是自上而下的,但板子是倾斜的。简单的 2D 规划会导致扭曲、“压扁”的绘图。

定性结果: 眼见为实

让我们看看推物体任务。目标是将方块推成一条直线。

所有评估方法在‘推物体’领域生成的解决方案。

在上图中:

  • Code as Policies (CaP) 未能正确对齐夹爪。
  • PRoC3S (一种使用采样的基线方法) 更接近目标,但方块排列仍然混乱。
  • MOPS (右图) 实现了近乎完美的对齐。

在绘图领域,差异更加明显。由于白板是倾斜的,机器人必须在 3D 空间中调整其轨迹,以使 2D 图像看起来正确 (透视校正) 。

绘图环境中各方法生成的图像结果。

看图 8 中的 星形 (Star) (中间行) 和 井号 (Hash) (底行) :

  • CaP (左) : 形状无法辨认或严重扭曲。
  • PRoC3S (中) : 好一些,但“井号”是不连贯的。
  • MOPS (右) : 生成了清晰、连贯且几何形状准确的图形。

定量分析

研究人员将 MOPS 与 Code-as-Policies (CaP) 和 PRoC3S 进行了比较。指标是归一化性能 (越高越好,最高 1.0) 。

六项具有挑战性的任务的归一化性能。

如图 4 所示,MOPS (橙色柱) 在每项任务中都占据主导地位。

  • 绘图: 差距巨大。CaP 得分接近零,因为它无法推断出倾斜板所需的复杂 3D 变换。
  • 推物体: “避障”任务 (图 c) 表明,没有优化循环,基线方法很难处理复杂的约束导航。

为什么它有效? (消融研究)

黑盒优化器 (BBO) 真的有必要吗?我们能只用随机采样吗?

作者通过将 CMA-ES 优化器替换为随机采样 (RS) 和爬山算法 (HC) 来测试这一点。

比较不同 BBO 方法用于约束参数优化的结果。

图 5 显示了优化步骤中的“最低成本” (越低越好) 。

  • 橙色线 (CMA - MOPS): 迅速收敛到非常低的成本。
  • 蓝色线 (RS): 改进缓慢。在高维空间中随机猜测参数效率低下。

这证明了“第 2 层”优化至关重要。LLM 给出了一个好的起点,但 BBO 是“校准”物理参数所必需的。

反馈循环

最后,LLM 需要完善它的计划吗?图 6 显示了随着系统在反馈循环中迭代 (0 到 2 次迭代) ,成本不断下降。

各任务在反馈迭代中的成本变化。

对于“推直线”任务,初始计划 (迭代 0) 成本很高。收到反馈后,LLM 调整了约束,到了迭代 2,成本显著下降。这验证了“元优化”方面——系统在规划阶段进行学习和适应。

现实世界迁移

团队还在真实的 Franka Panda 机器人上验证了这一点,证明在模拟中生成的轨迹可以迁移到现实世界 (前提是标定准确) 。

现实世界实验设置。


结论与启示

MOPS 论文提出了一个令人信服的观点: 基础模型还没准备好直接充当控制器,但它们是优秀的架构师。

通过将 TAMP 视为一个元优化问题,MOPS 利用了所有可用工具的优势:

  1. LLM 用于语义理解和程序结构。
  2. 黑盒优化 用于调整 LLM 无法直觉感知的连续参数。
  3. 轨迹优化 用于生成平滑、可行的机器人运动。

给学生的主要启示

  • 混合系统: 机器人的未来可能不是单纯的“端到端 AI”或“经典控制”,而是两者的混合体。
  • 抽象层: 复杂任务的成功来自于找到正确的抽象层级。MOPS 抽象的是 约束,而不仅仅是动作。
  • 优化是关键: 生成计划只是战斗的一半;根据物理现实对计划进行调优才是鲁棒性的来源。

这种方法为机器人打开了一扇大门,使它们能够理解模糊的人类指令 (“把这一团乱糟糟的东西收拾好”) ,并将其转化为数学上严谨、安全且精确的动作。