想象一下,一个机器人在灾区穿行。它需要寻找幸存者,评估结构受损情况,并进行汇报。为了有效地做到这一点,它需要理解复杂的自然语言指令并实时对环境进行推理。

在过去几年里,标准的解决方案是将机器人连接到像 GPT-4 这样的大型语言模型 (LLM) 上。机器人将图片或地图发送到云端,LLM 进行处理,然后发回一个计划。在一个拥有高速互联网的完美世界里,这运作得非常完美。

但机器人很少在完美的世界中运作。在灾区、偏远的森林,甚至很深的地下室里,网络连接往往不可靠或根本不存在。此外,依赖云端会引入延迟——对于移动中的机器人来说,等待几秒钟的服务器响应可能是危险的。

那么,为什么不在机器人本地运行模型呢?问题在于大小。聪明到足以规划复杂任务的模型非常庞大 (数千亿个参数) 。小到足以放入机器人机载计算机的模型 (小语言模型,或 SLM) 通常不够聪明,无法处理复杂的推理。

这正是宾夕法尼亚大学的研究人员着手解决的瓶颈。在他们的论文 “Distilling On-device Language Models for Robot Planning with Minimal Human Intervention” 中,他们介绍了 PRISM

PRISM 是一个框架,它提取云端大模型的“脑力”,并将其转移到驻留在机器人上的微型、高效的模型中。结果如何?一个规划能力媲美 GPT-4 的机器人,但完全离线运行,零延迟问题,而且——至关重要的是——几乎不需要人工参与训练。

图 1: PRISM 以极少的人工干预提炼用于机器人规划的端侧语言模型。

问题所在: 云端与边缘端的两难困境

为了理解为什么 PRISM 是必要的,我们需要看看支持 LLM 的机器人目前是如何工作的。

当你让机器人“找我的钥匙”时,它不仅要知道钥匙长什么样;它还需要规划搜索路径。它可能会决定: “我应该检查桌子,然后是柜台,最后是沙发。”这需要上下文推理

最先进的机器人通过充当云端 LLM 的傀儡来实现这一点。机器人是身体;云端是大脑。

  1. 优点: 机器人非常聪明且灵活。
  2. 缺点: 机器人被束缚在互联网上。如果 WiFi 断开,机器人就会冻结。如果服务器卡顿,机器人就会停顿。

研究人员尝试过直接在机器人上使用像 Llama-3 (较小版本) 这样的小语言模型 (SLM) 。虽然这些模型效率很高,但它们在空间推理方面很吃力。在实验中,未经微调的 SLM 经常无法生成有效的计划,在复杂任务上的成功率低至 10-20%。

PRISM 的目标是打破这种权衡。研究人员问道: 我们能否教一个小模型模仿大模型的专家级推理能力,专门用于机器人任务,而无需人工手动教导它?

PRISM 框架

PRISM 代表 Planning with Robotic dIstilled Small language Models (基于机器人蒸馏小语言模型的规划) 。

核心概念是知识蒸馏 。 在机器学习中,蒸馏是一种师生关系。你有一个“教师”模型 (巨大、聪明、缓慢) 和一个“学生”模型 (小巧、快速、知识较少) 。你将数据输入教师模型,记录它的答案,并训练学生模型生成相同的答案。

然而,标准蒸馏应用于机器人时有一个缺陷: 落地 (Grounding) 。 机器人不仅仅是回答问题;它与物理世界互动。它需要知道,如果它向前移动,视野就会改变。如果它拿起一个苹果,苹果就不再在桌子上了。标准文本数据集无法捕捉这种物理上的因果循环。

PRISM 通过创建一个合成训练循环来解决这个问题。它不需要真实世界数据或昂贵的物理模拟器。相反,它使用教师 LLM 来构想整个世界和任务,从中演练,并为学生生成一份训练手册。

该框架分三个不同阶段运行:

  1. 场景生成 (Scenario Generation)
  2. 计划启发 (Plan Elicitation)
  3. 规划器蒸馏 (Planner Distillation)

让我们逐一拆解。

第一阶段: 场景生成

训练模型需要数据——大量的数据。收集真实的机器人数据既缓慢又昂贵。PRISM 通过生成合成场景绕过了这个问题。

系统提示一个强大的 LLM (如 GPT-4o) 来发明一个环境和一个任务。

  • 环境: 这不是一个 3D 视频游戏关卡。它是一个基于文本的表示,比如场景图 (“厨房包含: 桌子,冰箱”) 或对象列表。
  • 任务: 一个语义连贯的指令,比如“把苹果放进冰箱”。

因为 LLM 已经看过了整个互联网,它可以生成成千上万个多样化、逼真的场景——从沿海木板路到杂乱的厨房——而无需人工编写一行代码。

第二阶段: 计划启发

这是最关键的一步。我们有一个虚假的世界和一个任务。现在,我们需要生成一个如何解决它的“演示”。

PRISM 使用教师 LLM 来解决任务。但它不只是询问最终答案。它模拟了闭环规划过程

图 2: 合成数据样本。

如上图 2 所示,该过程模仿了真实的机器人:

  1. 掩码 (Masking) : 系统隐藏环境的部分内容。“机器人” (教师 LLM) 只能看到从其起点应该能看到的东西。
  2. 动作 (Action) : 教师提出一个动作 (例如 map(dock)) 。
  3. 更新 (Update) : 系统根据该动作揭示新信息 (例如“你现在看到了一条船”) 。
  4. 重复 (Repeat) : 这个循环持续进行,直到任务完成。

至关重要的是,PRISM 会验证这些轨迹。如果教师卡住了、幻构了一个不可能的动作或耗时太长,该特定运行将被丢弃。只有成功的、高质量的计划才会进入数据集。

这就创建了一个“观察 \(\rightarrow\) 动作”对的数据集,隐式地教导模型如何对新信息做出反应,而不仅仅是记住地图。

第三阶段: 规划器蒸馏

一旦收集了数千个这样的成功任务日志,就该训练学生 (SLM) 了。

研究人员使用了一种称为监督微调 (SFT) 的技术。学生模型 (例如 Llama-3.2-3B) 被展示观察和动作的历史记录,并被要求预测下一个动作。

数学目标是最小化学生的选择与教师的选择之间的差异,如交叉熵损失方程所定义:

交叉熵损失最小化方程。

在这里,模型 \(\pi^{SLM}\) 学习在给定先前动作和观察历史的情况下预测动作 \(a^t\)。

为了使这种训练足够高效,以便在消费级硬件上运行,研究人员使用了 LoRA (低秩自适应) 。 LoRA 不是重新训练学生模型的整个大脑 (这在计算上很繁重) ,而是训练位于模型之上的一小组适配器层。这使得 30 亿参数的模型仅使用极小部分的训练参数即可进行微调,从而节省大量的内存和时间。

实验设置: 测试学生模型

这真的有效吗?一个在幻构文本上训练出来的微型模型能取代 GPT-4 吗?

研究人员在三个截然不同的领域测试了 PRISM 以证明其多功能性:

  1. SPINE (测绘与探索) : 一个机器人 (包括空中无人机和地面漫游车) 探索未知的建筑物和室外区域。
  2. LLM-Planner (家庭协助) : 模拟房屋中的机器人执行诸如“加热土豆并将其放在柜台上”之类的任务。
  3. SayCan (操作) : 一个机械臂在桌子上重新排列积木和碗。

图 3: 在不同的支持 LLM 的规划领域评估 PRISM。

他们比较了三种设置:

  • LLM (教师) : 运行规划器的 GPT-4o (黄金标准) 。
  • SLM (新手) : 未经 PRISM 训练的 Llama-3.2-3B (基准) 。
  • PRISM (毕业生) : 经 PRISM 蒸馏后的 Llama-3.2-3B。

结果

PRISM 带来的性能提升令人震惊。

在最初的实验中,未经微调的 SLM 败得很惨。根据任务不同,它的成功率仅在 1.76% 到 13.5% 之间。它根本不够聪明,无法处理逻辑。

经过 PRISM 训练后,完全相同的模型在 SPINE 任务上实现了 超过 90% 的成功率,达到了与 GPT-4o 几乎持平的水平。

让我们看看 SPINE 实验中难度的细分:

表 2: 不同环境和任务难度级别的规划成功率

如表 2 所示:

  • 标准 SLM (右列) : 立即崩溃。它在几乎所有复杂任务上都得 0 分。
  • GPT-4o (左列) : 在大多数任务上得 100 分,在“未充分指定的探索”上略有下降。
  • PRISM (中间列) : 表现稳健。它在测绘任务上与 LLM 匹配,并在探索任务上保持在相近的水平 (87.5% 对 100%) 。

为什么标准 SLM 会失败?

研究人员分析了为什么未经微调的小模型如此糟糕。这不仅仅是因为它们给出了错误的答案;它们从根本上误解了如何成为一个机器人。

图 4: SLM 的失败模式与 PRISM 的成功示例。

如图 4 所示:

  • 幻觉 (Hallucination) : SLM 会假设一些它尚未验证的世界情况 (例如,在没看到车的情况下声称车未受损) 。
  • 语法错误 (Syntax Errors) : 它会尝试调用不存在的函数或以错误的顺序使用它们 (例如,当它只有一个夹持器时试图同时拿起两块积木) 。
  • PRISM 的修正: 因为蒸馏模型是在有效的执行轨迹上训练的,它学会了“交通规则”。它学会了你必须先 goto (去) 一个位置,然后才能 inspect (检查) 它。

速度与延迟

性能不仅仅是关于正确;它还关于速度。

支持端侧模型的最大理由之一是延迟 。 当机器人使用 GPT-4 时,它会将数据发送到服务器。这会产生延迟,且延迟随网络拥塞情况剧烈波动。

图 5: GPT4o 和 PRISM 之间的延迟比较

上图显示了查询时间的分布:

  • 蓝色/橙色 (GPT-4o) : 延迟很分散。有时很快,有时滞后。这种不可预测性 (抖动) 使平滑控制变得困难。
  • 绿色 (PRISM) : 峰值尖锐而狭窄。端侧模型每一步花费的时间大致相同。

这种确定性对于需要保证机器人的“思考循环”符合特定时间预算的控制工程师来说是一个巨大的优势。

结论与启示

PRISM 框架代表了自主机器人技术向前迈出的重要一步。它表明我们并不一定需要在机器人身上安装“更大”的大脑;我们需要专门化的大脑。

通过利用云端 LLM 的海量通用知识来合成训练数据,我们可以创建在本地运行的紧凑、专业的模型。这打破了与云端的束缚。

关键要点:

  1. 合成数据有效: 你不需要昂贵的人工标注数据集来训练机器人规划器。你可以使用 LLM 为你生成数据。
  2. 闭环训练是关键: 仅仅向 LLM 询问答案是不够的。你必须模拟发现的过程 (掩码环境、迭代更新) 来教学生模型如何规划。
  3. 端侧是可行的: 我们现在可以在矿山、森林或太空——没有互联网的地方——部署机器人,而无需牺牲我们对现代 AI 所期望的高级推理能力。

机器人技术的未来可能不是由云端的一台超级计算机控制一切,而是数以百万计的小型、经过蒸馏的专家在边缘端运行,独立地在我们的世界中导航。