想象一下,一个机器人在灾区穿行。它需要寻找幸存者,评估结构受损情况,并进行汇报。为了有效地做到这一点,它需要理解复杂的自然语言指令并实时对环境进行推理。
在过去几年里,标准的解决方案是将机器人连接到像 GPT-4 这样的大型语言模型 (LLM) 上。机器人将图片或地图发送到云端,LLM 进行处理,然后发回一个计划。在一个拥有高速互联网的完美世界里,这运作得非常完美。
但机器人很少在完美的世界中运作。在灾区、偏远的森林,甚至很深的地下室里,网络连接往往不可靠或根本不存在。此外,依赖云端会引入延迟——对于移动中的机器人来说,等待几秒钟的服务器响应可能是危险的。
那么,为什么不在机器人本地运行模型呢?问题在于大小。聪明到足以规划复杂任务的模型非常庞大 (数千亿个参数) 。小到足以放入机器人机载计算机的模型 (小语言模型,或 SLM) 通常不够聪明,无法处理复杂的推理。
这正是宾夕法尼亚大学的研究人员着手解决的瓶颈。在他们的论文 “Distilling On-device Language Models for Robot Planning with Minimal Human Intervention” 中,他们介绍了 PRISM 。
PRISM 是一个框架,它提取云端大模型的“脑力”,并将其转移到驻留在机器人上的微型、高效的模型中。结果如何?一个规划能力媲美 GPT-4 的机器人,但完全离线运行,零延迟问题,而且——至关重要的是——几乎不需要人工参与训练。

问题所在: 云端与边缘端的两难困境
为了理解为什么 PRISM 是必要的,我们需要看看支持 LLM 的机器人目前是如何工作的。
当你让机器人“找我的钥匙”时,它不仅要知道钥匙长什么样;它还需要规划搜索路径。它可能会决定: “我应该检查桌子,然后是柜台,最后是沙发。”这需要上下文推理 。
最先进的机器人通过充当云端 LLM 的傀儡来实现这一点。机器人是身体;云端是大脑。
- 优点: 机器人非常聪明且灵活。
- 缺点: 机器人被束缚在互联网上。如果 WiFi 断开,机器人就会冻结。如果服务器卡顿,机器人就会停顿。
研究人员尝试过直接在机器人上使用像 Llama-3 (较小版本) 这样的小语言模型 (SLM) 。虽然这些模型效率很高,但它们在空间推理方面很吃力。在实验中,未经微调的 SLM 经常无法生成有效的计划,在复杂任务上的成功率低至 10-20%。
PRISM 的目标是打破这种权衡。研究人员问道: 我们能否教一个小模型模仿大模型的专家级推理能力,专门用于机器人任务,而无需人工手动教导它?
PRISM 框架
PRISM 代表 Planning with Robotic dIstilled Small language Models (基于机器人蒸馏小语言模型的规划) 。
核心概念是知识蒸馏 。 在机器学习中,蒸馏是一种师生关系。你有一个“教师”模型 (巨大、聪明、缓慢) 和一个“学生”模型 (小巧、快速、知识较少) 。你将数据输入教师模型,记录它的答案,并训练学生模型生成相同的答案。
然而,标准蒸馏应用于机器人时有一个缺陷: 落地 (Grounding) 。 机器人不仅仅是回答问题;它与物理世界互动。它需要知道,如果它向前移动,视野就会改变。如果它拿起一个苹果,苹果就不再在桌子上了。标准文本数据集无法捕捉这种物理上的因果循环。
PRISM 通过创建一个合成训练循环来解决这个问题。它不需要真实世界数据或昂贵的物理模拟器。相反,它使用教师 LLM 来构想整个世界和任务,从中演练,并为学生生成一份训练手册。
该框架分三个不同阶段运行:
- 场景生成 (Scenario Generation)
- 计划启发 (Plan Elicitation)
- 规划器蒸馏 (Planner Distillation)
让我们逐一拆解。
第一阶段: 场景生成
训练模型需要数据——大量的数据。收集真实的机器人数据既缓慢又昂贵。PRISM 通过生成合成场景绕过了这个问题。
系统提示一个强大的 LLM (如 GPT-4o) 来发明一个环境和一个任务。
- 环境: 这不是一个 3D 视频游戏关卡。它是一个基于文本的表示,比如场景图 (“厨房包含: 桌子,冰箱”) 或对象列表。
- 任务: 一个语义连贯的指令,比如“把苹果放进冰箱”。
因为 LLM 已经看过了整个互联网,它可以生成成千上万个多样化、逼真的场景——从沿海木板路到杂乱的厨房——而无需人工编写一行代码。
第二阶段: 计划启发
这是最关键的一步。我们有一个虚假的世界和一个任务。现在,我们需要生成一个如何解决它的“演示”。
PRISM 使用教师 LLM 来解决任务。但它不只是询问最终答案。它模拟了闭环规划过程 。

如上图 2 所示,该过程模仿了真实的机器人:
- 掩码 (Masking) : 系统隐藏环境的部分内容。“机器人” (教师 LLM) 只能看到从其起点应该能看到的东西。
- 动作 (Action) : 教师提出一个动作 (例如
map(dock)) 。 - 更新 (Update) : 系统根据该动作揭示新信息 (例如“你现在看到了一条船”) 。
- 重复 (Repeat) : 这个循环持续进行,直到任务完成。
至关重要的是,PRISM 会验证这些轨迹。如果教师卡住了、幻构了一个不可能的动作或耗时太长,该特定运行将被丢弃。只有成功的、高质量的计划才会进入数据集。
这就创建了一个“观察 \(\rightarrow\) 动作”对的数据集,隐式地教导模型如何对新信息做出反应,而不仅仅是记住地图。
第三阶段: 规划器蒸馏
一旦收集了数千个这样的成功任务日志,就该训练学生 (SLM) 了。
研究人员使用了一种称为监督微调 (SFT) 的技术。学生模型 (例如 Llama-3.2-3B) 被展示观察和动作的历史记录,并被要求预测下一个动作。
数学目标是最小化学生的选择与教师的选择之间的差异,如交叉熵损失方程所定义:

在这里,模型 \(\pi^{SLM}\) 学习在给定先前动作和观察历史的情况下预测动作 \(a^t\)。
为了使这种训练足够高效,以便在消费级硬件上运行,研究人员使用了 LoRA (低秩自适应) 。 LoRA 不是重新训练学生模型的整个大脑 (这在计算上很繁重) ,而是训练位于模型之上的一小组适配器层。这使得 30 亿参数的模型仅使用极小部分的训练参数即可进行微调,从而节省大量的内存和时间。
实验设置: 测试学生模型
这真的有效吗?一个在幻构文本上训练出来的微型模型能取代 GPT-4 吗?
研究人员在三个截然不同的领域测试了 PRISM 以证明其多功能性:
- SPINE (测绘与探索) : 一个机器人 (包括空中无人机和地面漫游车) 探索未知的建筑物和室外区域。
- LLM-Planner (家庭协助) : 模拟房屋中的机器人执行诸如“加热土豆并将其放在柜台上”之类的任务。
- SayCan (操作) : 一个机械臂在桌子上重新排列积木和碗。

他们比较了三种设置:
- LLM (教师) : 运行规划器的 GPT-4o (黄金标准) 。
- SLM (新手) : 未经 PRISM 训练的 Llama-3.2-3B (基准) 。
- PRISM (毕业生) : 经 PRISM 蒸馏后的 Llama-3.2-3B。
结果
PRISM 带来的性能提升令人震惊。
在最初的实验中,未经微调的 SLM 败得很惨。根据任务不同,它的成功率仅在 1.76% 到 13.5% 之间。它根本不够聪明,无法处理逻辑。
经过 PRISM 训练后,完全相同的模型在 SPINE 任务上实现了 超过 90% 的成功率,达到了与 GPT-4o 几乎持平的水平。
让我们看看 SPINE 实验中难度的细分:

如表 2 所示:
- 标准 SLM (右列) : 立即崩溃。它在几乎所有复杂任务上都得 0 分。
- GPT-4o (左列) : 在大多数任务上得 100 分,在“未充分指定的探索”上略有下降。
- PRISM (中间列) : 表现稳健。它在测绘任务上与 LLM 匹配,并在探索任务上保持在相近的水平 (87.5% 对 100%) 。
为什么标准 SLM 会失败?
研究人员分析了为什么未经微调的小模型如此糟糕。这不仅仅是因为它们给出了错误的答案;它们从根本上误解了如何成为一个机器人。

如图 4 所示:
- 幻觉 (Hallucination) : SLM 会假设一些它尚未验证的世界情况 (例如,在没看到车的情况下声称车未受损) 。
- 语法错误 (Syntax Errors) : 它会尝试调用不存在的函数或以错误的顺序使用它们 (例如,当它只有一个夹持器时试图同时拿起两块积木) 。
- PRISM 的修正: 因为蒸馏模型是在有效的执行轨迹上训练的,它学会了“交通规则”。它学会了你必须先
goto(去) 一个位置,然后才能inspect(检查) 它。
速度与延迟
性能不仅仅是关于正确;它还关于速度。
支持端侧模型的最大理由之一是延迟 。 当机器人使用 GPT-4 时,它会将数据发送到服务器。这会产生延迟,且延迟随网络拥塞情况剧烈波动。

上图显示了查询时间的分布:
- 蓝色/橙色 (GPT-4o) : 延迟很分散。有时很快,有时滞后。这种不可预测性 (抖动) 使平滑控制变得困难。
- 绿色 (PRISM) : 峰值尖锐而狭窄。端侧模型每一步花费的时间大致相同。
这种确定性对于需要保证机器人的“思考循环”符合特定时间预算的控制工程师来说是一个巨大的优势。
结论与启示
PRISM 框架代表了自主机器人技术向前迈出的重要一步。它表明我们并不一定需要在机器人身上安装“更大”的大脑;我们需要专门化的大脑。
通过利用云端 LLM 的海量通用知识来合成训练数据,我们可以创建在本地运行的紧凑、专业的模型。这打破了与云端的束缚。
关键要点:
- 合成数据有效: 你不需要昂贵的人工标注数据集来训练机器人规划器。你可以使用 LLM 为你生成数据。
- 闭环训练是关键: 仅仅向 LLM 询问答案是不够的。你必须模拟发现的过程 (掩码环境、迭代更新) 来教学生模型如何规划。
- 端侧是可行的: 我们现在可以在矿山、森林或太空——没有互联网的地方——部署机器人,而无需牺牲我们对现代 AI 所期望的高级推理能力。
机器人技术的未来可能不是由云端的一台超级计算机控制一切,而是数以百万计的小型、经过蒸馏的专家在边缘端运行,独立地在我们的世界中导航。
](https://deep-paper.org/en/paper/2506.17486/images/cover.png)