摆脱云端束缚：PRISM 如何让端侧机器人具备 GPT-4 级规划能力

想象一下，一个机器人在灾区穿行。它需要寻找幸存者，评估结构受损情况，并进行汇报。为了有效地做到这一点，它需要理解复杂的自然语言指令并实时对环境进行推理。

在过去几年里，标准的解决方案是将机器人连接到像 GPT-4 这样的大型语言模型 (LLM) 上。机器人将图片或地图发送到云端，LLM 进行处理，然后发回一个计划。在一个拥有高速互联网的完美世界里，这运作得非常完美。

但机器人很少在完美的世界中运作。在灾区、偏远的森林，甚至很深的地下室里，网络连接往往不可靠或根本不存在。此外，依赖云端会引入延迟——对于移动中的机器人来说，等待几秒钟的服务器响应可能是危险的。

那么，为什么不在机器人本地运行模型呢？问题在于大小。聪明到足以规划复杂任务的模型非常庞大 (数千亿个参数) 。小到足以放入机器人机载计算机的模型 (小语言模型，或 SLM) 通常不够聪明，无法处理复杂的推理。

这正是宾夕法尼亚大学的研究人员着手解决的瓶颈。在他们的论文 “Distilling On-device Language Models for Robot Planning with Minimal Human Intervention” 中，他们介绍了 PRISM 。

PRISM 是一个框架，它提取云端大模型的“脑力”，并将其转移到驻留在机器人上的微型、高效的模型中。结果如何？一个规划能力媲美 GPT-4 的机器人，但完全离线运行，零延迟问题，而且——至关重要的是——几乎不需要人工参与训练。

图 1: PRISM 以极少的人工干预提炼用于机器人规划的端侧语言模型。

问题所在: 云端与边缘端的两难困境

为了理解为什么 PRISM 是必要的，我们需要看看支持 LLM 的机器人目前是如何工作的。

当你让机器人“找我的钥匙”时，它不仅要知道钥匙长什么样；它还需要规划搜索路径。它可能会决定: “我应该检查桌子，然后是柜台，最后是沙发。”这需要上下文推理 。

最先进的机器人通过充当云端 LLM 的傀儡来实现这一点。机器人是身体；云端是大脑。

优点: 机器人非常聪明且灵活。
缺点: 机器人被束缚在互联网上。如果 WiFi 断开，机器人就会冻结。如果服务器卡顿，机器人就会停顿。

研究人员尝试过直接在机器人上使用像 Llama-3 (较小版本) 这样的小语言模型 (SLM) 。虽然这些模型效率很高，但它们在空间推理方面很吃力。在实验中，未经微调的 SLM 经常无法生成有效的计划，在复杂任务上的成功率低至 10-20%。

PRISM 的目标是打破这种权衡。研究人员问道: 我们能否教一个小模型模仿大模型的专家级推理能力，专门用于机器人任务，而无需人工手动教导它？

PRISM 框架

PRISM 代表 Planning with Robotic dIstilled Small language Models (基于机器人蒸馏小语言模型的规划) 。

核心概念是知识蒸馏 。在机器学习中，蒸馏是一种师生关系。你有一个“教师”模型 (巨大、聪明、缓慢) 和一个“学生”模型 (小巧、快速、知识较少) 。你将数据输入教师模型，记录它的答案，并训练学生模型生成相同的答案。

然而，标准蒸馏应用于机器人时有一个缺陷: 落地 (Grounding) 。机器人不仅仅是回答问题；它与物理世界互动。它需要知道，如果它向前移动，视野就会改变。如果它拿起一个苹果，苹果就不再在桌子上了。标准文本数据集无法捕捉这种物理上的因果循环。

PRISM 通过创建一个合成训练循环来解决这个问题。它不需要真实世界数据或昂贵的物理模拟器。相反，它使用教师 LLM 来构想整个世界和任务，从中演练，并为学生生成一份训练手册。

该框架分三个不同阶段运行:

场景生成 (Scenario Generation)
计划启发 (Plan Elicitation)
规划器蒸馏 (Planner Distillation)

让我们逐一拆解。

第一阶段: 场景生成

训练模型需要数据——大量的数据。收集真实的机器人数据既缓慢又昂贵。PRISM 通过生成合成场景绕过了这个问题。

系统提示一个强大的 LLM (如 GPT-4o) 来发明一个环境和一个任务。

环境: 这不是一个 3D 视频游戏关卡。它是一个基于文本的表示，比如场景图 (“厨房包含: 桌子，冰箱”) 或对象列表。
任务: 一个语义连贯的指令，比如“把苹果放进冰箱”。

因为 LLM 已经看过了整个互联网，它可以生成成千上万个多样化、逼真的场景——从沿海木板路到杂乱的厨房——而无需人工编写一行代码。

第二阶段: 计划启发

这是最关键的一步。我们有一个虚假的世界和一个任务。现在，我们需要生成一个如何解决它的“演示”。

PRISM 使用教师 LLM 来解决任务。但它不只是询问最终答案。它模拟了闭环规划过程 。

图 2: 合成数据样本。

如上图 2 所示，该过程模仿了真实的机器人:

掩码 (Masking) : 系统隐藏环境的部分内容。“机器人” (教师 LLM) 只能看到从其起点应该能看到的东西。
动作 (Action) : 教师提出一个动作 (例如 map(dock)) 。
更新 (Update) : 系统根据该动作揭示新信息 (例如“你现在看到了一条船”) 。
重复 (Repeat) : 这个循环持续进行，直到任务完成。

至关重要的是，PRISM 会验证这些轨迹。如果教师卡住了、幻构了一个不可能的动作或耗时太长，该特定运行将被丢弃。只有成功的、高质量的计划才会进入数据集。

这就创建了一个“观察 \(\rightarrow\) 动作”对的数据集，隐式地教导模型如何对新信息做出反应，而不仅仅是记住地图。

第三阶段: 规划器蒸馏

一旦收集了数千个这样的成功任务日志，就该训练学生 (SLM) 了。

研究人员使用了一种称为监督微调 (SFT) 的技术。学生模型 (例如 Llama-3.2-3B) 被展示观察和动作的历史记录，并被要求预测下一个动作。

数学目标是最小化学生的选择与教师的选择之间的差异，如交叉熵损失方程所定义:

交叉熵损失最小化方程。

在这里，模型 \(\pi^{SLM}\) 学习在给定先前动作和观察历史的情况下预测动作 \(a^t\)。

为了使这种训练足够高效，以便在消费级硬件上运行，研究人员使用了 LoRA (低秩自适应) 。 LoRA 不是重新训练学生模型的整个大脑 (这在计算上很繁重) ，而是训练位于模型之上的一小组适配器层。这使得 30 亿参数的模型仅使用极小部分的训练参数即可进行微调，从而节省大量的内存和时间。

实验设置: 测试学生模型

这真的有效吗？一个在幻构文本上训练出来的微型模型能取代 GPT-4 吗？

研究人员在三个截然不同的领域测试了 PRISM 以证明其多功能性:

SPINE (测绘与探索) : 一个机器人 (包括空中无人机和地面漫游车) 探索未知的建筑物和室外区域。
LLM-Planner (家庭协助) : 模拟房屋中的机器人执行诸如“加热土豆并将其放在柜台上”之类的任务。
SayCan (操作) : 一个机械臂在桌子上重新排列积木和碗。

图 3: 在不同的支持 LLM 的规划领域评估 PRISM。

他们比较了三种设置:

LLM (教师) : 运行规划器的 GPT-4o (黄金标准) 。
SLM (新手) : 未经 PRISM 训练的 Llama-3.2-3B (基准) 。
PRISM (毕业生) : 经 PRISM 蒸馏后的 Llama-3.2-3B。

结果

PRISM 带来的性能提升令人震惊。

在最初的实验中，未经微调的 SLM 败得很惨。根据任务不同，它的成功率仅在 1.76% 到 13.5% 之间。它根本不够聪明，无法处理逻辑。

经过 PRISM 训练后，完全相同的模型在 SPINE 任务上实现了 超过 90% 的成功率，达到了与 GPT-4o 几乎持平的水平。

让我们看看 SPINE 实验中难度的细分:

表 2: 不同环境和任务难度级别的规划成功率

如表 2 所示:

标准 SLM (右列) : 立即崩溃。它在几乎所有复杂任务上都得 0 分。
GPT-4o (左列) : 在大多数任务上得 100 分，在“未充分指定的探索”上略有下降。
PRISM (中间列) : 表现稳健。它在测绘任务上与 LLM 匹配，并在探索任务上保持在相近的水平 (87.5% 对 100%) 。

为什么标准 SLM 会失败？

研究人员分析了为什么未经微调的小模型如此糟糕。这不仅仅是因为它们给出了错误的答案；它们从根本上误解了如何成为一个机器人。

图 4: SLM 的失败模式与 PRISM 的成功示例。

如图 4 所示:

幻觉 (Hallucination) : SLM 会假设一些它尚未验证的世界情况 (例如，在没看到车的情况下声称车未受损) 。
语法错误 (Syntax Errors) : 它会尝试调用不存在的函数或以错误的顺序使用它们 (例如，当它只有一个夹持器时试图同时拿起两块积木) 。
PRISM 的修正: 因为蒸馏模型是在有效的执行轨迹上训练的，它学会了“交通规则”。它学会了你必须先 goto (去) 一个位置，然后才能 inspect (检查) 它。

速度与延迟

性能不仅仅是关于正确；它还关于速度。

支持端侧模型的最大理由之一是延迟。当机器人使用 GPT-4 时，它会将数据发送到服务器。这会产生延迟，且延迟随网络拥塞情况剧烈波动。

图 5: GPT4o 和 PRISM 之间的延迟比较

上图显示了查询时间的分布:

蓝色/橙色 (GPT-4o) : 延迟很分散。有时很快，有时滞后。这种不可预测性 (抖动) 使平滑控制变得困难。
绿色 (PRISM) : 峰值尖锐而狭窄。端侧模型每一步花费的时间大致相同。

这种确定性对于需要保证机器人的“思考循环”符合特定时间预算的控制工程师来说是一个巨大的优势。

结论与启示

PRISM 框架代表了自主机器人技术向前迈出的重要一步。它表明我们并不一定需要在机器人身上安装“更大”的大脑；我们需要专门化的大脑。

通过利用云端 LLM 的海量通用知识来合成训练数据，我们可以创建在本地运行的紧凑、专业的模型。这打破了与云端的束缚。

关键要点:

合成数据有效: 你不需要昂贵的人工标注数据集来训练机器人规划器。你可以使用 LLM 为你生成数据。
闭环训练是关键: 仅仅向 LLM 询问答案是不够的。你必须模拟发现的过程 (掩码环境、迭代更新) 来教学生模型如何规划。
端侧是可行的: 我们现在可以在矿山、森林或太空——没有互联网的地方——部署机器人，而无需牺牲我们对现代 AI 所期望的高级推理能力。

机器人技术的未来可能不是由云端的一台超级计算机控制一切，而是数以百万计的小型、经过蒸馏的专家在边缘端运行，独立地在我们的世界中导航。

问题所在: 云端与边缘端的两难困境#

PRISM 框架#

第一阶段: 场景生成#

第二阶段: 计划启发#

第三阶段: 规划器蒸馏#

实验设置: 测试学生模型#

结果#

为什么标准 SLM 会失败？#

速度与延迟#

结论与启示#