简介
目前,我们正见证着大型语言模型 (LLM) 能力的巨大转变。随着 DeepSeek R1 等模型的发布,我们看到 LLM 可以通过根据数学真理验证自己的答案来“学习推理”。但在一个领域,这种推理能力遇到了瓶颈: 具身智能 (Embodied AI) 。
在数字世界中,数学题是静态的。而在物理世界中,环境是混乱、动态且不可预测的。机器人不能简单地通过“思考”来解决问题;它必须行动,观察后果,并进行调整。此外,机器人通常在“边缘端”运行——即电池和内存受限的车载计算机——这使得像 GPT-4 这样基于云的大型模型对于实时控制来说既不切实际也不安全。
这引出了一篇引人入胜的新论文: RobotxR1 。 研究人员提出了一种方法,将“R1-Zero”的训练理念——即对原始推理进行强化学习 (RL) ——扩展到机器人领域。通过将一个易于管理的小型 LLM 置于与驾驶模拟器的闭环反馈回路中,他们取得了惊人的成就: 一个 30 亿参数的小型模型在控制自动驾驶汽车方面,表现优于庞大的、基于云端的 GPT-4o。
在这篇文章中,我们将拆解 RobotxR1 的架构,解释它们如何成功弥合语言与控制之间的鸿沟,并查看证明“从实践中学习”胜过“从阅读中学习”的数据。
背景: 模仿的问题
要理解这篇论文的重要性,我们必须看看我们通常如何利用 LLM 训练机器人。标准方法是有监督微调 (SFT) 。
想象一下你想学开车。
- SFT 方法: 你阅读一本驾驶手册,并背诵 10,000 条关于完美转弯的描述。你拥有了“知识”,但没有“感觉”。
- RL 方法: 你坐进车里。你转动方向盘太猛,撞到了锥筒,然后纠正自己。你转得太轻,偏离了车道,然后纠正自己。你发展出了直觉。
目前大多数“具身 LLM”都依赖于 SFT。它们将大型模型 (如 GPT-4) 的推理能力蒸馏到较小的模型中。虽然对基本指令有效,但这些蒸馏模型是在抽象中运行的。它们缺乏稳健的机器人智能所需的闭环感知-行动循环——即“物理直觉”。
RobotxR1 论文提出了这样一个问题: 我们能否跳过蒸馏,让 LLM 像人类实习司机一样直接从环境中学习?
RobotxR1 架构
研究人员开发了一种由两个协同工作的专用模块组成的自动驾驶智能体。这种分离式架构允许系统验证自身行为并同时调整其控制策略。

如上图 1 所示,系统接收人类提示 (例如,“平稳驾驶!”) 并通过两条路径进行处理:
- DecisionxR1: “裁判”。它查看汽车的当前数据并问: “汽车开得平稳吗?”
- MPCxR1: “司机”。它问: “我该如何调整控制器以让汽车开得平稳?”
如果 Decision 模块发现汽车未能完成任务,MPC 模块就会介入以调整控制参数。
手与脚: 模型预测控制 (MPC)
在深入了解 LLM 之前,我们需要了解 LLM 实际上在控制什么。它并不直接向电机发送电压。它是在与模型预测控制器 (MPC) 对话。
MPC 是一种数学优化算法。它会根据物理学原理稍微预测未来,并选择最佳的转向和加速以最小化“代价函数 (cost function) ”。

在上面的方程中,控制器试图最小化与赛车线的距离误差 (\(n\))、速度差异 (\(v - v_{ref}\)) 和航向误差 (\(\Delta \phi\))。
这里的创新在于 LLM 充当调节器 。 MPC 具有“权重” (它有多在意速度 vs. 安全 vs. 平稳) 。LLM 的工作是根据人类的需求动态改变这些权重。
DecisionxR1: 推理裁判
第一个专用模块是 DecisionxR1 。 它的唯一目的是推理机器人当前状态相对于人类指令的情况。

该模块使用 检索增强生成 (RAG) 来获取机器人状态的历史记录。它充当二元分类器,输出关于汽车是否服从指令的“是/否”。
这里的训练使用的是 基于可验证奖励的强化学习 (RLVR) 。 研究人员创建了一个包含已知真实标签的驾驶场景静态数据集 (例如,倒车、赛车、平稳驾驶) 。模型根据两个因素获得奖励:

- 准确性 (\(R_{accuracy}\)): 它是否正确识别了行为?
- 格式 (\(R_{fmt}\)): 它是否正确构建了推理思维 (例如,使用特定的 XML 标签) ?
这种结构迫使模型在回答之前“大声思考”,从而提高了其可靠性。
MPCxR1: 通过实践进行具身学习
这是论文的核心贡献。与从静态数据学习的 Decision 模块不同, MPCxR1 通过与模拟器交互来学习。

图 3 所示的过程如下:
- 提示: 系统接收命令 (例如,“以 1.83 m/s 的速度驾驶”) 。
- LLM 动作: LLM 生成一组 MPC 参数 (权重、约束) 。
- 模拟: 系统使用这些参数运行模拟。
- 反馈: 模拟器计算实际驾驶行为与请求行为之间的误差 (RMSE) 。
这形成了一个闭环。该模块的奖励函数至关重要:

驾驶奖励 (\(R_{drive}\)) 是通过将 LLM 参数产生的误差 (\(E^{LLM}\)) 与默认 MPC 参数产生的误差 (\(E^{MPC}\)) 进行比较来计算的。
- 如果 LLM 让汽车比默认控制器更接近目标,它将获得 正奖励 。
- 如果表现更差,它将获得 负奖励 。
这迫使 LLM 发展出一种“直觉”,即改变数学权重 (如速度成本 q_v) 如何转化为赛道上的物理运动。
泛化策略
为了确保 LLM 不仅仅是在死记硬背某一条赛道,研究人员使用了一种巧妙的训练策略。

如图 7 所示,他们在简单的 圆形地图 (Circle Map) (左) 上训练模型。这允许快速、一致的反馈。然而,他们在 Grand Tour 地图 (右) 上评估模型,这是一条具有急转弯和多变几何形状的复杂赛道。如果模型在 Grand Tour 上表现良好,就证明它学会了通用的车辆动力学,而不仅仅是记住了地图。
实验与结果
作者使用此管道训练了 Qwen2.5 模型 (1.5B 和 3B 参数) ,并将它们与标准的 SFT 模型以及行业巨头 GPT-4o 进行了比较。
1. 模型真的在学习吗?
训练曲线展示了一个清晰的成功故事。

在图 5 (左) 中,我们可以看到奖励信号 (\(R_{MPCxR1}\)) 随着训练步骤稳步增加。模型正在有效地学习调节 MPC。
一个惊人的发现: 看图 5 (右) 。平均输出 token 长度随时间 减少。在基于数学的推理模型 (如 DeepSeek R1) 中,随着模型“思考得更努力”,思维链 (chain-of-thought) 通常会变长。在机器人技术中,模型学会了简洁。作者认为,对于即时控制任务,简洁和直接可能比冗长的哲学推理链更优。
Decision 模块也显示了类似的收敛:

2. 大卫 vs. 歌利亚: Qwen-3B vs. GPT-4o
最引人注目的结果是控制适应性的比较。研究人员测量了不同模型如何根据用户提示 (例如,“倒车”、“平稳驾驶”、“开快点”) 调整汽车行为。
- GPT-4o (云端): 实现了 58.5% 的优于基线的提升。
- Qwen2.5-3B (仅 SFT): 实现了 50.4% 的提升 (有一些失败案例) 。
- Qwen2.5-3B (RobotxR1 / SFT + RL): 实现了 63.3% 的提升。
这个小型的、本地训练的模型击败了 GPT-4o。
为什么?因为 GPT-4o 读过关于驾驶的每一本书,但 Qwen2.5-3B (RobotxR1) 实际上“开过车” (在模拟中) 。RL 训练将模型的语言建立在了物理现实之上。
3. 现实世界部署
研究人员并未止步于模拟。他们将模型部署在一辆由 NVIDIA Jetson Orin AGX 驱动的 1:10 比例实体自动赛车上。

在图 4 中,我们看到了现实世界的实验。机器人最初处于不稳定的振荡状态。用户提示: “以 2 m/s 的速度平稳驾驶!” MPCxR1 模块成功诊断出振荡,更新了 MPC 权重,汽车立即平滑了其轨迹。
4. 计算效率
由于功率限制,在机器人上运行 LLM 非常困难。作者使用 量化 (Quantization) (将模型权重精度降低到 5-bit) 来使其适配。

表 3 显示了在嵌入式 Jetson Orin AGX 上的性能。
- Q5 (量化) 3B 模型的运行速度为 38.78 tokens/秒 。
- 全精度 (FP16) 模型的运行速度仅为 3.55 tokens/秒 。
这种 10 倍的加速意味着机器人是在“思考”时撞车,还是能实时反应的区别。至关重要的是,实验表明量化对模型的推理准确性影响可以忽略不计,证明了这种方法在边缘部署的可行性。
结论
RobotxR1 论文作为机器人学习新范式的概念验证。它不再依赖庞大的、连接云端的模型或纯粹的有监督模仿,而是让小型、高效的模型能够通过交互进行学习。
通过闭合 LLM 和模拟器之间的回路,研究人员允许模型验证自己的行为。结果是一个具备以下特点的系统:
- 更强能力: 在特定控制任务中击败 GPT-4o。
- 更高效: 在嵌入式硬件上本地运行。
- 更稳健: 从简单的圆形赛道泛化到复杂的赛车跑道。
当我们展望具身智能的未来时,这种“从实践中学习”的方法——基于强化学习而非静态数据集——似乎是开启机器人真正理解其运行所在的物理世界的关键。
](https://deep-paper.org/en/paper/2505.03238/images/cover.png)