引言

在构建通用机器人的探索中,我们经常借鉴大型语言模型 (LLM) 的成功经验。如果人工智能可以通过“逐步思考”问题来规划假期或调试代码,那么机器人不也应该能通过同样的机制来规划如何整理厨房吗?

这个概念被称为具身思维链 (Embodied Chain-of-Thought, CoT) 。 通过训练视觉-语言-动作 (VLA) 模型,使其在输出最终运动指令之前预测中间推理步骤——例如“识别苹果”、“计划移动手臂”和“计算抓手宽度”——研究人员在泛化能力方面取得了令人印象深刻的进展。通过这种方式训练出的机器人更聪明;它们比那些直接将像素映射到动作的机器人能更好地处理新物体和指令。

但这其中有一个陷阱,而且是一个大陷阱: 延迟

在每一个动作之前生成一段推理文本需要时间。在某些情况下,这会将机器人的速度拖慢到 1 Hz 的控制频率 (即每秒一个动作) 。在动态的现实世界环境中,机器人每动一下之前都要停下来“思考”一秒钟,这通常是不切实际的。

这就引出了一篇引人入胜的论文,题为 “Training Strategies for Efficient Embodied Reasoning” (高效具身推理的训练策略) 。研究人员提出了一个关键问题: 我们真的需要在部署过程中让机器人产生这些推理步骤吗?还是说这种魔法其实发生在训练期间?

在这篇文章中,我们将解构他们的工作。我们将探讨为什么推理能帮助机器人,并看看他们提出的解决方案——ECoT-Lite 。 这是一套训练策略,能在将机器人性能提升到最先进水平的同时,保持标准策略那样的闪电般的推理速度。

图 1: 我们需要提出的 ECoT-Lite 方法示意图。过去的机器人推理策略虽然性能出色但速度缓慢。通过测试关于机器人推理为何能提高策略性能的多种假设,我们发现了两种简单轻量的替代方案,利用具身推理数据训练策略,但在测试时不产生推理,从而在保持快速推理速度的同时,提升了超越非推理 VLA 的性能。

背景: 机器人推理的现状

要理解这里的创新,我们需要先看看基准模型: 视觉-语言-动作模型 (VLAs)

标准的 VLA (如 OpenVLA 或 RT-2) 本质上是针对机器人技术进行微调的 VLM。它接收图像和文本指令 (例如,“把胡萝卜放在盘子上”) ,并输出一系列“动作 token”。这些 token 随后被解码为物理机器人的指令 (x, y, z 坐标的变化,抓手旋转等) 。

“完整的 ECoT” 方法

最近的工作引入了具身思维链 (ECoT) 。模型不再直接从图像跳跃到动作,而是被训练为首先生成一系列推理步骤。

如下图所示,这些步骤非常细致。它们可能包括:

  1. 高层规划: “拿起玉米。”
  2. 视觉定位: 玉米的边界框坐标。
  3. 子任务逻辑: “尚未抓取玉米 -> 移动到玉米处。”
  4. 动作基本原理: “玉米在手臂下方 -> 向下移动。”

图 2: 中间推理步骤示例。我们使用具身思维链推理 (ECoT [14]) 作为本工作的代表性机器人推理方法,并用虚线边框标出了它未使用的步骤 (但这些步骤在其他类似工作 [45, 46] 中有被使用) 。

虽然有效,但这种流程计算成本高昂。如果你的机械臂需要对滑落的物体做出快速反应,它可没时间先为此写篇短文。这篇论文的作者希望在不付出计算代价的情况下保留 ECoT 的智能。

解构“为什么”: 三个假设

为了解决速度问题,研究人员首先必须理解提升的机制。究竟为什么在推理数据上进行训练能让机器人更擅长抓取玉米?他们提出了三个假设:

  1. 表征学习 (Representation Learning): 推理数据迫使模型学习更好的内部特征。例如,通过强制模型预测“红色杯子”的边界框,模型的内部层在识别一般的“红色杯子”方面会变得更好。如果这是真的,我们可能不需要在测试时输出文本——内部特征已经学到了。
  2. 学习课程 (Learning Curriculum): 推理充当了“脚手架”。对于模型来说,学习“图像 \(\to\) 规划 \(\to\) 动作”比巨大的“图像 \(\to\) 动作”跳跃要容易得多。一旦在训练中搭建好了这座桥梁,也许我们可以移除脚手架。
  3. 表达能力/计算量 (Expressivity/Compute): 这是一个怀疑论者的假设。也许语义内容并不重要。也许模型表现更好仅仅是因为生成推理 token 给了 Transformer 更多的“思考时间” (更多的计算层) ,然后再致力于执行动作。

核心方法: ECoT-Lite

基于这些假设,作者开发了 ECoT-Lite , 这是一套旨在隔离这些因素并寻找更快替代方案的训练配方。

下图概述了他们比较的五种特定架构。

图 3: ECoT-Lite 训练配方。蓝色表示输入,橙色表示输出/生成内容,虚线边框表示在测试时不存在 (并在训练期间随机 Dropout) 。(a): 标准 VLA [5, 6] 和具身 CoT [14] 训练。(b) 使用具身推理数据对 VLA 模型进行预训练或联合训练。(c): 在训练期间作为上下文提供“脚手架”式的推理数据。(d): 使用推理 Dropout 进行训练,在推理时移除推理步骤。(e): 引入非语义的“思考 token”以增加模型的有效表达能力。

让我们详细分析新提出的配方 (b, c, d 和 e) 以及它们与假设的关系。

1. 推理预训练 (表征方法)

对应配方 (b) 在这里,模型首先仅被训练从图像生成推理 (规划、边界框等) 。然后,关闭该目标,对模型进行微调以预测动作。

  • 逻辑: 如果假设 1 是真的,预训练应该在模型看到任何运动指令之前,将其视觉表征塑造为“与机器人相关”的形态。在测试时,它就像一个标准的 VLA——没有推理输出,速度最快。

2. 推理 Dropout (混合方法)

对应配方 (d) 这是对标准 ECoT 的巧妙调整。模型被训练产生推理,但带有 Dropout 机制。在训练期间,部分样本的推理部分会被随机移除。

  • 逻辑: 这迫使模型变得灵活。它从带有推理的例子中学习深度表征,但因为有时必须直接预测动作,它也学习了从图像到动作的直接路径。
  • 好处: 在测试时,只需关闭推理生成。你既获得了“推理感知”权重的好处,又拥有了标准 VLA 的推理速度。

3. 推理脚手架 (课程方法)

对应配方 (c) 在这里,推理作为输入 (上下文) 在训练期间提供,但模型不会因生成它而受到惩罚。它被视为一种提示。

  • 逻辑: 这测试了假设 2。看到推理是否有助于模型学习映射关系,即使它不需要自己生成推理?

4. 思考 Token (表达能力方法)

对应配方 (e) 这测试了“计算量”假设。模型在动作之前生成无意义的“思考 token” (例如重复的句号 .) 。

  • 逻辑: 如果假设 3 是真的,简单地强制模型处理虚拟 token 应该能通过增加有效深度来提高性能。

实验与结果

研究人员在两个主要基准上评估了这些策略: LIBERO-90 (包含 90 个多样化任务的模拟基准) 和 BridgeData V2 (真实世界机器人操作) 。

下面是这些实验中使用的推理数据示例。请注意推理是多么详细,涵盖了从任务规划到空间关系的所有内容。

图 4: LIBERO 和 Bridge 的 ECoT 推理示例。更多示例见图 6。

关键发现 1: 你不必大声“思考”也能变得聪明

结果非常明显。 推理 Dropout推理预训练 方法 (在测试时生成文本) 的表现明显优于标准 VLA,并与完整的 ECoT 旗鼓相当。

请看下面的性能图表:

图 5: 上图: 所有方法在 LIBERO-90 基准上的性能。表现最好的方法是 ECoT 和 ECoT-Lite 推理 Dropout 策略,两者都在标准 LIBERO-90 评估中击败了过去的 SOTA (90.8% 和 89.4% vs. Mete 等人 [69] 的 88.6%) 。推理预训练也显著提高了性能。数值和标准误见表 1。下图: 我们在 Bridge 中复制了推理 Dropout 和预训练策略,以验证其在现实世界中的有效性。两种 ECoT-Lite 方法都比标准 VLA 的性能有所提高。虽然完整的 ECoT 表现最好,但 ECoT-Lite 策略不产生测试时推理,使其推理速度快得多。每个任务的数值和标准误见表 2。图例中的星号表示该方法同时也出现在上方和下方图表中。

在 LIBERO-90 基准 (上图) 中:

  • 标准 VLA: ~67% 成功率。
  • 推理 Dropout (本文方法) : ~76% 成功率。
  • 完整 ECoT: ~77% 成功率。

推理 Dropout 策略几乎达到了与沉重、缓慢的完整 ECoT 模型完全相同的性能,但运行速度快了 3 倍 (从 ~1 Hz 跃升至 ~3.5 Hz) 。

关键发现 2: “思考 Token” 不起作用

“思考 Token”策略 (仅添加填充 token) 实际上略微降低了性能。这有力地表明推理的内容很重要。这不仅仅是关于计算量;模型需要学习像“物体位置”和“规划逻辑”这样的语义概念才能得到提升。

关键发现 3: 预训练 vs. 联合训练

预训练 (先训练推理然后训练动作) 和联合训练 (Co-training) (同时训练两者) 之间出现了一个有趣的细微差别。

你可能会认为联合训练更好,因为模型同时学习所有内容。然而,结果显示预训练更胜一筹。

作者提出了一个“损失地形图 (Loss Landscape) ”理论来解释这一点 (如下图所示) 。

图 7: 关于为何推理预训练似乎比联合训练更有效的非常抽象的论证图示,尽管两者使用的是相同的数据。蓝色表示动作预测任务的损失地形图,红色对应推理任务,颜色越深表示两者的损失越低。联合训练线性混合了这两个损失地形图,并旨在同时优化两者;而预训练则不相交地、连续地优化推理和动作。如我们的 LIBERO 结果所示,后者似乎能找到比前者更好的从观察到动作的映射。我们怀疑这是因为在预训练时,模型将其所有参数和表征能力都用于学习推理,从而进入了一个使学习良好动作变得更容易的参数空间部分。请注意,我们没有说明任何动作可以关注推理的方法 (Dropout、脚手架或 ECoT) 的损失地形图。在这种情况下,由于动作的表征依赖于推理的表征,整体损失地形图不仅仅是两个任务独立地形图的线性组合,这意味着它不容易与上述抽象联系起来。

联合训练中,模型可能会分散其能力: 一些参数学习推理,另一些参数学习动作,它们之间没有太多互助。在预训练中,模型被迫首先将其所有能力用于理解环境 (推理) 。当它切换到动作学习时,它已经变“聪明”了,从而能为运动控制找到更好的解决方案。

我们何时真正需要完整的推理?

虽然 ECoT-Lite (Dropout) 非常棒,但有没有什么时候我们必须使用缓慢、完整的 ECoT 方法?

BridgeData 实验 (真实机器人) 表明是的。对于“分布内”任务,快速的 Dropout 模型工作得非常完美。然而,对于分布外 (OOD) 场景——例如处理未见过的物体或新的空间关系——在测试时启用推理有助于防止失败。

下图完美地展示了这一点。在“把胡萝卜放在盘子上”的任务中 (目标位置很高,是一个新场景) , 推理 Dropout 模型失败了,因为它撞到了平台上。 完整 ECoT 模型明确推理出“胡萝卜在手臂下方 -> 向下移动”,使其能够修正轨迹并成功。

图 8: 测试时机器人推理重要性的定性示例。我们在三个不同的 Bridge 任务上展示了禁用推理 (推理 Dropout) 或启用推理 (完整 ECoT) 的策略行为,以及直观上导致正确行为的推理部分。前者导致失败,而后者导致成功。在顶部和中间的任务中,目标抓取对象是分布外的。然而,推理策略成功地用边界框标记了它,从而实现了正确的抓取。在底部,禁用推理会导致机器人与平台和锅发生碰撞,而启用推理则会使手臂移动到足够高的地方。

结论与启示

这篇论文为实用的机器人学习带来了巨大的飞跃。它证明了机器人技术中“思维链”的主要好处不一定是实时生成的文本,而是训练过程中发生的表征学习

结论要点:

  1. 推理改善表征: 教机器人解释自己,能让它更好地观察和理解世界。
  2. 速度不必受损: 通过使用推理 Dropout预训练 , 我们可以“固化”这种智能。我们可以部署与标准 VLA 一样快但更加稳健的策略。
  3. 灵活性是关键: 推理 Dropout 方法特别强大,因为它给了你选择的权利。你可以让它在 99% 的任务中运行“快速模式” (无推理) ,并在机器人检测到困惑或处于新颖情况时切换到“慢速/智能模式” (全推理) 。

对于具身 AI 的学生和研究人员来说,ECoT-Lite 提供了一个新的标准配方: 带推理训练,无推理部署。 这让我们离那些既聪明能处理现实世界,又快到真正实用的机器人更近了一步。