简介
我们经常梦想着“罗茜机器人 (Rosie the Robot) ”般的未来——一个能够整理客厅、打扫浴室和整理食品储藏室的通用助手。虽然我们在实验室环境下的机器人操作方面已经看到了惊人的进步,但将这些能力带入现实世界的家庭仍然是一个巨大的挑战。
为什么这这么难?事实证明,一个杂乱的家庭需要的不仅仅是一个好的夹爪。它需要一个能够协调全身的机器人。要打开一扇沉重的门,机器人不能只用它的手臂;它需要用躯干前倾并同时驱动底座。要把箱子放在高架子上,它需要向上伸展;要刷马桶,它需要蹲下。
在这篇文章中,我们将深入探讨斯坦福大学研究人员提出的新框架——BEHAVIOR ROBOT SUITE (BRS) 。 这篇论文通过两项主要创新直面“全身”问题: 一个名为 JoyLo 的巧妙且低成本的远程操作接口,以及一个名为 WB-VIMA 的理解机器人运动层级的新型学习算法。

如上图 1 所示,BRS 使机器人能够执行复杂的任务,如清洁马桶、整理架子和倒垃圾——这些任务需要手臂、躯干和移动底座的同时协调。
家用机器人的三大支柱
在深入探讨“如何做”之前,我们需要理解“做什么”。通过分析 BEHAVIOR-1K 基准 (一个日常家庭活动的数据集) ,研究人员确定了机器人要在家庭中发挥作用必须具备的三个关键能力:
- 双臂协调 (Bimanual Coordination) : 在搬运大箱子或折叠衣物时,使用双手是必不可少的。
- 稳定精准的导航 (Stable and Accurate Navigation) : 机器人必须在狭窄的空间中精确移动而不发生碰撞。
- 广泛的末端执行器可达性 (Extensive End-Effector Reachability) : 这一点经常被忽视。家庭是垂直空间。物体在地板上、柜台上和高架子上。
研究人员通过分析物体在家庭中的实际分布位置,量化了这一“可达性”问题。

从图 2 中可以看出,物体的垂直分布是多模态的。在地面高度 (0.09m) 、低桌 (0.49m) 、柜台 (0.94m) 和架子 (1.43m) 处都有峰值。一个固定高度的机器人根本无法胜任。它需要一个灵活的躯干来覆盖这个范围。
硬件: JoyLo 介绍
为了学习这些任务,我们通常使用模仿学习 (Imitation Learning) , 即由人类控制机器人来收集训练数据。然而,控制一个拥有双臂、移动底座和灵活躯干的机器人是非常困难的。
现有的解决方案通常陷入两个困境:
- 高成本: 外骨骼和专业动作捕捉设备可能花费数千美元。
- 可用性差: 试图一边用键盘控制移动底座,一边用 VR 控制器移动机器人手臂,对操作员来说是一场认知噩梦。
BRS 团队推出了 JoyLo , 一个“基于低成本运动学孪生手臂的 Joy-Con”系统。

JoyLo 如何工作
该系统使用一种“傀儡操控”方法。操作员手持一个物理装置 (“运动学孪生”) ,该装置与机器人的手臂结构相匹配。
- 手臂: 当操作员移动装置时,机器人会模仿该动作。
- 底座与躯干: 这是最巧妙的部分。装置的末端安装了标准的 Nintendo Joy-Con 手柄。操作员在移动手臂的同时,使用 Joy-Con 上的摇杆来驱动移动底座并调整躯干高度。
构建这套装置的成本不到 500 美元 (见下文组件) ,使其能够在研究中广泛普及。它还提供触觉反馈 。 JoyLo 装置中的电机在机器人碰到障碍物时会提供阻力,帮助操作员在没有昂贵力传感器的情况下“感觉”环境。

算法: WB-VIMA
拥有机器人和控制器只是第一步。第二步是教机器人自主行动。这就引出了 WB-VIMA (全身视觉运动注意力,Whole-Body VIsuoMotor Attention) 。
全身控制之所以棘手,是因为运动链 (kinematic chain) 的存在。如果移动底座向左移动 10 厘米,手臂也会向左移动 10 厘米。如果躯干旋转,手臂也会随之旋转。“根部” (底座/躯干) 的误差会放大“末端” (手部) 的误差。标准的策略通常平等地对待所有关节,一次性预测 21 个动作 (底座 + 躯干 + 手臂) 的扁平向量。这忽略了身体的物理依赖关系。
WB-VIMA 通过尊重机器人身体的层级结构来解决这个问题。

1. 多模态观测注意力
首先,模型需要“看”。WB-VIMA 接收两类数据:
- 自我中心彩色点云: 来自机器人摄像头的 3D 视觉数据。
- 本体感觉 (Proprioception) : 机器人对其关节角度和速度的内部感知。
这些输入被编码成 Token,并由 Transformer 使用因果自注意力 (causal self-attention) 进行处理。这使得机器人能够融合视觉信息与其身体状态,从而理解它在哪里以及周围有什么。
2. 自回归全身动作解码
这是核心创新点。WB-VIMA 不是一次性预测所有运动,而是使用条件扩散模型 (conditional diffusion models) 按特定顺序进行预测。
该过程像级联一样工作:
- 预测底座动作: 模型首先决定移动底座应该去哪里。
- 预测躯干动作: 它使用预测出的底座动作来决定躯干应该如何移动。
- 预测手臂动作: 最后,它使用底座和躯干的预测结果来决定手臂的确切位置。
这创建了一个依赖链,其中“下游”身体部位 (手臂) 完全感知“上游”部位 (底座/躯干) 的动作,从而允许它们补偿运动并保持精度。
这个迭代去噪过程的数学公式如下所示:

在这个方程中:
- \(\mathbf{a}_{\mathrm{base}}\) 是底座动作。
- \(\mathbf{a}_{\mathrm{torso}}\) 以底座为条件。
- \(\mathbf{a}_{\mathrm{arms}}\) 以底座和躯干为条件。
- \(\epsilon\) 代表扩散噪声预测网络。
实验与结果
研究人员在五项具有挑战性的现实世界任务上测试了 BRS: 清理派对后的烂摊子、清洁马桶、倒垃圾、整理货架和晾衣服。选择这些任务正是因为它们能难倒标准机器人——它们需要高低伸展以及协调移动与操作。
性能对比基线
WB-VIMA 与 DP3、RGB-DP 和 ACT 等领先的基线方法进行了比较。

图 5 中的结果非常鲜明。
- ACT (基于 Transformer 的动作分块) 未能完成任何完整任务。它在面对高维全身空间时表现挣扎。
- DP3 (3D 扩散策略) 表现稍好,但在协调性方面存在困难,经常与家具发生碰撞。
- WB-VIMA (本文方法) 实现了 88% 的平均子任务成功率和 93% 的最高全任务成功率。
至关重要的是,请看图 5 右侧的 安全违规 (Safety Violations) 表。WB-VIMA 几乎没有违规。因为该策略显式地考虑了底座和躯干的运动,所以它不会意外地将机器人撞向门框或在移动时使手臂扭矩过载。
为什么层级结构很重要: 消融实验
自回归 (层级) 解码真的有必要吗?研究人员测试了一个没有该功能的模型版本 (平等对待所有关节) 。

图 7 展示了一个模拟擦拭任务。完整的 WB-VIMA 模型 (最右边) 达到了约 90% 的成功率。移除全身 (W.B.) 动作解码后,成功率下降到约 65%,与基线相似。这证明了告诉手臂腿在做什么对于精确控制至关重要。
身体协调的重要性
为了说明为什么物理上需要全身控制,看看打开沉重的门或洗碗机的任务。

在图 9 中,我们看到两种情况。
- 有移动底座 (绿线) : 机器人在拉把手时同时后退底座。速度平稳,且手臂力度 (扭矩) 较低。
- 无移动底座 (红色虚线) : 如果底座被锁定,机器人试图仅用手臂打开门。手臂超出了工作空间,速度出现抖动,关节力度危险地激增。
WB-VIMA 自然地学会了这种协调: “如果我要拉门,我就必须后退。”
用户研究: JoyLo 真的好用吗?
你可能认为由 3D 打印部件和 Nintendo 控制器组成的 DIY 装置会很笨重。为了测试这一点,团队进行了一项用户研究,对比了 JoyLo 与 VR 控制器和 Apple Vision Pro (AVP) 在数据收集方面的表现。

JoyLo (图 8 中的橙色条) 占据了主导地位。
- 成功率 (S.R.): 用户使用 JoyLo 完成整个任务的比例约为 70%,而 VR 不足 20%,Apple Vision Pro 为 0%。
- 速度: JoyLo 在导航和操作子任务上的速度都明显更快。
为什么?VR 和 Vision Pro 通常使用 逆运动学 (IK)——你移动手,计算机计算关节角度。这通常会导致“奇异点” (机器人被卡住的数学死胡同) 或不连贯的动作。JoyLo 直接控制关节,从而产生更流畅的数据。

定性反馈 (图 A.4) 证实了这一点。虽然 40% 的用户在研究前认为他们会更喜欢 VR,但在尝试后, 100% 的用户更喜欢 JoyLo 。
局限性与失败模式
没有哪个机器人系统是完美的。论文透明地展示了 BRS 失败的地方。

在倒垃圾任务 (图 10) 中,失败发生在复杂的交互过程中,例如抓住门把手或未与门口对齐。
- 视觉遮挡: 有时机器人手臂会挡住自己的相机视野。
- 累积误差: 在长任务中,步骤 1 的小错误 (稍微抓错了袋子) 可能导致步骤 5 的失败 (袋子卡在垃圾桶里) 。
作者指出,未来的工作可能涉及主动感知 (移动相机以看得更清楚) 以及在人类纠正机器人错误的数据上进行训练。
结论
BEHAVIOR ROBOT SUITE 代表了家用机器人向前迈出的重要一步。它承认家庭机器人是一个全身系统,而不仅仅是一个悬浮的手臂。
通过创建 JoyLo , 研究人员使高质量的数据收集变得普及化。你不需要 5 万美元的动作捕捉工作室;你需要的是一台 3D 打印机和几个 Joy-Con。通过开发 WB-VIMA , 他们表明尊重机器人的物理层级——腿,然后是躯干,然后是手臂——可以带来更精确、更稳健且更安全的策略。
随着这些技术的成熟,我们正一步步逼近机器人真正能够应对真实人类家庭中混乱、垂直且复杂环境的那一天。
](https://deep-paper.org/en/paper/2503.05652/images/cover.png)