想象一下你身处厨房,看到了柜台上的一个咖啡杯。你不会像坦克一样只是“驾驶”你的身体移到柜台前,然后像起重机一样伸出手臂。你会走向它,很可能在调整步伐的同时身体前倾并伸出手——所有这些都是在一个流畅、协调的动作中完成的。你的眼睛锁定目标,身体随之而动。
然而,对于人形机器人来说,这种将导航 (走到某地) 和操作 (抓取物体) 无缝结合的能力是非常难以实现的。历史上,机器人学家通常将这些视为独立的问题: 移动底座处理 2D 导航,一旦机器人停下来,机械臂再处理抓取任务。
但人形机器人不是移动底座;它们是可以蹲下、倾斜和跨过障碍物的关节系统。为了真正发挥作用,人形机器人需要同时协调它的眼睛、双手和双脚。
在这篇文章中,我们将深入探讨一篇名为 “Hand-Eye Autonomous Delivery (HEAD)” (手眼自主交付) 的研究论文。研究人员提出了一个新的框架,通过直接从人类运动和视觉数据中学习,教会人形机器人导航、移动和抓取。其结果是一个能让宇树 (Unitree) G1 机器人识别房间中的物体,走过去并触摸它的系统——就像我们一样在复杂的 3D 环境中导航。

人形机器人控制中的断层
在看解决方案之前,我们需要了解问题所在。传统的机器人导航将机器人视为 2D 地图上的一个圆柱体或一个点。这对于扫地机器人 (Roomba) 来说很好,但限制了人形机器人。人形机器人可以跨越杂物或挤过狭窄的缝隙。
相反,“全身控制” (WBC) 通常专注于平衡和跟踪特定的关节角度,往往缺乏对机器人需要在宽敞房间中去往何处的高层理解。
HEAD 的作者认为,为了弥合这一差距,我们不应该试图训练一个巨大的神经网络来完成从像素到扭矩的所有工作。相反,他们提出了一种模块化方法 , 将“看”与“动”解耦,并通过一个非常特定的接口连接起来: 三点追踪 (3-point track) 。
HEAD 架构
HEAD 的核心理念是“手眼交付”。机器人的工作是将它的手和眼睛“交付”到特定的目标位置。
如下面的系统概览所示,该框架分为两个主要层级:
- 高层策略 (规划器) : 这部分通过 RGB 摄像头观察世界。它决定了机器人的头部 (眼睛) 和双手在未来需要处于什么位置才能达到目标。
- 低层策略 (控制器) : 这是一个全身控制器,接收这些目标位置 (头部和双手) ,并计算出如何移动机器人的 27 个关节来到达那里,同时保持平衡。

这种分离非常高明,因为它允许研究人员使用视频数据 (非常丰富) 训练视觉系统,使用动作捕捉数据 (截然不同) 训练运动系统,而不需要收集大量且难以获取的机器人完美执行所有任务的数据集。
让我们详细分解这些组件。
1. 低层: 全身运动控制器
该系统的基础是机器人自然移动的能力。研究人员使用强化学习 (RL) 来训练控制机器人关节的策略。
该策略的输入是稀疏的: 它只知道三个点的目标位置和方向: 头部 (眼睛) 、左手和右手。策略的工作是计算出移动这三个点到目标所需的复杂的腿部动作和身体平衡。
向人类动作学习 (类 GAN 方法)
为了确保机器人像人类一样移动 (而不是像出故障的电子游戏角色) ,团队使用了人类动作捕捉 (MoCap) 数据集。然而,简单地“克隆”人类动作是僵化的。机器人需要能够混合和匹配技能——例如,在行走时保持手部稳定。
他们采用了类 GAN (生成对抗网络) 框架 。 在这个设置中,控制策略试图生成动作,而“判别器” (批评者) 试图分辨该动作是否像真实的人类动作。

这里的关键创新是: 解耦判别器。
如果你对全身使用单个判别器,机器人会学习到并不总是有用的相关性。例如,人类走路时通常会摆动手臂。如果机器人学到了“走路 = 摆臂”,它在端咖啡时就会遇到麻烦。
为了解决这个问题,研究人员拆分了判别器:
- 上半身判别器: 判断躯干和手臂看起来是否自然。
- 下半身判别器: 判断腿部和步态看起来是否自然。
这使得机器人能够将“行走”的下半身与“抓取”的上半身结合起来,有效地混合技能以适应任务。
训练目标在数学上表示为多目标优化:

在这里,系统平衡了模仿奖励 (看起来像人类) 和任务奖励 (到达目标) 。说到模仿,判别器的奖励函数如下所示:

为了确保机器人确实执行指令,如果头部和双手偏离目标,目标导向奖励会惩罚机器人:

通过结合这些,低层控制器成为了机器人强大的“肌肉记忆”,仅通过追踪空间中的三个点就能行走、蹲伏和抓取。
2. 高层: 导航与抓取
现在机器人有了能干的身体,它需要一个大脑来指引方向。高层策略分为两个模块: 导航 (靠近目标) 和抓取 (触摸物体) 。
导航模块
导航模块基于视觉数据运行。它获取机器人头部摄像头的图像和用户选择的 2D 目标点 (例如,点击图像中的玩具) 。
它使用基于 Transformer 的架构 。 图像经过处理提取特征,这些特征与目标点结合。然后 Transformer 预测摄像头 (“眼睛”) 的未来轨迹 。

数据挑战: 训练视觉导航系统需要海量数据。在物理机器人上收集这些数据既慢又昂贵。
解决方案: 研究人员利用了 Aria 眼镜——一种捕捉第一人称视频的可穿戴智能眼镜。这使他们能够使用数小时的人类视频 (人们在厨房走动、清洁等) 作为训练数据。
然而,人类看到的和机器人看到的不完全一样。为了弥合这种域差距 (Domain Gap) , 他们对人类视频应用了几何变换 (去畸变和单应性变换) ,使其看起来像是用机器人的鱼眼镜头拍摄的。这种巧妙的数据增强让机器人仿佛在迈出第一步之前就已经“构想”出了数小时的导航经验。
过渡到抓取
一旦机器人导航到离目标足够近的地方,系统就会切换到抓取模块 。

在这个阶段,机器人使用第二个向下的摄像头 (RGB-D) 。系统在这个新视角中检测物体,并计算触摸它所需的手部精确 3D 位置。它使用基于模型的逆运动学 (IK) 来生成手部的最终平滑路径,确保从“行走模式”到“精细操作模式”的无缝过渡。
实验与结果
研究人员在 宇树 G1 人形机器人 上部署了 HEAD。他们在两个真实环境中进行了测试: 一个实验室和一个厨房。关键在于,厨房是一个“部署房间”——机器人在训练期间从未见过它。

关键发现
- 在现实世界中有效: 该系统在未知布局中抓取新物体达到了 71% 的成功率 。 这对于在非结构化障碍物中导航的人形机器人来说令人印象深刻。
- 对杂乱环境的鲁棒性: 与可能会被地毯卡住或无法越过低矮凳子的轮式机器人不同,G1 利用其全身进行导航。
- 混合数据的重要性:
- 仅使用人类数据训练失败 (成功率约 14%) ,因为机器人不是人类 (身高、速度不同) 。
- 仅使用机器人数据在实验室有效,但在新厨房失败 (过拟合) 。
- 致胜配方: 将少量机器人数据与大规模人类数据集 (Aria Digital Twin) 相结合。这种混合使机器人既能学习自身的身体动力学,又能从人类那里获得通用的导航智能。
网络架构
对于机器学习爱好者,以下是 RL 阶段中策略和价值网络所使用的网络结构。注意这里使用了 GRU (门控循环单元) 来处理运动的时间特性。

结论与展望
HEAD 框架展示了人形机器人技术的重大进步。通过摆脱“平台”与“机械臂”的僵化分离,转而将全身视为手和眼的交付系统,研究人员实现了更自然、更强大的行为。
这项工作的三个主要收获:
- 解耦很强大: 将视觉 (高层) 与肌肉控制 (低层) 分离使问题变得可解。
- 三点足矣: 你不需要从视觉规划器显式控制每个关节。引导头部和双手足以驱动复杂的全身行为。
- 人类数据是燃料: 我们可以通过观察人类来教机器人导航,前提是我们在数学上调整视频以匹配机器人的视角。
虽然该系统仍有局限性——它目前主要依赖上半身追踪,并没有针对楼梯等复杂地形显式推理落脚点——但它为能在我们杂乱、立体的 3D 世界中真正生活和工作的人形机器人铺平了道路。
](https://deep-paper.org/en/paper/2508.03068/images/cover.png)