引言
想象一下你渴了。你决定伸手去拿桌上的一杯咖啡。首先发生了什么?在你的手臂肌肉发力之前,你的眼睛就已经动了。你会扫描桌面,通过扫视 (saccade) 锁定杯子的位置,然后引导你的手伸向它。一旦你抓住了杯子,你的眼睛可能会立即转向你打算放置它的杯垫。
这一连串的动作感觉是在瞬间完成的,但它揭示了生物智能的一个基本真理: 我们不是像摄像机那样被动地接收视觉世界;为了行动,我们主动地观察。
然而在机器人领域,视觉传统上要被动得多。机器人通常依赖安装在支架上的固定相机 (这会遭受遮挡或低分辨率的困扰) ,或者安装在手腕上的相机 (一旦手移动,就会失去对世界的视野) 。
在一篇引人入胜的新论文 “Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop” 中,来自加州大学伯克利分校的研究人员介绍了一种打破这种模式的机器人系统。他们构建了一个带有机械动眼的机器人,这个机器人学会了——在没有明确指示的情况下——观察周围环境以帮助其手部完成任务。

如 图 1 所示,这个被称为 “EyeRobot” 的系统学会了执行复杂的任务,例如寻找毛巾 (初始视野中甚至看不到毛巾) ,将其捡起,然后寻找桶将其放入。这种行为不是硬编码的。它是通过模仿学习 (Imitation Learning) 和强化学习 (Reinforcement Learning) 的巧妙结合自然涌现出来的。
在这篇文章中,我们将拆解 EyeRobot 系统,探索 360° 视频数据、中央凹 (foveated) 视觉架构和一种新颖的训练循环如何让机器人掌握主动视觉。
背景: 被动视觉的问题
要理解 EyeRobot 的重要性,我们必须看看标准机器人感知的局限性。
- 固定式“外部” (Exo) 相机: 安装在三脚架上的相机提供了工作空间的稳定视野。然而,如果工作空间很大,相机必须放置在很远的地方,从而降低了分辨率。如果机器人伸向物体后方,视线会被阻挡 (遮挡) 。
- 腕部相机: 在机器人手上安装相机可以实现高精度的抓取。但有一个问题: 相机完全受手的支配。如果机器人需要捡起左边的物体并将其放在右边,那么在手实际移动到那里之前,腕部相机对于定位放置区域毫无用处。
主动视觉 (Active Vision) 的概念是指智能体应该控制其传感器以收集所需的信息。正如 J.J. Gibson 那句名言所说: “我们要行动是为了感知,我们感知是为了行动。”
EyeRobot 通过将“眼睛”与“手”解耦来实现这一点。眼睛是安装在云台 (一种电动支架) 上的相机,可以自由旋转。然而,挑战在于训练它。你该如何教一只眼睛看向哪里?
核心方法: EyeRobot
研究人员提出了一种系统,其中注视策略 (看哪里) 和操控策略 (如何移动手臂) 是一起训练的。
1. 硬件: 机械眼球
物理设置模仿了生物的限制。团队将一个带有鱼眼镜头的全局快门 RGB 相机安装在一个高速云台上。这个“眼球”刚性地安装在机器人手臂的基座附近。它有两个自由度 (平移和倾斜) ,使其能够快速扫描环境。

如 图 2 左侧所示,这在硬件方面相对简单,但魔力在于软件和训练方法。
2. 利用 EyeGym 进行可扩展的数据收集
训练强化学习 (RL) 智能体通常需要一个模拟环境,智能体可以在其中尝试数百万次动作。构建真实世界的照片级逼真 3D 模拟 (使用 Unity 或 MuJoCo 等引擎) 非常困难,并且经常遭受“仿真到现实 (Sim-to-Real) 差距”的困扰——即在模拟器中学到的东西在现实世界中不起作用,因为物理或光照不完全匹配。
作者设计了一个绝妙的变通方案,称为 EyeGym 。
他们没有建立实验室的 3D 模型,而是使用 360° 相机 (具体是 Insta360 X4) 录制了真实世界。他们在录制整个全景场景的同时,遥操作机器人执行任务。

图 5 展示了该设置。通过在演示过程中捕获完整的 360° 球体视觉数据,他们有效地捕捉到了任何时刻“机器人可能看向的所有位置”。
然后将这些数据导入 EyeGym。在训练期间,“眼睛”智能体选择一个视角 (方位角和仰角) 。EyeGym 只是从录制的 360° 视频中裁剪出相应的部分。

正如 图 3 所示,这创造了一个“Real-to-Sim”环境。机器人在模拟中“移动”它的眼睛,但它看到的图像是真实的照片。这使得系统能够在没有任何 3D 渲染开销的情况下,针对真实的纹理和光照进行训练。
3. BC-RL 感知-行动循环
这是论文的核心。目标是训练两个智能体:
- 手 (手臂) 智能体: 需要操控物体。
- 眼智能体: 需要为手提供最佳视野。
研究人员使用了一个结合 行为克隆 (BC) 和 强化学习 (RL) 的协同训练循环。
循环过程 (回看图 2 右侧面板) :
- 眼睛观察: RL 眼策略观察历史记录并决定注视方向 (一个动作) 。
- 渲染视图: EyeGym 根据该注视方向裁剪 360° 视频。
- 手进行预测: BC 手臂策略获取裁剪后的图像,并尝试预测正确的机器人手臂运动 (“动作块”) ,以匹配人类演示。
- 奖励: 这是关键。眼智能体会根据手臂智能体预测动作的准确程度获得奖励。
如果眼睛看着一面空白的墙,手臂就没有视觉上下文,很可能会预测出错误的动作。眼智能体就会得到低奖励。如果眼睛直视目标物体,手臂的预测准确性就会提高,眼智能体就会得到高奖励。
因此, 注视行为是从行动的需求中涌现出来的。 眼睛学会了为了获得奖励,它必须看着对手重要东西。
4. 中央凹机器人 Transformer (FoRT)
生物眼睛并不能以高分辨率看到一切。我们有一个“中央凹 (fovea) ”——一个高清晰度的小中心区域——和一个低分辨率的周边区域。这在计算上是高效的。
作者使用 中央凹机器人 Transformer (Foveal Robot Transformer, FoRT) 复制了这一点。

如 图 4 所示,该架构以中央凹的方式处理观察结果:
- 多尺度裁剪: 系统获取当前视图并创建一个裁剪金字塔 (放大、中等、缩小) 。
- Token化: 这些裁剪图像与本体感觉 (关节角度) 和注视方向一起被输入到 Transformer 网络中。
这种架构使机器人能够保持对场景的广泛感知 (周边) ,同时将细节集中在需要的地方 (中央凹) 。正如我们在结果中看到的那样,这对于跟踪物体和忽略干扰物至关重要。
实验与结果
团队在一个大型全景工作空间中的 5 项挑战性任务上评估了 EyeRobot。这些任务要求机器人与 210° 弧度范围内的物体进行交互——这比标准静态相机能有效覆盖的范围要宽得多。

图 6 展示了这些任务,包括:
- 板擦 (Eraser): 拿起板擦并将其放在架子上。
- 急停按钮 (E-Stop): 伸手去够一个移动的紧急停止按钮。
- 螺丝刀 (Screwdriver): 将工具尖端对准目标。
- 毛巾 (Towel): “毛巾入桶”任务 (如引言中所见) 。
- 刷子递交 (Brush Handoff): 将刷子递给人类。
性能 vs. 传统相机
研究人员将 EyeRobot 与标准设置进行了比较: 外部 (Exo) 固定相机和 腕部 (Wrist) 相机。

图 8 突显了视觉上的差异。外部相机 (右上) 太远,无法看到细节。腕部相机 (右下) 太聚焦,丢失了上下文。云台眼 (左下) 提供了高分辨率和灵活性。
定量结果非常明显。

表 1 显示,EyeRobot 在急停按钮任务上达到了 100% 的成功率 , 而腕部相机表现挣扎 (80%) 且具有更高的空间误差。在板擦任务中,特别是当放置位置受到扰动 (移动) 时,腕部相机几乎完全失败 (10% 成功率) ,因为它无法在拿着板擦的同时环顾四周寻找新的架子位置。EyeRobot 保持了 100% 的成功率。
涌现行为
这项研究最令人兴奋的部分是观察眼睛学会了做什么。记住,研究人员从未通过编程让它“看桶”。

图 7 展示了三种完全从 BC-RL 循环中涌现出来的独特行为:
- 目标切换 (左) : 在毛巾-桶任务中,眼睛在手抓取毛巾时看着毛巾。一旦抓取稳固,眼睛会自动将视线切换到桶上以引导放置。它理解任务的顺序。
- 注视 (中) : 眼睛学会将目标物体保持在其中央凹的中心。这为手臂智能体稳定了视野。
- 独立跟踪 (右) : 如果物体移动 (如急停按钮) ,眼睛会跟踪它。至关重要的是,眼睛可以独立于手的位置跟踪物体,这是腕部相机无法做到的。
中央凹化的重要性
花哨的“中央凹” Transformer 架构真的有必要吗?作者进行了一项消融研究来找出答案。

表 2 比较了 EyeRobot (带有中央凹化) 和使用统一分辨率的模型 (无中央凹) 。结果表明,中央凹化导致更低的误差 (4.4cm vs 6.4cm) 和更快的任务完成速度 (5.0s vs 6.2s) 。
为什么?多尺度视觉 Token 帮助模型区分目标和背景干扰物。在一个视频演示中,当一个人在目标附近挥动一个黄色杯子 (干扰物) 时,无中央凹模型感到困惑并看向杯子。中央凹模型忽略了它,并保持锁定在目标上。
结论
“Eye, Robot” 代表了向更具生物性、具身化的机器人感知迈出的重要一步。通过摆脱静态相机输入并拥抱 主动视觉 , 该系统克服了视野与分辨率之间的权衡。
主要结论如下:
- 感知服务于行动: 眼策略的训练仅仅是为了最大化手的成功率,从而导致了智能的、涌现的行为,如前瞻搜索和物体跟踪。
- 通过视频实现 Sim-to-Real: 使用裁剪的 360° 视频 (EyeGym) 是一种高效、可扩展的方式来训练主动视觉智能体,而无需构建复杂的 3D 渲染。
- 中央凹化很重要: 在多个尺度 (中央凹 + 周边) 上处理图像提高了跟踪稳定性和对干扰物的鲁棒性。
虽然该系统目前缺乏运动视差 (因为头部不会左右移动,只会旋转) ,但这项工作为未来的移动机器人奠定了基础,这些机器人不仅能看到世界,还能主动观察它,从而更好地完成工作。
](https://deep-paper.org/en/paper/2506.10968/images/cover.png)