引言

想象一下，你正试图在一个乱糟糟的杂货袋底部寻找一件特定的物品——比如一根黄香蕉。你会怎么做？你不会仅仅是闭着眼睛把手伸进去。你会前倾身体，歪着头，也许一只手把袋子拉开，同时眼睛向里面窥视，并不断调整视线直到发现目标。只有在那之后，你才会伸手去抓取它。

这一过程被称为主动感知 (Active Perception) 。这是一种刻意移动传感器 (你的眼睛) 以收集关于世界更好信息的行为。它涉及搜索、跟踪以及将注意力集中在关键区域。这对人类来说是直觉，但在大多数现代机器人系统中却出奇地缺失。

在机器人模仿学习领域，大多数系统依赖于固定摄像头 (安装在胸部或三脚架上) 或腕部摄像头。虽然腕部摄像头可以移动，但它们是手部动作的附庸；它们看向手去的地方，而不一定是机器人需要看的地方以理解场景。这就造成了一个根本性的局限: 如果机器人不能主动绕过障碍物观察，它就无法操作它看不见的东西。

在这篇文章中，我们将深入探讨 Vision in Action (ViA) , 这是斯坦福大学的一篇研究论文，它提出了一种用于双臂机器人操作的新系统。ViA 使机器人能够直接从人类演示中学习主动感知策略。我们将探讨他们如何构建一个拥有灵活“脖子”的机器人，如何解决 VR 遥操作中导致恶心的延迟问题，以及该系统如何超越传统的固定摄像头设置。

图 1: Vision in Action (ViA) 使用主动头部摄像头在袋子内搜索目标物体 (黄香蕉) 。在这个视觉受阻的场景中，腕部摄像头是无效的，因为它们受到手臂动作的限制。

背景: 观测失配

要理解为什么 Vision in Action 是一项突破，我们首先需要看看通常是如何教机器人处理物体的。

标准方法

在模仿学习 (Imitation Learning, IL) 中，人类操作员控制机器人执行任务 (遥操作) ，机器人记录数据以学习策略。最常见的设置使用:

静态摄像头: 固定的第三人称视角。这些视角很稳定，但受遮挡影响。如果机器人的手臂移动到物体前面，摄像头就会变瞎。
腕部摄像头: 安装在机器人手上的摄像头。这些提供了特写镜头，但受限于操作动作。如果机器人需要竖直拿着杯子，腕部摄像头就会被迫对着墙壁，无法寻找桌子上的杯垫。

缺失的一环: 脖子

人类协调眼睛、头部和躯干来引导视线。我们依赖“自上而下” (目标驱动) 和“自下而上” (刺激驱动) 的注意力。现有的机器人通常缺乏复制这种能力的硬件。简单的机器人脖子通常只有 2 个自由度 (DoF) ——平移和倾斜——这限制了它们执行复杂、类似人类的头部运动，如前倾或窥视角落。

此外，还有一个数据收集问题。如果在遥操作过程中，人类操作员移动头部以看得更清楚，但机器人只有一个固定摄像头，那么机器人永远无法捕捉到那些关键的视觉信息。这就造成了观测失配 (Observation Mismatch) : 人类之所以成功是因为他们能看见，但机器人却失败了，因为它是在从一个盲目的视角进行学习。

Vision in Action (ViA) 系统

ViA 背后的研究人员通过重新思考机器人技术栈的三个核心支柱来解决这些挑战: 硬件、遥操作和策略学习。

1. 硬件: 6 自由度脖子

团队没有设计复杂的仿生脖子，也没有满足于僵硬的 2 自由度舵机，而是采用了一个简单而巧妙的解决方案: 他们使用了一个现成的 6 自由度 (6-DoF) 机械臂作为脖子。

通过将摄像头 (具体来说是一台 iPhone 15 Pro) 安装在一个小型机械臂的末端，该系统获得了巨大的运动范围。它可以模仿人类躯干和脖子的协调运动——倾斜、扭转和蹲伏——使摄像头能够达到静态或简单云台机制根本无法到达的视点。

2. 遥操作: 解决“运动到光子”延迟

ViA 在技术上最迷人的部分是他们如何收集数据。为了教机器人主动感知，人类需要自然地控制机器人的“头”。虚拟现实 (VR) 是不二之选。操作员戴上头显，当他们转头时，机器人的头也随之转动。

然而，直接的 VR 遥操作有一个重大缺陷: 晕动症 (Motion Sickness) 。

在标准设置 (同步 RGB 遥操作) 中，流程如下:

人类转头。
指令发送给机器人。
机器人物理移动电机。
摄像头捕捉图像。
图像流回 VR 头显。

这个循环引入了延迟。即使是几百毫秒的延迟也会导致你的内耳 (前庭系统) 和眼睛之间产生断连。如果你向左转头，但屏幕上的世界等了一会儿才向左平移，你的大脑会认为你中毒了，你就会感到恶心。这使得收集高质量的训练数据几乎是不可能的。

解决方案: 基于点云的解耦渲染

ViA 系统使用中间 3D 场景表示将人类的视野与机器人的物理运动解耦。

图 2: VR 遥操作对比。[左] 传统的 RGB 流传输由于 RGB 数据传输延迟和机器人控制延迟而受到运动到光子延迟的影响。[右] 我们的系统通过以下方式缓解了这个问题: 在世界坐标系中从 RGB-D 数据流式传输 3D 点云，并基于用户最新的头部姿态执行实时视图渲染。

如上图 2 所示，该过程如下运作:

中间表示: 机器人捕捉 RGB-D (颜色 + 深度) 数据。它不发送原始视频，而是将此数据转换为世界坐标系中的 3D 点云 。
本地渲染: 此点云被发送到操作员的工作站。至关重要的是，VR 头显基于用户当前的头部姿态，从这个静态点云渲染视图。
异步更新:

用户端: 当用户转头时，VR 视图瞬间更新 (运行频率约 150 Hz) ，因为它只是在重新渲染现有的 3D 点。感知到的延迟为零。
机器人端: 机器人的物理脖子滞后，追赶用户的聚合动作 (运行频率约 10 Hz) 。当机器人移动时，它捕捉新的 RGB-D 数据并异步更新点云。

这意味着用户可以自由地环顾四周而不会感到恶心。视野的边缘可能会在瞬间为空，直到机器人跟上，但中心视野保持稳定和响应迅速。这允许操作员在不适感的情况下收集长时间、复杂的演示。

3. 学习策略

硬件和遥操作接口准备就绪后，团队收集了需要主动观察的双臂任务演示。

他们使用了扩散策略 (Diffusion Policy) , 这是机器人学习中最先进的方法。该策略接受两个主要输入:

视觉: 来自主动头部摄像头的 RGB 图像 (由 DINOv2 编码器处理) 。
本体感觉: 手臂和脖子的位置/状态。

输出是一个统一的动作计划: 移动手臂的位置以及移动头部的位置。 通过联合学习这些，机器人能够找出协调策略，比如“看着杯子，同时手去抓它”。

图 6: 策略学习摄像头设置对比。[ViA] 使用单个主动头部摄像头。相比之下，[腕部和胸部摄像头] 策略通常因视觉遮挡而失败。

图 6 展示了视觉质量的差异。注意“头部视图 (Head view) ” (第二列) 如何始终将感兴趣的物体置于中心，而腕部和胸部视图 (右侧几列) 通常盯着空旷的空间或遮挡视线的架子。

实验与结果

研究人员在三个独特的、多阶段的任务上评估了 ViA，这些任务旨在打破传统的固定摄像头系统。

任务

袋子任务 (交互式感知) : 机器人必须打开袋子，向内窥视以找到目标物体 (如香蕉) ，并将其取出。在该袋子被物理打开之前，物体是隐藏的。
杯子任务 (视点切换) : 机器人从杂乱的架子 (架子 A) 上取回一个杯子，并将其放在下层架子 (架子 B) 下隐藏的茶托上。这需要向高处看以找到杯子，向低处看以找到茶托。
酸橙与锅任务 (精度) : 机器人必须找到一个酸橙，将其放入锅中，用双手提起沉重的锅，并将其精确地对准在锅垫上。这测试了使用视线进行的双臂协调和精确对齐。

图 3: 任务定义。[左] 第三人称视角。[中] 跨任务阶段的主动头部摄像头视图。[右] 测试场景。

结果 1: 主动感知击败固定摄像头

团队将 ViA 系统与两个基线进行了比较:

主动头部 + 腕部: ViA + 腕部摄像头。
胸部 + 腕部: 标准的“固定摄像头”设置。

结果令人震惊。ViA 在所有任务中都取得了显著更高的成功率。

图 5: 策略学习摄像头设置对比结果。ViA 优于基线配置。

有趣的发现: 摄像头越多并不总是越好。 你可能认为在主动头部设置中添加腕部摄像头会有所帮助。然而，如上图橙色条所示，添加腕部摄像头后性能实际上下降了超过 18%。研究人员假设，腕部视野在复杂操作过程中经常被遮挡或充满噪声，引入了混淆学习模型的“干扰”信号。主动头部摄像头由于受到智能控制，本身就能提供足够丰富和稳定的数据。

结果 2: 视觉表示很重要

团队还测试了机器人需要什么样的“大脑”来处理图像。他们比较了:

ViA (Ours): 使用 DINOv2 , 一种强大的预训练视觉 Transformer。
ResNet-DP: 使用标准的 ResNet-18 主干网络。
DP3: 使用原始点云作为输入。

图 6: 策略学习视觉表示对比结果。使用 DINOv2 的 ViA 取得了最高的成功率。

DINOv2 主干网络 (ViA) 胜出。为什么？因为像“寻找酸橙”这样的任务需要很强的语义理解。机器人需要知道酸橙是什么才能去寻找它。点云方法 (DP3) 经常在“幻觉”方面挣扎，将空空间误认为物体，或者无法识别像袋子把手这样的特定物品。

结果 3: 人为因素

最后，他们验证了遥操作界面。解耦的点云渲染真的有帮助吗？

他们进行了一项用户研究，将他们的系统与标准的立体 RGB 流传输进行了比较。结果证实了设计选择的正确性: 用户报告的晕动症显著降低 , 并且压倒性地更喜欢 ViA 界面，尽管数据收集花费的时间稍长 (可能是因为用户操作更加彻底) 。

图 7: 遥操作界面对比。用户报告使用点云渲染方法的晕动症更少，偏好度更高。

结论与启示

“Vision in Action” 论文令人信服地证明，感知不应该是一个被动的过程。通过赋予机器人灵活的脖子和控制它的能力，我们让它们能够解决静态系统无法解决的问题——特别是涉及遮挡和搜索的问题。

主要要点是:

主动感知是可学习的: 你不需要硬编码搜索模式。有了足够的演示，扩散策略可以学会“环顾四周”，就像它学会抓取一样。
VR 需要解耦: 为了从人类那里获得好数据，我们必须解决延迟问题。在本地渲染 3D 点云是一个可行的解决方案，可以让操作员保持舒适。
质量 > 数量: 一个主动控制的摄像头通常比多个固定或受阻的摄像头要好。

这项工作为更自主的家庭机器人铺平了道路。如果我们希望机器人找到钥匙或清理杂乱的房间，它不能只是茫然地盯着前方；它需要看看沙发底下，窥视门后，并主动理解它的世界——就像我们一样。

引言#

背景: 观测失配#

标准方法#

缺失的一环: 脖子#

Vision in Action (ViA) 系统#

1. 硬件: 6 自由度脖子#

2. 遥操作: 解决“运动到光子”延迟#

解决方案: 基于点云的解耦渲染#

3. 学习策略#

实验与结果#

任务#

结果 1: 主动感知击败固定摄像头#

结果 2: 视觉表示很重要#

结果 3: 人为因素#

结论与启示#

引言