引言

在快速发展的机器人领域，数据就是新的石油。为了让机器人学会叠衣服、做饭或组装汽车，它通常需要观察成千上万次任务执行的演示。这就是模仿学习 (Imitation Learning) 和机器人学习 (Robot Learning) 的基础。

然而，教机器人并不像给它看视频那么简单。机器人需要关于关节角度、空间关系和物理特性的丰富的 3D 数据。传统上，研究人员使用键盘、3D 鼠标或昂贵的物理“人偶”机器人来生成这些数据。这些方法通常笨拙、不直观，或者成本极其高昂。

扩展现实 (XR) ——包括虚拟现实 (VR) 、增强现实 (AR) 和混合现实 (MR) 的总称——提供了一个有前景的解决方案。为什么不直接戴上头显，“变成”机器人呢？虽然这个想法已经存在了一段时间，但其执行却是碎片化的。以前的系统通常是“围墙花园”: 专为一种特定的机器人、一种特定的模拟器或一种特定的头显构建。如果你想从 Franka 机械臂切换到 Boston Dynamics Spot，或者从 MuJoCo 切换到 IsaacSim，通常不得不从头开始。

这时, IRIS (沉浸式机器人交互系统，Immersive Robot Interaction System) 登场了。

图 1: 我们展示了 IRIS，这是一个旨在支持各种模拟器和现实世界场景的沉浸式机器人交互系统。

如上图 1 所示，IRIS 是一个开创性的框架，旨在打破这些隔阂。它是一个通用的、不可知论的系统，将现代 XR 头显的沉浸式能力与几乎任何机器人、任何模拟器甚至现实世界连接起来。

在这篇深度文章中，我们将探讨 IRIS 如何解决机器人遥操作中的“碎片化问题”。我们将逐步拆解其独特的架构、新颖的“统一场景规范”，并审视证明它不仅是一个很酷的玩具，而且是生成高质量训练数据的有效科学工具的实验。

背景: 数据采集的瓶颈

要理解为什么 IRIS 是必要的，我们首先需要看看机器人学习的现状。

现代机器人通常使用强化学习 (RL) 或模仿学习 (IL) 进行训练。

强化学习涉及机器人在模拟中尝试数百万次任务，直到它弄明白为止。
模仿学习依赖于人类专家提供成功的示例 (演示) ，供机器人模仿。

对于复杂的操纵任务 (如拿起杯子) ，模仿学习通常更快，但它受限于数据瓶颈。如何让人类自然地控制机器人？

直接遥操作: 使用操纵杆或键盘。这出了名的困难。想象一下试图用抓娃娃机的控制器系鞋带。
动觉教学 (Kinesthetic Teaching) : 物理地抓住真实的机器人并移动它。这很直观，但需要拥有实体机器人 (昂贵) ，且可能具有危险性或让人身体疲惫。
XR 遥操作: 使用 VR 手持控制器驱动虚拟机器人。这结合了模拟的安全性和速度与人类动作的直觉性。

虽然 XR 遥操作是理想的中间地带，但以前的实现都很僵化。为 Meta World 基准构建的系统无法在 RoboCasa 上运行。为 HoloLens 2 设计的工具无法在 Meta Quest 3 上工作。这种互操作性的缺乏意味着研究人员花费在工程化可视化工具上的时间比实际采集数据的时间还多。

IRIS 的构建旨在解决先前工作的三个具体限制:

资产多样性: 超越预定义的对象列表。
平台依赖性: 打破对单一模拟器的依赖。
设备兼容性: 支持多种不同的头显。

核心方法: IRIS 架构内部

IRIS 是围绕六个“跨越 (Cross) ”支柱设计的: 跨场景 (Cross-Scene) 、跨具身 (Cross-Embodiment，即任何机器人) 、跨模拟器 (Cross-Simulator) 、跨现实 (Cross-Reality，即模拟与现实) 、跨平台 (Cross-Platform，即任何头显) 和跨用户 (Cross-User) 。

让我们分解使这种灵活性成为可能的技术架构。

1. 系统架构

IRIS 的高层结构依赖于模拟/控制 PC 与 XR 头显的解耦。

图 2: 模拟 (左) 和现实世界 (右) 中的系统架构范例。所有设备都通过 Wi-Fi 路由器连接。在左图中，模拟使用 SimPublisher 向所有头显更新场景。空间锚点用于对齐不同头显之间的虚拟场景。在右图中，传感器生成点云并传输到 XR 头显，允许操作员清楚地观察跟随机器人前方的被操纵对象。

如图 2 所示，该系统在本地 Wi-Fi 网络上运行。

左侧 (模拟) : 计算机运行物理模拟器 (如 MuJoCo 或 IsaacSim) 。它使用名为 SimPublisher 的 Python 库来广播世界的状态。
右侧 (现实世界) : 深度相机捕捉现实世界，将其转换为点云，并传输给头显。
桥梁: 头显 (使用基于 Unity 的应用程序) 接收此数据并进行渲染。关键是，头显将控制命令 (手部位置、按钮按下) 发送回 PC 以驱动机器人。

这种分离至关重要。这意味着头显不需要知道如何计算物理；它只需要知道画什么。

2. 神经系统: 通信协议

PC 和头显如何找到彼此？IRIS 避免在其核心发现机制中使用繁重的 ROS (机器人操作系统) 开销，尽管它保持了 ROS 兼容性。相反，它使用了UDP 广播和 ZeroMQ (ZMQ) 的轻量级组合。

图 10: 主节点向广播地址的 7720 端口广播包含其详细信息的 UDP 消息。图中的每个 IP 地址代表设备在网络上的唯一地址。XR 节点在启动时监听广播端口以接收这些消息，提取主节点的 IP 和 ZMQ 套接字地址，并建立稳定的连接。

参考图 10 (上图) ，该过程就像握手一样:

发现: 主节点 (PC) 通过 UDP 广播不断向本地网络呼喊“我在这里！”。
连接: 当头显 (XR 节点) 醒来时，它会监听这个呼喊。一旦它听到主节点的声音，就会提取 IP 地址。
数据流: 建立专用的高速 ZMQ 连接。该连接处理繁重的工作: 发送网格数据、纹理和机器人关节状态。

该架构支持跨用户功能。多个头显可以监听同一个主节点，允许多人站在同一个虚拟房间里协作完成任务，或者只是观看学生教机器人。

3. 通用翻译器: 统一场景规范 (USR)

这可以说是 IRIS 最具创新性的部分。在以前的系统中，如果你想在 VR 中加载一个“咖啡杯”，VR 应用程序需要预先安装那个特定的咖啡杯模型。IRIS 颠覆了这一点。

IRIS 将 VR 头显视为一个“哑终端”，它只渲染模拟器告诉它的任何内容。为此，研究人员开发了统一场景规范 (Unified Scene Specification) 。

图 11: 场景规范的层次结构以根 SimObject 开始，它包含场景中的所有对象。每个 SimObject 都有一个名称、一个子 SimObject 列表和一个视觉元素列表。每个视觉元素代表附加到对象的几何元素。在每个几何元素中，材质定义颜色和纹理等属性，而网格决定形状。

如图 11 所示，PC 将模拟环境解析为通用的类似 JSON 的树状结构:

SimObject: 基本单元 (例如，机器人连杆、桌子) 。
SimVisual: 它的外观 (网格、材质、纹理) 。
SimTransform: 它的位置 (位置、旋转) 。

连接建立后，PC 将此“配方”发送给头显。头显读取配方并从头开始动态构建场景。如果对象有自定义纹理，纹理会被压缩并通过网络流式传输。这使得 IRIS 能够在不更新头显软件的情况下渲染任意对象 。

4. 跨模拟器支持

由于统一场景规范是通用的，IRIS 几乎可以插入任何模拟器。研究人员只需要编写一个小的“解析器”，将特定模拟器的格式转换为 IRIS 格式。

目前，IRIS 支持:

MuJoCo
IsaacSim (基于 USD 格式)
CoppeliaSim
Genesis

图 14: IsaacSim 中 Franka Panda 机械臂的 USD 场景层次结构示例。

图 14 展示了 IsaacSim 中机器人的原生层次结构。IRIS 解析器遍历这棵树，将“USD” (通用场景描述) 节点转换为“SimObjects”，并将它们发送到头显。这一抽象层使得 IRIS 实现了“模拟器无关性”。

5. 跨越鸿沟: 现实世界点云

模拟固然很好，但控制真实机器人呢？

在物理设置中，你并没有桌子上所有东西的完美 3D 网格。为了解决这个问题，IRIS 使用了跨现实 (Cross-Reality) 。它采用了 RGB-D (深度) 相机，例如 Orbbec Femto Bolt。

过程包括:

捕获: 相机捕获颜色和深度。
投影: 像素被转换为 3D 点 (\(X, Y, Z\)) 。
体素降采样: 每秒发送数百万个点会阻塞 Wi-Fi。IRIS 将点分组到小的 3D 网格框 (体素) 中并取平均值。这在保持视觉形状的同时减小了数据大小。
渲染: 头显使用 GPU 加速的粒子系统在 3D 空间中绘制这些彩色点。

图 6: IRIS 现实世界应用。此设置具有两个 Franka 机器人: 由佩戴 Meta Quest 3 头显的用户控制的领导机器人，以及镜像其动作的跟随机器人。深度相机捕捉环境以在 XR 中进行实时点云可视化。

图 5 (在幻灯片中标记为图 6) 展示了这种设置。VR 中的用户看到由点组成的现实世界的“幽灵”表示。这提供了标准 2D 视频流无法提供的深度感知，使遥操作变得容易得多。

6. 直观的控制界面

一旦用户能看到环境，他们如何移动机器人？IRIS 支持两种主要模式，如图 14 所示:

图 14: 此图说明了在模拟中使用两种界面控制机器人的示例: 第三人称视角下的动觉教学 (左) 和运动控制器 (右) 。

动觉教学 (KT) : 这模仿了物理抓取机器人。用户抓住虚拟机器人的末端执行器 (手) 并拖动它。物理引擎计算逆运动学 (IK) 以确定关节应如何移动。
运动控制器 (MC) : 用户的手持控制器变成机器人的手。机器人实时模仿用户手的位置和旋转。

实验与结果

研究人员不仅构建了该系统；他们还对其进行了严格测试，以回答三个问题:

它对人类来说更好用吗？ (用户体验)
数据真的有效吗？ (策略学习)
它在现实世界中有效吗？

1. 用户体验: IRIS vs. 键盘鼠标

用户研究使用了 LIBERO 基准任务 (如拿起书或关掉炉子) 。参与者尝试使用标准界面 (键盘和 3D 鼠标) 以及 IRIS (动觉教学和运动控制器) 来控制机器人。

结果非常明显。

图 6: 第一行: 各任务中每种界面的平均任务完成时间。第二行: 四个指标的主观评估分数。我们的界面，XR 环境中的 KT 和 MC，数据采集速度更快且用户体验更好。

查看图 6 中的图表 (上图) :

时间 (第一行) : 使用 IRIS (KT/MC) 完成任务的时间大大低于键盘/鼠标控制。在复杂任务 (任务 3 和 4) 中，键盘用户甚至难以在时限内完成。
主观评分 (第二行) : 用户在直观性、效率和体验方面给 IRIS 的评分显著更高。

使用键盘控制 7 自由度的机械臂在认知上令人疲惫。使用 IRIS 感觉就像是简单地伸出手去完成任务。

2. 策略评估: 数据质量

理想情况下，如果你在 IRIS 采集的数据上训练机器人，它的学习效果应该与从标准数据集学习一样好。研究人员使用 IRIS 采集的数据训练了模仿学习策略 (使用 BC-Transformer 和 BESO 算法) ，并将其与原始 LIBERO 数据集进行了比较。

图 7: 在 LIBERO 任务中基于不同数据集训练的策略的性能比较

图 7 显示成功率 (条形图) 是相当的。这证实了通过沉浸式 IRIS 系统采集的数据质量足够高，可以训练出鲁棒的 AI 智能体。

3. 高级能力: 可变形对象与现实世界

IRIS 的独特功能之一是它能够处理可变形对象 (如布料或毛绒玩具) ，因为它能动态流式传输网格更新。大多数其他 XR 系统假设对象是刚性块。

图 18: 佩戴 VR 头显并使用 IRIS 和 IsaacLab 采集任务演示的视图。任务从左到右依次为: 将布对折、提起可变形泰迪熊、将可变形泰迪熊放入稍小的盒子中。

图 18 (来自附录) 显示用户与模拟布料和泰迪熊的交互。这是 IRIS 无缝处理的一个困难的模拟挑战。

最后，他们在执行诸如“插入杯子”和“捡起乐高积木”等任务的物理机器人上测试了该系统。

图 8: 在不同场景下基于 IRIS 采集的数据训练的策略的性能评估

如图 8(b) 所示，使用 IRIS 数据训练的策略 (橙色条) 通常优于使用传统远程遥操作训练的策略 (蓝色条) 。这表明 IRIS 的深度感知和沉浸式特性允许操作员提供更清晰、更准确的演示供机器人学习。

结论与启示

IRIS 代表了机器人社区的一次重大飞跃。通过将可视化 (XR) 与逻辑 (模拟) 解耦，作者创造了一个具有以下特点的工具:

可重用: 使用相同的头显设置用于十个不同的模拟器。
可复现: 研究人员可以轻松共享场景规范。
可扩展: 它支持多用户协作，并在 Meta Quest 3 等消费级硬件上运行。

这对学生和研究人员的影响是深远的。IRIS 降低了生成高质量机器人数据的门槛。研究人员无需花费数月时间为特定实验构建自定义可视化工具，只需将其模拟插入 IRIS 即可立即开始采集数据。

无论是处理模拟中叠毛巾的复杂物理现象，还是引导真实的机械臂对乐高积木进行分类，IRIS 都为机器人的世界提供了一个统一、直观的窗口。

给学生的关键要点

XR 不仅仅是游戏: 它为机器人提供了 2D 屏幕无法比拟的高带宽控制。
抽象是关键: 通过将场景抽象为“统一场景规范”，IRIS 解决了困扰研究软件的兼容性地狱。
数据质量至关重要: 数据采集工具的终极测试不仅仅是“它看起来酷吗”，而是“机器人真的能学到东西吗？”IRIS 以优异的成绩通过了这一测试。

引言#

背景: 数据采集的瓶颈#

核心方法: IRIS 架构内部#

1. 系统架构#

2. 神经系统: 通信协议#

3. 通用翻译器: 统一场景规范 (USR)#

4. 跨模拟器支持#

5. 跨越鸿沟: 现实世界点云#

6. 直观的控制界面#

实验与结果#

1. 用户体验: IRIS vs. 键盘鼠标#

2. 策略评估: 数据质量#

3. 高级能力: 可变形对象与现实世界#

结论与启示#

给学生的关键要点#

引言