引言: 通用家政机器人的探索之旅
想象一下,一个机器人走进任何一间厨房,识别出做饭所需的食材,找到必要的炊具,然后开始烹饪——而在此之前,它从未见过这个特定的房间。这就是具身智能 (Embodied AI) 的“圣杯”: 一个能够在多样化、非结构化环境中执行复杂多阶段任务的通用机器人。
然而,通往未来的道路上横亘着一个巨大的障碍: 数据 。
训练这些智能体需要海量的数据——具体来说,是机器人操作物体的交互数据。在现实世界中收集这些数据不仅缓慢、昂贵,而且可能充满危险。虽然仿真一直被认为是解决方案,但现有的平台长期受到“金发姑娘”问题 (Goldilocks problem,意指难以两全) 的困扰。有些平台擅长生成多样化的静态场景,但缺乏真实的物理特性;另一些平台物理特性出色,却依赖于少量固定的物体集。最关键的是,很少有平台能有效地处理移动操作 (Mobile Manipulation) ——即机器人一边在房间内移动,一边使用双手进行操作的能力。
AgentWorld 应运而生,这是在 CoRL 2025 上发表的一项新研究成果。该研究介绍了一个统一的框架,结合了高保真的程序化生成环境与强大的移动遥操作 (Teleoperation) 系统。
在这篇深度文章中,我们将探索 AgentWorld 如何利用虚幻引擎 (Unreal Engine) 和 NVIDIA Isaac Sim 等游戏引擎来构建逼真的家居环境,它如何解决移动机器人训练数据收集这一复杂难题,以及这对模仿学习的未来意味着什么。

背景: 仿真技术现状
要理解 AgentWorld 的价值,我们首先需要了解机器人仿真的现状。
多年来,研究人员一直依赖 AI2-THOR、Gibson 或 ManiSkill 等平台。这些工具虽然发挥了重要作用,但往往对研究人员施加了硬性限制。通常,你会面临两种权衡之一:
- 固定底座: 机器人被固定在地板上。它可以学习拿起杯子,但学不会走到水槽边。
- 静态资产: 环境看起来很美,但无法进行有意义的交互 (例如,门打不开,或者材质不符合物理规律) 。
AgentWorld 的研究人员发现了一个空白: 目前缺乏一个既结合了程序化场景构建 (制造无限独特的房间) ,又结合了基于移动底座的遥操作 (控制移动机器人收集数据) 的平台。

如上表 1 所示,AgentWorld 通过满足所有这些需求而脱颖而出。它支持超过 9,000 种资产,具备材质选择、逼真的物理配置,以及对移动底座 (包括轮式和足式) 的关键支持。这种整体性设计旨在弥合“Sim-to-Real” (虚实迁移) 的差距——即将在视频游戏中训练的大脑应用到物理机器人上时所面临的困难。
核心方法: 构建世界
AgentWorld 平台的核心在于其生成世界的能力。研究人员构建了一条流水线,不仅仅是在虚空中放置随机物体,而是构建“语义上有意义”的环境。这确保了烤面包机出现在厨房而不是卧室,且放置在柜台上而不是地板上。
构建流水线分为四个独特的阶段,利用了 虚幻引擎 (Unreal Engine) 的渲染能力和 NVIDIA Omniverse Isaac Sim 的物理精确性。

1. 布局生成 (Layout Generation)
过程始于建筑外壳。AgentWorld 不使用预先扫描的 3D 房间网格 (这些网格是静态的且难以修改) ,而是程序化地生成布局。它确定墙壁、天花板、地板,甚至多层环境的楼梯。它支持三种主要的房间类型: 客厅、厨房和卧室 。 通过算法改变房间的尺寸和连接方式,系统确保机器人永远不会“过拟合”于单一的平面图。
2. 语义资产选择与放置 (Semantic Asset Selection and Placement)
墙壁建好后,房间需要家具。这就是 语义资产 引擎发挥作用的地方。系统利用了一个庞大的 3D 资产库,分为:
- 基础资产: 沙发、床和桌子等家具。
- 可交互资产: 机器人操作的物体,如微波炉 (关节型) 或水果和刀具 (刚体) 。
放置并不是随机的。系统使用语义规则来确保功能上的合理性。例如,枕头生成在床上,食物放置在餐桌上。这个看似微小的细节对于训练 AI 智能体的“常识”——教导它们去哪里寻找特定物品——至关重要。
3. 视觉材质配置 (Visual Material Configuration)
机器人在从模拟环境转移到现实世界时失败的最大原因之一是视觉差异。模拟的木桌看起来可能像平坦的棕色纹理,而真实的桌子有纹理、光泽和瑕疵。
AgentWorld 利用 基于物理的渲染 (PBR) 材质解决了这个问题。系统可以动态地交换物体上的材质——将地板从大理石变为砖块,或将柜子从木头变为金属。这种多样性充当了一种强大的“数据增强”形式,迫使机器人的视觉系统关注物体的形状和用途,而不仅仅是它的颜色或纹理。
4. 交互式物理仿真 (Interactive Physics Simulation)
最后,世界必须遵循物理定律。这一阶段由 NVIDIA Isaac Sim 的 GPU 加速 PhysX 5.0 引擎处理。
视觉效果在虚幻引擎中处理以求美观,但物理需要数学。系统自动计算:
- 碰撞图元 (Collision Primitives): 近似复杂物体的简化形状 (凸包) ,以防机器人穿模。
- 质量和摩擦力: 金属锅的滑动方式应与纸箱不同。系统根据材质类型分配摩擦系数 (例如,木材: \(0.4 \pm 0.1\)) 。
- 关节机制 (Articulation): 对于带门的物体 (冰箱、烤箱) ,系统配置关节和运动范围,确保抽屉是拉出来的而不是像门一样甩开的。
基于移动底座的遥操作系统
构建一个逼真的世界只是成功了一半。要训练一个模仿学习智能体 (通过观察来学习的 AI) ,你需要演示。你需要人类“驾驶”机器人来展示如何执行任务。
这对于移动操作来说是出了名的困难。控制机械臂很难;一边开车一边控制机械臂简直是噩梦。AgentWorld 引入了一种双模式数据收集系统,分散了认知负荷。

模式 A: 移动底座控制 (Mobile-Base Control)
研究人员通过将导航映射到标准的 WASD 键盘控制来简化导航,这对任何玩过 PC 视频游戏的人来说都很熟悉。
- W/S: 前进/后退。
- A/D: 左转/右转。
- Q/E: 旋转躯干。
对于轮式机器人 , 这直接控制速度。对于人形 (足式) 机器人 , 系统利用了基于强化学习的运动策略 (locomotion policy) 。 这意味着人类操作员不需要手动控制机器人腿部的每一个关节。他们只需按“W”前进,底层策略就会处理行走所需的复杂平衡和落脚点。这种抽象化使得操作员可以专注于手头的任务。
模式 B: 手臂与手部控制 (Arm & Hand Control)
虽然键盘处理移动,但复杂的操作是通过 VR 头显 处理的。这创造了一个沉浸式界面,操作员的真实手部动作被映射到机器人上。
系统使用了 Dex-Retargeting (灵巧重定向) 。 由于人手的尺寸和运动学与机器人夹爪或多指机械手不同,直接映射是行不通的。重定向算法将人类手指关键点的位置转换为机器人关节的角度。
- 夹爪: 系统计算操作员拇指和食指之间的归一化距离,以控制夹爪的开/合状态。
- 灵巧手: 对于复杂的手部 (如 TRX-Hand5) ,系统映射完整的手指关节,允许进行复杂的手势。
通过结合这两种模式,AgentWorld 使得收集长程 (long-horizon) 数据成为可能。用户可以控制机器人从客厅走到厨房 (键盘) ,接近冰箱,打开它 (VR) ,拿起一个苹果 (VR) ,关上门 (VR) ,然后走回去 (键盘) 。
AgentWorld 数据集与实验
利用这个平台,研究人员构建了 AgentWorld 数据集 。 它包含超过 1,000 条操作轨迹,涵盖 150 个独特的场景,使用了 4 种不同的机器人本体 (包括 Unitree G1 和 H1 人形机器人) 。
任务分为两类:
- 基础任务: 原始动作,如拾取与放置、打开与关闭、推与拉。
- 多阶段任务: 需要顺序逻辑的复杂活动,例如“倒饮料”、“整理书籍”或“加热食物”。
模仿学习基准测试
为了证明数据集的价值,研究人员对几种最先进的模仿学习算法进行了基准测试: 行为克隆 (BC)、动作分块 Transformer (ACT)、扩散策略 (DP) 和 \(\pi_0\) 。
结果揭示了机器人学习现状的重要见解:
- 短期任务的成功: 对于像“打开与关闭”这样的基础任务,像 ACT 和扩散策略这样的算法表现良好,成功率在 70-80% 之间。
- 长程任务的困境: 对于多阶段任务,性能急剧下降。集成了语言和视觉的 \(\pi_0\) 模型表现最好,但在“整理客厅”等任务上的成功率仍仅为 20-30%。
这种低成功率实际上是数据集的一个积极指标——它表明 AgentWorld 提供了一个足够具有挑战性的基准,现有模型尚未使其饱和。它凸显了将精确操作与移动导航相结合的难度。

Sim-to-Real (虚实) 迁移
任何仿真的终极考验都是现实。在 AgentWorld 中训练的机器人能在现实世界中工作吗?
研究人员针对“拾取和放置”任务 (将物体放入碗中) 完全在仿真中训练了一个策略,然后用少量的现实世界数据进行了微调 (少样本学习) 。如上面的定性结果所示 (图 4) ,机器人成功迁移了这项技能。AgentWorld 中使用的严格物理参数和 PBR 材质使得策略能够泛化到现实世界的视觉和物理环境,验证了平台的保真度。
结论与启示
AgentWorld 代表了具身智能研究民主化的重要一步。通过自动化繁琐的场景构建过程并解决移动遥操作的接口挑战,它为生成机器人技术迫切需要的大规模数据集提供了一条可扩展的路径。
对于学生和研究人员来说,这篇论文强调了两个关键趋势:
- 工具的融合: 机器人技术的未来在于多种技术的集成——用于视觉的游戏引擎、用于物理的工业仿真以及用于人类交互的 VR。
- 向移动操作的转变: 随着我们掌握固定的拾取和放置,前沿领域正在向全身控制和导航转移。
虽然仍存在局限性——例如对布料等可变形物体的仿真——但 AgentWorld 为下一代通用家政机器人提供了坚实的基础。它推动我们将机器人从静态、脚本化的环境带向动态的世界,在那里机器人可以真正地学习与我们共同生活和工作。
](https://deep-paper.org/en/paper/2508.07770/images/cover.png)