引言

想象一下,你订购了一杯咖啡或一个小包裹,并希望它直接送到你家门口。在未来的城市中,一个小机器人将在混乱的城市丛林中穿梭——避开行人、爬上路缘石、穿过公园长椅——只为将物品送到你手中。这个概念被称为微出行 (micromobility)

虽然我们经常听到关于高速公路上自动驾驶汽车的消息,但自动驾驶的“最后一公里”——人行道、广场和公共空间——呈现出一组截然不同的挑战。与在规则明确的结构化车道上行驶的汽车不同,微出行机器人必须处理“非结构化”环境。它们面临着楼梯、草地、不平坦的鹅卵石、密集的人群以及不可预测的障碍物。

目前,大多数这类配送机器人并非真正的自主运行;它们通常由坐在呼叫中心的人类远程操作,或者仅拥有非常基础的智能,一旦遇到楼梯或拥挤的路口就会失效。为了弥合人类控制与完全自主之间的差距,机器人需要从经验中学习。但在物理人行道上收集数百万小时的数据既危险、昂贵又缓慢。

这就引出了一篇关键的研究论文: 《Towards Autonomous Micromobility through Scalable Urban Simulation》 (通过可扩展城市仿真迈向自主微出行) 。 研究人员提出了一套全面的解决方案,在数字世界中训练机器人,使其能够在现实世界中执行任务。他们推出了 URBAN-SIM (一个高性能仿真平台) 和 URBAN-BENCH (一套旨在测试机器人敏捷性和智能极限的任务) 。

自主微出行概览,展示了城市环境中的各种机器人实体。

如图 1 所示,目标是让各种形态的机器人——从四足机器人到人形机器人——学会应对公共城市空间中复杂多变的地形。在这篇文章中,我们将拆解 URBAN-SIM 的架构,探索它如何生成无限的城市,并分析不同机器人在被推向极限时的表现。

背景: 为什么微出行如此困难?

微出行是指在低速 (低于 45 公里/小时) 下运行的轻型移动机器 (低于 350 公斤) 。这包括从电动轮椅和滑板车到包裹递送机器人和人形助手的一切设备。

自主微出行的主要瓶颈在于仿真差距 (simulation gap) 。 要训练一个深度学习模型 (特别是强化学习智能体) 来在城市中导航,你需要两样通常相互冲突的东西:

  1. 复杂性: 仿真必须丰富、多样且逼真。它需要建筑物、变化的地面纹理、移动的行人以及符合物理规律的地形。
  2. 速度: 为了有效学习,智能体需要经历数百万个步骤。这需要一个运行速度极快的模拟器,最好是在 GPU 上运行。

现有的平台通常只能二选一。像 CARLA 这样的模拟器提供了美观、复杂的城镇,但计算量大,端到端训练速度慢。像 Isaac Gym 这样的平台速度极快 (完全在 GPU 上运行) ,但通常局限于简单、统一的环境 (如只有一个箱子的平面) 。

URBAN-SIM背后的研究人员旨在解决这一矛盾: 如何在满足大规模机器人学习所需速度的同时,模拟一个逼真、多样的城市?

核心方法: URBAN-SIM 平台

URBAN-SIM 旨在成为机器人学习城市生活的“健身房”。它建立在 Nvidia 的 Omniverse 和 PhysX 5 之上,利用了现代 GPU 的能力。该平台立足于三大支柱: 分层城市生成交互动力学异步场景采样

URBAN-SIM 的三大支柱: 分层生成、交互动力学和异步采样。

让我们详细分解图 2 中展示的每个模块。

1. 分层城市生成 (Hierarchical Urban Generation)

为了防止机器人“过拟合” (死记硬背特定的地图) ,环境必须不断变化。研究人员开发了一条能够程序化生成无限城市场景的流水线。它分四个渐进阶段工作:

  1. 街区连接 (Block Connection) : 系统首先布局宏观结构。它采样街区 (直路、十字路口、环岛) 并将它们连接起来形成道路网络。
  2. 地面规划 (Ground Planning) : 它将公共空间划分为功能区。它决定人行道、人行横道、广场和建筑物占地位置。
  3. 地形生成 (Terrain Generation) : 这对微出行至关重要。与在平坦沥青路上行驶的汽车不同,机器人会遇到楼梯、斜坡和破裂的路面。系统使用一种称为波函数坍缩 (WFC) 的算法来生成具有特定物理属性 (摩擦力、颠簸度) 的多样化地形。
  4. 物体放置 (Object Placement) : 最后,它用来自包含超过 15,000 个 3D 资产的库中的静态障碍物——树木、公交车站、长椅和消防栓——来填充世界。

这条流水线确保机器人永远不必在完全相同的街角训练两次,迫使它学习可泛化的技能,而不是记忆地图。

包括纹理、斜坡和楼梯在内的不同地形设置示例。

如上图 8 所示,纹理和几何形状的变化非常显著。在这里训练的机器人必须学会,“斜坡”不仅仅是一种视觉纹理,而是一个需要更多扭矩才能爬上的物理坡度。

2. 交互动力学生成 (Interactive Dynamics Generation)

没有人的城市是一座鬼城。对于配送机器人来说,行人是最难导航的“动态障碍物”。

模拟人群通常会造成瓶颈。传统方法在 CPU 上运行路径规划,而机器人在 GPU 上学习。这种持续的数据传输将训练速度拖慢到爬行速度。

URBAN-SIM 将整个人群模拟移至 GPU。研究人员升级了 ORCA (最佳互惠防撞) 算法——一种防止智能体相互碰撞的标准方法——使其能够使用 JAX 在 GPU 上并行运行。这使得模拟可以渲染成千上万的行人和车辆,它们不仅相互避让,还能实时对机器人做出反应,且完全不会减慢训练循环。

模拟器中可用的动态资产和机器人示例。

如图 16 所示,该平台支持各种各样的智能体。“动态资产”不仅仅是碰撞箱;它们是带有骨骼绑定的 3D 人物和车辆模型,能够逼真地移动。

3. 异步场景采样 (Asynchronous Scene Sampling)

这可能是该平台最具技术含量和影响力的创新。

在标准的机器人学习中 (如 Isaac Gym) ,并行训练通常意味着并行运行 1,000 次相同的环境。如果你想在新环境上训练,你必须重置所有 1,000 个实例。这是“同步”的,不利于多样性。

URBAN-SIM 使用一种异步场景采样方案。

展示如何随机采样资产以创建独特的并行环境的图表。

如图 3 所示,系统将大量的“资产缓存”加载到内存中。当 GPU 启动并行环境 (例如,一次 256 个环境) 时,每一个环境都可以从缓存中采样完全不同的资产、地形和布局组合。

  • 环境 1 可能是一个有楼梯和人群的雨天广场。
  • 环境 2 可能是一个只有几个垃圾桶的阳光明媚、平坦的人行道。
  • 环境 3 可能是狭窄小巷中的陡峭坡道。

所有这些都在单个 GPU 上同时运行。这使得机器人在每个训练批次中都能体验到多样化的数据分布,从而显着加快神经网络的收敛速度。

显示 FPS 和 GPU 内存使用量随环境数量扩展的图表。

性能优势巨大。图 17 表明,即使有 256 个复杂的并行环境,该平台仍能保持超过 2,600 帧/秒 (FPS) 的速度,同时保持高效的 GPU 内存使用。这种高吞吐量使得“大规模”训练成为可能。


URBAN-BENCH: 测试极限

拥有模拟器是一回事;拥有衡量成功的标准方法是另一回事。研究人员推出了 URBAN-BENCH , 这是一套按自主微出行所需的三项核心技能分类的任务: 运动 (Locomotion)导航 (Navigation)穿越 (Traverse)

运动、导航和穿越的基准任务概览。

1. 城市运动 (Urban Locomotion)

这侧重于机器人的本体感觉和平衡能力。它能在不摔倒的情况下移动吗?

  • LocoFlat (平地) : 在标准路面上行走。
  • LocoSlope (斜坡) : 应对无障碍坡道 (这对轮椅机器人至关重要) 。
  • LocoStair (楼梯) : 爬楼梯 (这对四足/人形机器人至关重要) 。
  • LocoRough (粗糙路面) : 穿越鹅卵石或损坏的人行道。

2. 城市导航 (Urban Navigation)

这侧重于感知和路径寻找。它能从 A 点到达 B 点吗?

  • NavClear (空旷) : 在开阔空间中寻找路径。
  • NavStatic (静态障碍) : 避开长椅、杆子和信箱。
  • NavDynamic (动态障碍) : 躲避移动的行人和骑行者。

3. 城市穿越与共享自主 (Urban Traverse & Shared Autonomy)

这是“Boss 关卡”。它涉及在混合了上述所有地形的环境中进行公里级的导航。由于 AI 尚不完美,研究人员引入了人机共享自主方法 (Human-AI Shared Autonomous Approach)

人机共享自主控制层的图表。

如图 20 所示,系统采用分层控制架构:

  • 高层: 人类 (或高层规划器) 做出关键决策 (例如,“走左边的路”或“这看起来很危险,我要接管”) 。
  • 中层: AI 导航策略处理局部路径规划。
  • 底层: AI 运动策略控制电机和肢体。

这种结构允许“伸缩性”——系统可以根据情况的难度,从完全人类控制滑动到完全 AI 控制。


实验与结果

研究人员对四种不同类型的机器人进行了基准测试,以观察形态如何影响性能:

  1. 轮式机器人: (像标准的送餐机器人) 。
  2. 四足机器人: (四条腿的机器狗) 。
  3. 轮腿式机器人: (腿的末端有轮子的混合体) 。
  4. 人形机器人: (双足机器人) 。

涌现行为 (Emerging Behaviors)

最有趣的结果之一是观察到了“涌现行为”。机器人并没有被明确告知如何处理障碍物;它们只是因为到达目标而获得奖励。然而,它们根据自己的身体特征制定了策略。

可视化涌现行为: 绕行、穿越和沿边行走。

图 5 突出了这些独特的适应性:

  • 面板 1 (轮式) : 轮式机器人 (COCO) 学会了绕行 。 由于它不容易爬上路缘石或粗糙地形,它学会了绕远路以保持在平坦的地面上。
  • 面板 2 (四足) : 能够处理粗糙地形的腿式机器人学会了直接穿越障碍物,走最短的路径。
  • 面板 4 (人形) : 在狭窄的空间中,人形机器人学会了侧步或从缝隙中挤过去,利用其垂直轮廓挤过交通锥。

人类 vs. AI 基准测试

在公里级的“城市穿越”任务中,研究人员比较了纯 AI 控制与人类控制及共享自主控制。

比较不同控制模式下的人力成本与尝试成功次数的散点图。

图 6 揭示了其中的权衡:

  • AI (绿色圆圈) : 不需要人力劳动 (成本 = 0) ,但经常失败 (高尝试次数) 且频繁碰撞 (圆圈很大) 。
  • 人类 (橙色圆圈) : 成功率高且安全 (小圆圈) ,但在时间/劳动力方面非常昂贵 (高人力成本) 。
  • 共享自主 (蓝色/黄色) : “最佳平衡点”。通过仅在必要时允许人类干预,他们实现了高成功率,且劳动力成本显着低于完全远程操作。

规模的力量

最后,研究人员提出了一个问题: “在更多样化的场景上训练真的有帮助吗?”

显示扩大训练场景数量有效性的图表。

图 7 中的结果显而易见。右侧图表显示,随着独特训练场景数量的增加 (从 0 到 1000) ,成功率 (蓝线) 飙升,最终在 80% 附近趋于平稳。这证明 URBAN-SIM 的程序化生成所提供的多样性至关重要。如果你只在 10 个场景上训练,机器人无法泛化;在 1,000 个场景上训练,它就会变得稳健。

结论与启示

《通过可扩展城市仿真迈向自主微出行》这篇论文提出了一个令人信服的论点: 为了解决现实世界的混乱,我们需要能够匹配其复杂性的仿真工具。

URBAN-SIM 解决了以 GPU 速度模拟多样化、人口稠密城市的技术障碍。 URBAN-BENCH 提供了跟踪进度所需的标准化指标。也许最重要的是,实验表明,在正确的环境中,机器人开始自然地发展出智能行为——学会根据自身的物理限制进行侧步、绕行或攀爬。

让机器人安全地为你送咖啡的道路仍然漫长。它涉及解决复杂的策略问题、安全法规以及进一步提升 AI 能力。然而,通过将训练场从物理人行道转移到可扩展、程序化生成的虚拟世界中,我们可能会比预期更早地看到这些自主智能体在我们的城市中穿梭。