引言

想象一下，看着一台价值 50,000 美元的四足机器人在山间小道上徒步，或者一架特制的无人机以冠军级的速度在复杂的赛道上飞驰。这些壮举令人惊叹，代表了机器人技术的最前沿。它们都有一个共同的秘诀: Sim2Real (仿真到现实) ——即在高保真模拟环境中训练策略，然后将其部署到现实世界中。

但问题在于: 这些创新往往被昂贵的硬件和专有软件的壁垒所阻隔。对于普通的本科生、预算有限的研究人员或机器人爱好者来说，获得学习这些现代技术所需的工具几乎是不可能的。当最先进的技术飞速发展时，你往往只能面对过时的模拟器和基本的循迹机器人。

这就是华盛顿大学的研究人员试图通过 Wheeled Lab 来弥合的差距。

图 1: Wheeled Lab 将流行的低成本开源轮式平台与研究支持的机器人生态系统 Isaac Lab 连接起来。

如上图所示，Wheeled Lab 是一个弥合这一鸿沟的生态系统。它将流行的、低成本的开源轮式机器人 (如 F1Tenth 或 MuSHR 赛车) 与 Isaac Lab 连接起来。Isaac Lab 是一个由 NVIDIA 驱动的尖端仿真框架。其目标是什么？是为了让现代机器人技术普及化，让任何拥有几百美元硬件的人都能进行以前只有顶级实验室才能进行的强化学习 (RL) 和 Sim2Real 实验。

在这篇文章中，我们将拆解 Wheeled Lab 的工作原理，探索使其易于使用的模块化架构，并深入研究三个具体案例——漂移、高程穿越和视觉导航——以证明低成本机器人也能学习复杂的行为。

背景: 机器人领域的“获取差距”

要理解 Wheeled Lab 的重要性，我们需要先看看当前的教育机器人领域。

近年来，“科学界”已经转向大规模并行化——即同时模拟数千个机器人，通过强化学习 (RL) 来训练神经网络。他们使用复杂的物理引擎来处理复杂的地形和传感器噪声。

相比之下，“更广泛的群体” (教室、爱好者) 所依赖的生态系统则受到很大限制。

表 1: 现有生态系统在功能上的比较。注意旧框架中缺乏传感器仿真和并行化。

如 表 1 所示，现有的低成本生态系统往往缺乏关键功能:

传感器仿真: 大多数不支持逼真的高程图或深度相机。
物理引擎: 许多依赖简单的运动学模型，不考虑复杂的动力学 (如漂移时的摩擦力) 。
并行化: 它们通常一次只能模拟一个机器人，这使得 RL 训练极其缓慢。

Wheeled Lab 通过利用 Isaac Lab 解决了这个问题，Isaac Lab 支持高保真物理、大规模并行化和域随机化——这些都是实现稳健 Sim2Real 迁移的关键技术。

核心方法: 模块化的“拼图”架构

研究人员并没有只是简单地在机器人和模拟器之间搭个桥；他们设计了一个结构化的框架，以确保可复现性和易用性。他们将训练过程概念化为一个由三个主要模块化组件组成的拼图: Run (运行) 、Agent (智能体) 和 Environment (环境) 。

图 2: 模块化训练框架被想象成拼图的组装。组件包括 Run、Agent 和 Environment。

1. 环境 (The Environment)

这是定义物理现实的地方。它包括:

Observation (观测) : 机器人“看到”什么 (速度、位置、相机图像) 。
Reward (奖励) : 告诉机器人它是否做得很好的函数 (例如，速度快 +1，撞车 -10) 。
Scene (场景) : 物理布局 (墙壁、坡道、地板纹理) 。

2. 智能体 (The Agent)

这代表了机器人的大脑。Wheeled Lab 支持 RSL (Robotic Systems Lab) 和 Stable Baselines 3 (SB3) 等库，允许用户实施标准的 RL 算法，如近端策略优化 (PPO)。

3. 运行 (The Run)

这处理实验的后勤工作，包括将数据记录到 Weights & Biases (W&B) 等工具中，以跟踪随时间变化的训练进度。

通过标准化这些“拼图块”，Wheeled Lab 允许学生在不重写整个代码库的情况下更换奖励函数或车辆模型。这种模块化对于教育至关重要，因为学生可能共享一批机器人，但致力于不同的算法问题。

图 3: 机器人课程中学生之间共享的几个自主平台。

深入探究: 通过三项任务验证概念

为了证明这种低成本技术栈确实可以处理最先进的任务，作者实施了三种不同的策略: 漂移、高程穿越和视觉导航 。每项任务都针对现代机器人技术中的一个特定挑战。

挑战 1: 受控漂移 (\(\pi_{drift}\))

问题: 漂移是一种动力学不稳定的机动动作。它涉及故意失去抓地力，并平衡转向与油门以滑过弯道。它对摩擦力、重量分布和电机响应极其敏感。传统上，这需要昂贵的硬件和精确的系统辨识。

解决方案: 研究人员使用了带有 域随机化 (Domain Randomization) 的 RL。他们没有试图测量地板的确切摩擦力或电机的精确扭矩，而是在数千个具有不同摩擦力和电机参数的环境中训练机器人。

图 4: 在过弯漂移中产生了一种控制策略。可视化显示了智能体如何切断油门以启动漂移，然后反向转向。

工作原理: 观察 图 4 , 我们可以看到策略 (\(\pi_{drift}\)) 发现了一种独特的控制策略:

启动: 汽车切断油门 (蓝线下降) 以使后轮不稳定。
转向: 它急剧向内转向以将车尾甩出。
维持: 它再次加大油门，同时反向转向以维持滑动。

整个过程发生在短短一秒多一点的时间内。这是首次在如此低成本的硬件上展示零样本漂移策略 (无需额外微调即可从模拟迁移到现实) 。

与基线对比: 作者将其与没有使用这些现代随机化技术训练的标准基线 (\(\bar{\pi}_{drift}\)) 进行了比较。

图 5: 基线漂移策略捕捉到的轨迹。基线发生了碰撞或打滑失控。

如 图 5 所示，基线完全失败了。它要么撞车，要么失控打滑，因为它无法处理完美的模拟与混乱的现实世界之间的差距。

挑战 2: 高程穿越 (\(\pi_{elev}\))

问题: 大多数低成本机器人假设世界是平坦的。当面对坡道或不平坦的地形时，它们经常被卡住或翻倒。导航 3D 地形需要 空间推理——理解坡道是可通行的，而墙壁则不是，即使它们在 2D 激光雷达看来都像障碍物。

解决方案: 研究人员为智能体配备了局部高程图 (显示高度的 2.5m x 2.5m 网格) 。

图 8: 高程策略行为比较。上图: 现代策略爬上坡道。下图: 基线完全避开了坡道。

结果: 在 图 6 (由于图片组顺序在图库中标记为图 8，但此处指高程比较) 中，我们可以看到明显的差异:

基线 (\(\bar{\pi}_{elev}\)): 显示为紫色/白色路径。它将坡道视为墙壁并绕过它。如果被迫上坡，它通常会掉下来。
Wheeled Lab 策略 (\(\pi_{elev}\)): 显示为黄色/蓝色路径。它成功地识别出坡道是一条有效路径，并越过它到达目标。

这证明了低成本机器人可以被训练来理解 3D 几何结构，前提是在训练期间具备仿真能力 (如高度图和悬挂动力学) 。

挑战 3: 视觉导航 (\(\pi_{vis}\))

问题: 使用相机比使用激光雷达便宜，但处理视觉数据很难。图像是高维的，而且对于视觉而言，“Sim2Real 差距”是巨大的——游戏引擎中的光照、纹理和阴影与现实世界截然不同。

解决方案: 团队结合使用了 程序化生成 和 图像增强 。

他们创建了一个训练流程，生成随机的“漫步者”路径，将其转换为可通行的黑白地图。

图 8: 随机生成的环境示例，用于训练视觉策略。

通过在成千上万个此类随机模式( 图 8 )上训练机器人，并应用高斯模糊和颜色抖动 (随机改变亮度/对比度) 等增强技术，他们迫使神经网络专注于路径的结构，而不是特定的光照条件。

图 7: 真实实验中捕捉到的视觉策略轨迹。

结果: 如 图 7 所示，机器人仅使用摄像头就成功导航了现实世界中的“8 字形”轨道。

有趣的是，实验揭示了一个关于神经网络架构的反直觉发现。

表 3: 比较 MLP 和 CNN 架构的视觉策略结果。

如 表 3 所示，较简单的 MLP (多层感知机) 架构在现实世界泛化方面实际上优于更复杂的 CNN (卷积神经网络) 。 CNN 往往会过度拟合模拟中的视觉怪癖，导致在现实世界中驾驶“不稳定”，而 MLP (结合强大的图像增强) 则学到了更稳健的驾驶策略。

实验设置与基础设施

为了实现这些结果，仿真的规模至关重要。与 Isaac Lab 集成的主要优势之一是能够运行大规模并行训练。

表 2: 训练设置显示了基线方法与现代方法在规模上的差异。

表 2 突出了规模上的差异:

漂移策略 (\(\pi_{drift}\)) 同时在 1,024 个环境中进行训练。
它利用了 域随机化 (DR) 和 扰动 (Perturbation) (在模拟中随机推搡机器人) 。
基线仅使用了 64 个环境，且缺乏这些稳健性功能。

这种大规模并行化允许智能体在旧模拟器所需时间的一小部分内经历数百万次交互步骤，从而产生能够应对现实世界混乱情况的稳健策略。

结论与启示

“Wheeled Lab” 论文不仅仅是会漂移的遥控车的技术演示。它代表了机器人教育和研究方式的转变。

通过将低成本硬件 (约 300 至 3000 美元) 与高端开源仿真工具连接起来，作者消除了现代 Sim2Real 研究的经济门槛。

关键要点:

可访问性: 你不需要一台 5 万美元的机器人来学习现代 RL。
模块化: 结构化的软件栈有助于标准化实验并使学习更容易。
Sim2Real 适用于廉价机器人: 通过域随机化和并行化，即使是不完美的低成本硬件也可以执行复杂的敏捷机动，如漂移和 3D 穿越。

这项工作为未来铺平了道路，让学生们可以超越基本的循迹，开始在教室的课桌上推动自主系统能力的边界。

引言#

背景: 机器人领域的“获取差距”#

核心方法: 模块化的“拼图”架构#

1. 环境 (The Environment)#

2. 智能体 (The Agent)#

3. 运行 (The Run)#

深入探究: 通过三项任务验证概念#

挑战 1: 受控漂移 (\(\pi_{drift}\))#

挑战 2: 高程穿越 (\(\pi_{elev}\))#

挑战 3: 视觉导航 (\(\pi_{vis}\))#

实验设置与基础设施#

结论与启示#

引言