引言

想象一下教机器人穿越拥挤的办公室。过去,这是一个模块化的问题: 一个软件构建地图,另一个在地图上定位机器人,第三个计算路径。如今,具身智能 (Embodied AI) 的前沿技术使用的是“端到端” (E2E) 强化学习。你给机器人输入视觉数据 (像素) ,它输出运动指令 (动作) 。这是一种“黑盒”方法,在仿真中取得了令人印象深刻的成果。

但这有一个陷阱。大多数仿真将机器人的运动处理得像电子游戏角色一样: 精确、即时且无摩擦。如果算法说“停”,智能体就会瞬间停止。然而在现实世界中,物理定律无处不在。真正的机器人有质量;它们会漂移、打滑,并且需要时间来加速或减速。当你把一个在“完美”仿真中训练出来的大脑放入一个混乱的物理躯体中时,它往往会失败——这就是所谓的 Sim2Real (仿真到现实) 差距

我们要讨论的研究论文《Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach》正面试图解决这个问题。研究人员不仅想造一个更好的机器人;他们还想打开这个“黑盒”,了解这些神经网络究竟学到了什么

AI 智能体是简单地死记硬背“如果看到墙,就左转”吗?还是它在不知不觉中成为了物理学家,学习了惯性和动量的内部模型?通过一项涉及真实机器人 262 次导航情节的大规模研究,这篇论文揭示了这些智能体正在做着极其复杂的事情: 它们正在学习预测未来并利用感知进行修正,就像经典的控制系统一样,但这完全是从零开始学到的。

图 1 展示了核心概念: 机器人利用开环动力学预测和观测校正来估计其位置。

背景: 视觉导航的演变

要理解这篇论文的发现,我们需要了解机器人导航领域的两大流派。

1. 经典机器人学方法: 传统上,导航被视为一个几何问题。机器人使用传感器 (LiDAR 或摄像头) 构建地图 (SLAM) ,在地图中定位自己,然后使用路径规划算法 (如 A*) 寻找路线。最后,一个低级控制器 (如 PID 控制器) 尝试执行该路径。这种方法稳健,但需要大量的工程设计,且往往难以对场景进行语义“理解”。

2. 具身智能方法 (RL) : 在这里,智能体通过强化学习 (RL) 进行训练。它在环境中探索数百万次,通过到达目标获得“奖励”。智能体学习一个策略 (Policy) ——即一个将观测直接映射到动作的函数。

缺失的一环: 动力学

历史上,RL 智能体是在运动抽象的仿真器中训练的——通常只是每步将智能体向前瞬移 25 厘米。因此,当部署在真正的机器人上时,这些智能体表现得缓慢且顿挫,因为它们必须在每步之间完全停止以重新调整。

最近的进展已将 动力学模型 集成到仿真器中。仿真器不再是瞬移,而是计算摩擦力、加速度和响应时间。研究人员建立在之前的工作 (Bono 等人) 基础上,该工作表明,利用这些逼真的物理特性进行训练是实现 Sim2Real 迁移的关键。

图 2 展示了架构改进。通过加入逼真的动力学、更好的嵌入和测试时增强,现实世界中的成功率显著提升。

图 2 所示,仅通过改进工程设计 (训练更长时间、使用更好的数据增强以及结合逼真的动力学) ,研究人员在现实世界测试中就达到了 92.5% 的成功率,这比以前的方法有了巨大的飞跃。但性能并不是这里的主要故事——分析才是。

核心方法: 剖析智能体

研究人员着手探测训练后智能体的内部状态。他们想知道智能体是否有效地学习了一个 动力系统 (Dynamical System)

在控制理论中,动力系统通常使用称为 预测-校正 (类似于卡尔曼滤波) 的过程:

  1. 预测 (开环) : 基于当前速度和动作,使用内部物理模型猜测下一步会在哪里。
  2. 校正 (闭环) : 使用传感器 (眼睛/摄像头) 查看实际位置并修正猜测中的误差。

假设是,一个端到端的 RL 智能体,在被迫处理动量和漂移时,会在其神经网络层内自然地重新发明这个过程。

架构

智能体使用循环神经网络 (特别是 GRU - 门控循环单元) 。它在每个时间步 \(t\) 接收多个输入:

  • 视觉 (\(I_t\)) : 由 ResNet 处理的 RGB 图像。
  • 深度 (\(S_t\)) : 由 1D-CNN 处理的类激光雷达测距数据。
  • 目标 (\(g_0\)) : 它需要去的地方。
  • 里程计 (\(\hat{p}_t\)) : 机器人从轮式编码器估计的位置。

控制智能体“记忆”或隐状态 (\(h_t\)) 的核心方程为:

智能体隐状态的更新方程。

研究人员创建了两个版本的智能体进行比较:

  1. D28-instant: 在具有“魔法”即时移动 (无惯性) 的仿真中训练。
  2. D28-dynamics: 在具有逼真物理特性 (惯性、加速度、阻力) 的仿真中训练。

“信念距离”指标

为了证明智能体学习了物理,研究人员需要测试它对环境变化的敏感程度。如果机器人进入一个地板很滑的房间 (改变摩擦力/阻尼) ,它会撞车吗?

比较这些变化很难。你如何比较 10% 的摩擦力变化和 10% 的传感器噪声增加?他们引入了一个名为 信念距离 (Distance to Belief, \(D_{belief}\)) 的新指标。

图 13 解释了信念距离的概念。它比较了在相同动作下,训练环境与受干扰环境中的轨迹。

图 13 所示,\(D_{belief}\) 测量了在假设机器人采取完全相同动作的情况下,“完美”训练世界中的轨迹与“受干扰”世界 (例如阻力更大的世界) 中的轨迹之间的物理差异。这使得研究人员能够归一化不同类型的干扰。

通过绘制智能体成功率与该 \(D_{belief}\) 的关系图,他们可以看出哪些智能体是鲁棒的,哪些是脆弱的。

图 4 比较了敏感度。使用动力学训练的智能体 (左) 对物理变化具有鲁棒性,但对里程计敏感。未受动力学训练的智能体 (右) 很容易失败。

图 4 揭示了一个关键见解:

  • 左图 (D28-dynamics) : 即使物理属性发生变化,阻尼 (蓝色) 和响应时间 (橙色) 的曲线仍保持高位。这意味着智能体已经“学会”了广义物理学并能适应。然而,紫色线下降很快——意味着它非常依赖其 里程计 (预测) 来导航。
  • 右图 (D28-instant) : 未经物理训练的智能体很快就崩溃了。它过拟合了仿真中的“瞬移”运动。

实验与结果

团队进行了广泛的探测,以查看智能体的隐记忆向量 (\(h_t\)) 中存储了什么信息。

1. 智能体能预测未来吗?

如果智能体学习了内部物理模型,即使没有新的视觉输入,它也应该能够预测未来的位置。

研究人员训练了一个“探针” (一个单独的小型神经网络) 来观察智能体在时间 \(t\) 的冻结记忆状态,并尝试猜测机器人在时间 \(t+20\) 的位置。

图 7 展示了探测结果。橙色和绿色线表明智能体的内部状态可以有效地预测未来位置 (红点) 。

图 7 的结果令人震惊。红点 (仅基于智能体记忆的预测) 紧密跟随黑线 (实际的未来轨迹) 。这证实了 智能体有效地构想出了一条短期未来路径 , 证明它学会了一个潜在的动力学模型。

2. 智能体会构建房间地图吗?

并没有人给智能体提供地图。但它会在脑海中构建一个吗?研究人员再次使用探针,看看是否可以从隐向量重建占据栅格地图 (墙壁和自由空间的俯视图) 。

图 9 展示了占据探测。智能体的记忆可以被解码以重建房间布局 (右下) ,准确度惊人。

图 9 显示智能体的记忆隐含地存储了房间的几何结构。重建的地图 (底行) 与现实非常吻合,甚至捕捉到了对导航至关重要的门口等细节。

3. 智能体会“规划”吗?

规划意味着向前看,权衡选项,并做出选择。为了测试这一点,研究人员分析了 RL 智能体的 价值函数 (即 Critic) 。在强化学习中,“价值”是智能体对未来能获得多少奖励的估计。

如果智能体正在“规划”,当它意识到路径被阻挡时,我们应该看到价值下降,而当它找到新方案时,价值应该飙升。

图 8 可视化了一次困难情节中的价值估计。蓝线追踪了智能体随时间变化的“信心”或预期奖励。

图 8 讲述了一个单次情节的精彩故事:

  1. 点 3: 机器人尝试一条路径,但被堵住了。价值 (蓝线) 下降。
  2. 点 4: 它试图向北走。被玻璃挡住。价值进一步下降 (变为负值!) 。
  3. 点 5: 机器人“决定”放弃这条路线,尝试完全不同的门。价值立即飙升。它还没有到达目标,但它预期会成功。

这种行为表明智能体不仅仅是对眼前的像素做出反应;它正在维持一个高层规划,并基于几何推理更新其信心。

4. 局限性: 隧道视野

尽管有这些能力,智能体并不是完美的规划者。研究发现了“隧道视野”的证据。由于智能体依赖其内部记忆和视觉输入,它有时会致力于一条人类 (或全局地图规划器) 能立即识别为死胡同的路径。

图 15 展示了隧道视野。尽管视觉证据表明不可通行,智能体仍试图强行通过受阻路径 (红线) 。

图 15 所示,智能体有时在长距离几何推理方面表现挣扎,试图穿越明显无法通行的障碍物,凸显了其在“常识”推理方面的局限性。

鲁棒性与适应性

这篇论文最酷的补充之一是使用了 快速运动适应 (RMA) 。 由于研究人员发现物理变化 (如更重的机器人或湿滑的地板) 会影响性能,他们试图让智能体具有适应性。

他们训练了一个版本的智能体,能够实时估计环境参数并调整其策略。

图 6 展示了鲁棒性。当环境参数发生变化时,RMA 智能体 (蓝柱) 的表现明显优于基线 (红柱) 。

图 6 显示,当环境受干扰 (例如,阻尼或响应时间增加) 时,标准智能体 (红色) 会失败。适应性智能体 (蓝色) 几乎恢复了所有损失的性能,证明这些黑盒智能体可以通过训练来动态适应物理世界。

结论与启示

这篇论文全面深入地探究了端到端导航智能体的“底层机制”。对学生和机器人专家而言,关键要点如下:

  1. 物理很重要: 你无法在一个忽略惯性和动量的仿真中训练出稳健的现实世界机器人。
  2. 涌现结构: 我们不需要显式地编程卡尔曼滤波器或测绘系统。如果我们用正确的数据和物理特性训练 RNN,这些结构会在网络权重中自然 涌现
  3. 预测-校正: 智能体学会了信任其内部的运动预测,并用视觉数据进行修正,就像经典控制系统一样平衡这两种信息源。
  4. 短期与长期: 虽然智能体是短期动力学和局部测绘的大师,但它仍然难以处理长期几何规划 (隧道视野) 。

这项研究弥合了经典机器人学与现代 AI 之间的差距。它表明,机器人的未来不是在“编程物理”或“学习一切”之间做选择,而是建立学习环境,迫使智能体自行发现物理规律。

通过理解机器人学到了什么,我们可以设计更好的仿真器、更好的架构,最终设计出能像我们一样自然地在世界中移动的机器人。