想象一下,你正徒步穿越一片茂密、陌生的森林。你的目标是几公里外的营地。你并没有一张详细标注了你与目的地之间每一棵树和每一块岩石的地形图。相反,你望向远方。你看到左边的林木线有一个缺口,右边是陡峭的悬崖,正前方则是茂密的灌木丛。尽管营地在技术上位于正前方,但你本能地朝向左边的空地走去。

你正在利用长距离视觉可供性 (long-range visual affordances) ——即告诉你哪里可以通行的视觉线索——来做出战略决策。

然而,大多数自主机器人的徒步方式就像是盯着自己的脚尖走路。它们构建高度详细的“局部度量地图” (local metric maps,通常是安全与障碍物网格) ,覆盖范围很小 (例如 20 到 50 米) 。在这个半径之外是“战争迷雾”——未知的空间。当机器人需要前往 1 公里外的目标时,标准算法通常会假设未知空间是空的,并规划一条直线。这导致了短视 (myopic) 行为: 机器人径直走进死胡同或茂密的森林,直到走得足够近并建立地图后才意识到这是一条死路。

在论文 “Long Range Navigator (LRN): Extending robot planning horizons beyond metric maps” 中,来自华盛顿大学、Google DeepMind 和 Overland AI 的研究人员提出了一种解决方案。他们介绍了一种系统,允许机器人利用视觉直觉“看到”局部地图之外的地方,识别有希望的方向,从而有效扩展其规划视野,且无需承担构建巨大地图的计算成本。

LRN 概览。左侧展示了寻找可通行航向的系统架构。右侧对比了局部感知 (有限范围) 与 LRN 选择蓝色“可通行”路径而非绿色“默认”路径的能力。

问题所在: 未知的迷雾

越野导航的核心限制在于地图分辨率与范围之间的权衡。创建高保真的度量代价地图 (metric costmap) 需要深度数据 (来自激光雷达或双目相机) ,而这些数据随着距离增加会迅速退化。

标准导航技术栈通常按以下方式运行:

  1. 感知: 传感器构建局部代价地图 (例如 16m x 16m) 。
  2. 规划: 像 A* 这样的算法规划一条到达该地图边缘的路径。
  3. 启发式: 对于地图之外的空间,机器人分配一个固定代价。通常,这会导致机器人试图沿直线朝 GPS 目标移动。

这种方法在“昆虫陷阱 (bug trap) ”场景中会失效。如果有一堵长墙或一片茂密的森林阻挡了直接路径,机器人会径直开到它面前,然后浪费宝贵的时间倒车或被卡住。

研究人员的关键洞察是: 我们不需要远处世界的完整地图。 为了有效导航,机器人只需要识别可通行的前沿 (affordable frontiers) 。 前沿是已知空间与未知空间之间的边界。可通行的前沿是指看起来可以通行并预示着通往目标路径的方向。

解决方案: Long Range Navigator (LRN)

LRN 充当机器人局部规划器的高层向导。它不替代处理即时避障的局部导航技术栈,而是分析相机图像以建议一个既可通行又与目标方向一致的航向 (heading)

该系统设计为双层架构:

  1. 可供性主干网络 (Affordance Backbone) : 一个视觉模型,从 RGB 图像预测可通行区域的“热力图”。
  2. 目标条件头 (Goal Conditioned Head) : 一个选择机制,将视觉可供性与到达特定 GPS 目标的意图相结合。

系统架构。图像经由 SAM2 编码器和卷积神经网络 (ConvNet) 处理以创建热力图。这些热力图被投影为航向评分,并与目标及先验分布相结合,从而选出最佳路径。

1. 可供性主干网络

LRN 的核心在于它能够查看 2D 图像并预测场景的哪些部分是可导航的。研究人员使用 SAM2 (Segment Anything Model 2) 作为图像编码器。SAM2 是一个“基础模型”,意味着它已经在这个海量数据上受过训练,能够理解视觉特征。

该编码器输入到一个小型卷积网络,输出可供性热力图 (Affordance Heatmap) 。 在这个热力图中,“热” (黄/红) 区域代表开阔路径或清晰的地形,而“冷” (蓝) 区域代表树木或墙壁等障碍物。

训练的挑战: 你如何教神经网络什么样是“可通行”的?手动标注成千上万张图像既乏味又难以扩展。

作者设计了一种巧妙的自监督方法,利用无标签的第一人称视角视频。他们收集了人类在各种环境中行走的视频。逻辑很简单: 如果有人类走到那里,那里就是可通行的。

为了自动生成标签,他们使用了一个名为 CoTracker 的视频点跟踪器。

  1. 他们截取一段视频剪辑。
  2. 他们跟踪从剪辑开始到结束的点。
  3. 相机最终经过的区域被标记为“热点” (分数为 1) 。
  4. 通往那里的路径也是可通行的。
  5. 其他一切在损失函数中被视为未知或不可通行。

自动数据标注。4a 显示了人类的轨迹。4b 显示了生成的轨迹热点标签: 路径的终点为黄色 (高分) ,将其标识为一个有效的长距离目标。

这使得系统能够从海量视频数据中学习,而无需人类绘制任何边界框。

2. 目标条件头

热力图告诉机器人它可以去哪里,但没告诉它它应该去哪里。机器人仍然需要到达特定的 GPS 坐标。

LRN 的公式定义了给定起点 \(s\) 和目标 \(g\) 的前沿 \(f\) 的价值:

价值函数公式,将价值分解为可供性和到目标的距离。

这里,\(A(s,f)\) 是可供性评分 (来自视觉模型) ,而 \(D(f,g_t)\) 是从该前沿到达目标的估计代价。

为了实现这一点,系统执行以下步骤:

  1. 投影: 将 2D 热力图投影为 1D 角度“分桶”数组 (例如,机器人周围方向的直方图) 。
  2. 目标加权: 该数组乘以一个以目标方向为中心的高斯分布。这会惩罚那些虽然可通行但方向完全错误的路径 (比如走回头路) 。
  3. 一致性: 为了防止机器人在两个选项之间来回抖动,它还会乘以一个以上一次选择的航向为中心的高斯分布。这起到了稳定器的作用。

这些因素的数学组合既优雅又简单:

向量乘法公式。最终向量 v 是过滤后的可供性、目标分布和先验分布的乘积。

机器人选择向量 \(\mathbf{v}\) 中值最大的航向,并将其作为临时航路点传递给局部规划器。

实验设置

研究人员在两个截然不同的机器人平台上,于具有挑战性的户外环境中测试了 LRN:

  1. Boston Dynamics Spot: 一种灵活的四足机器人。
  2. Racer Heavy: 一种 12 吨重的履带车辆。

他们将 LRN 与几个基线进行了比较:

  • 目标启发式 (Goal Heuristic) : 标准方法——在局部地图之外规划直线朝向目标。
  • NoMaD: 一种最先进的视觉导航策略。
  • 可通行性 + 深度 (Traversability + Depth) : 将标准可通行性分类器与单目深度估计器 (Depth Anything V2) 相结合的基线。

测试是在三个设有特定陷阱的路线上进行的,例如阻挡通往目标视线的大片灌木墙或建筑物。

结果: 看见少有人走的路

结果表明,LRN 通过做出“不那么短视”的决策,显著优于标准启发式算法。

定性表现

下面的 GPS 轨迹图清晰地讲述了这个故事。请看“垃圾场 (Dump) ”和“停机坪 (Helipad) ”场景。红线 (目标启发式) 试图直行,撞上障碍物 (标记为 X 的干预点) ,然后卡住。蓝线 (LRN) 很早就转弯了。在“垃圾场”路线中,LRN 意识到直接路径被墙挡住了,并在局部规划器看到墙之前就绕过了它。

不同运行的 GPS 轨迹。LRN (蓝色) 提早避开了障碍物,而目标启发式算法 (红色) 则驶入了陷阱,需要人工干预。

机器人实时生成的热力图显示,它成功识别了树木间的空隙和开阔的人行道。

热力图示例。左上: Racer Heavy 识别树木间的空隙。右下: Spot 识别公园中的路径。红色表示高置信度。

定量指标

在 Spot 实验中,LRN 实现了最低的“总距离次优性” (这意味着相对于人类专家,它走了最高效的路径) ,而且至关重要的是,在所有试验中需要零次人工干预 。 目标启发式和其他基线经常需要在机器人卡住时由操作员接管。

性能对比柱状图。与基线相比,LRN 表现出零干预,且在时间/距离次优性上通常更低。

Racer Heavy 演示

在 12 吨重的 Racer Heavy 上的实验尤其令人印象深刻。在 660 米的路线上,标准导航技术栈径直驶入茂密的林木线并被卡住。而在同一平台上运行的 LRN 远距离识别出茂密森林为“低可供性”,并规划了一条绕过山丘的路径,自主完成了运行。

Racer Heavy 演示。地图显示 LRN 绕过茂密的森林区域,而基线算法则被困在树林中。

为什么“更好”的可供性很重要

研究人员提出了一个有趣的问题: 热力图的质量实际上会改变导航结果吗?

他们通过改变“热力图阈值”来测试这一点——本质上是让机器人对什么算作“可通行”更加挑剔或更加宽容。

展示热力图阈值与效率之间相关性的图表。中间阈值 (0.7) 产生了最高效的路径。

数据显示了一个“最佳区域”。如果阈值太低 (一切都是可通行的) ,机器人表现得像基线算法一样并撞上墙壁。如果阈值太高 (没有什么不仅是可通行的) ,机器人会冻结或徘徊。最佳阈值允许机器人在过滤掉困难地形的同时仍能找到有效路径,证明了中间视觉表示的质量直接影响物理导航性能。

结论与未来影响

Long Range Navigator 论文提出了一个令人信服的观点: 机器人不需要绘制整个世界的地图来导航。通过从简单的视频数据中学习中间表示——可供性 , 机器人可以近似获得长距离规划的直觉。

主要收获:

  1. 视觉延伸了范围: 相机比基于激光雷达的地图看得更远。利用它们进行“前沿选择”而不是显式建图,在计算上是高效的。
  2. 自监督行之有效: 我们可以使用无标签的人类行走视频来训练导航系统,这解决了数据瓶颈。
  3. 简单即易扩展: LRN 是一个模块化的附加组件。它位于现有导航技术栈之上,使其适用于从小型四足机器人到大型越野车辆的各种设备。

机器人导航中的“战争迷雾”正在消散,不是因为机器人正在构建更大的地图,而是因为它们正在学习抬头看路,展望前方。