引言

想象一下,你刚拆箱一个新的机器人,打开电源,告诉它“去厨房”。得益于基础模型 (Foundation Models) 和视觉语言模型 (VLMs) 的最新进展,这正在成为现实。机器人现在可以理解高级指令,并在它们从未见过的环境中导航。

然而,这里有个问题。虽然这些现代 AI 模型非常擅长根据视觉上下文理解“去哪里”,但它们往往缺乏对物理几何结构的精确理解。它们可能会识别出通往厨房的路径,但却没注意到走廊里放着的一个小纸箱,或者是桌子底下伸出来的椅子腿。结果呢?碰撞。

传统上,解决这个问题需要昂贵的传感器 (如激光雷达 LiDAR) 或在包含各种障碍物类型的海量数据集上重新训练神经网络。但是,如果我们可以在不重新训练模型且不增加新硬件的情况下,让这些“失明”的导航模型变得更安全呢?

在这篇文章中,我们将深入探讨 CARE (Collision Avoidance via Repulsive Estimation,基于斥力估计的避障) , 这是一篇在 CoRL 2025 上发表的新颖研究论文。CARE 是一个即插即用的模块,作为现有视觉导航模型的安全层。通过结合单目深度估计和受物理学启发的斥力方法,CARE 允许机器人实时避开障碍物——即使是它们从未见过的物体——从而显著减少分布外 (Out-of-Distribution) 环境中的碰撞。

分布外 (OOD) 障碍物设置下的轨迹输出比较。

问题所在: 强大的泛化能力,贫乏的安全性

要理解为什么 CARE 是必要的,我们需要先看看当前视觉导航的现状。像 ViNT (Visual Navigation Transformer)NoMaD 这样的模型是机器人领域的“基础模型”。它们从普通摄像头获取 RGB 图像,并输出机器人跟随的路径点或轨迹。

这些模型在多样化的数据集上进行训练,使其具有很好的泛化能力。它们可以在人行道、办公室或家庭中导航,而无需地图。然而,它们主要依赖基于外观的推理 。 它们学习到“地板看起来可通行”和“墙壁看起来是实心的”。

当这些模型面对分布外 (OOD) 场景——即看起来与训练数据不同的环境时,局限性就出现了。这可能是:

  1. 未见过的物体: 一个随机的盒子、一堆衣物或奇怪的家具。
  2. 不同的相机设置: 改变视场角 (FOV) 或机器人上相机的高度。

如上文 图 1 所示,标准模型 (图 c) 经常生成会擦碰或穿过障碍物的轨迹,因为它们没有明确计算“那个物体有多远?”它们只是根据视觉模式预测路径。当视觉模式不熟悉时,机器人就会撞车。

解决方案: CARE 框架

研究人员提出 CARE 作为一个“可附加”模块。它位于导航模型和机器人的电机控制器之间。它并不取代那个知道如何到达目的地的高级 AI;相反,它充当一个反射系统,轻推机器人远离直接的危险。

CARE 的美妙之处在于其简单性和兼容性。它需要:

  • 无新传感器: 它使用与导航模型相同的 RGB 相机。
  • 无需微调: 不需要重新训练庞大的基础模型。
  • 无繁重计算: 它与导航策略并行实时运行。

工作原理

CARE 框架在一个三阶段的流程中运行: 俯视距离估计斥力估计安全增强轨迹调整

CARE 系统架构概览。

图 2 所示,系统获取 RGB 图像并将其输入两个并行流。一个流是原始的基于视觉的模型 (如 ViNT) ,它说: “我想去那里。”另一个流是 CARE 模块,它说: “等等,路上有东西,我们调整一下。”

让我们分解一下这个流程的数学和逻辑步骤。

第一阶段: 从单张图像中感知几何结构

由于系统依赖于标准相机,它缺乏 LiDAR 或深度相机提供的直接距离测量。为了解决这个问题,CARE 使用了一个预训练的单目深度估计模型 (具体来说是 UniDepthV2) 。这个 AI 模型观察平面的 2D 图像并预测稠密的深度图,估计每个像素有多远。

一旦生成了深度图,CARE 将这些数据投影为 3D 点云,然后将其扁平化为俯视局部地图

估计深度的俯视投影。

图 3a 中,你可以看到这种转换。左图是机器人看到的 (一个有椅子的房间) 。右图是 CARE 生成的俯视图。黑色圆圈是机器人,彩色点代表从深度图中检测到的障碍物。

为了过滤掉噪音 (如天花板或远处的墙壁) ,系统将 x 轴 (宽度) 离散化为若干个区间 (bins) ,并选择每个区间中最近的点 (\(z^*\)) :

寻找最近障碍点的公式。

这产生了一组相对于机器人位置的干净障碍物坐标 \(\mathcal{O}\)。

第二阶段: 斥力物理学

现在机器人知道障碍物在哪里了,它如何避开它们呢?CARE 借用了经典机器人学中的一个概念,称为人工势场法 (APF)

想象一下,机器人的目标是一块磁铁,将其向前拉 (引力) ,而每个障碍物都是一块磁铁,将其推开 (斥力) 。

CARE 查看导航模型提出的轨迹 (\(\mathbf{p}_k\)) ,并计算每个检测到的障碍物 (\(\mathbf{o}_m\)) 施加的斥力。该公式依赖于平方反比定律——障碍物越近,它将机器人推开的力度就呈指数级增强。

斥力计算公式。

系统识别规划路径上哪一点受到的斥力最强——本质上是寻找轨迹中“最危险”的部分:

寻找具有最大斥力的路径点的公式。

根据该力的方向,CARE 计算出一个调整角度 \(\theta_{rep}\)。

第三阶段: 轨迹调整与 Safe-FOV

CARE 不是丢弃原始路径,而是旋转它。它将旋转角度 \(\theta_{rep}\) (被限制在最大安全范围内) 应用于整个轨迹。这有效地引导机器人绕过障碍物,同时试图保持原始目标的大致方向。

上面的图片面板中的 图 3b 优雅地展示了这一点。 黄色路径是原本直奔碰撞的轨迹。矢量显示了来自障碍物的斥力。 紫色路径是结果: 一条绕过危险的安全曲线。

“安全视野 (Safe-FOV)” 机制

基于摄像头的导航的一个主要风险是视场角 (FOV) 。 如果机器人为了避开一个盒子而急转弯,它可能会盲目地撞上一面之前在相机画面之外的墙。

为了防止这种情况,CARE 实施了 Safe-FOV 规则。它检查所需的航向变化 (\(\theta_{des}\)) 。

Safe-FOV 运动控制公式。

  • 如果转弯很急 (\(|\theta_{des}| > \theta_{thres}\)) : 机器人停止前进 (\(v=0\)) ,只原地旋转。这使得相机可以扫视到新区域,在机器人进入之前揭示任何隐藏的障碍物。
  • 如果转弯平缓: 机器人同时前进和转弯 (标准转向) 。

实验验证

研究人员不仅在模拟中进行了测试;他们还将 CARE 部署在三个具有不同高度、相机角度和轴距的真实机器人平台上: LoCoBotTurtleBot4RoboMaster S1

用于评估的移动机器人平台。

他们进行了两种主要类型的实验: 无定向探索图像目标条件导航

实验 1: 无定向探索

在这个测试中,机器人被放置在一个充满随机盒子 (未见过的障碍物) 的受限空间 (\(3.5m \times 2.8m\)) 中。目标只是尽可能多地四处游荡而不撞车。

探索和导航任务示意图。

结果非常显著。没有 CARE 时,基线模型 (NoMaD) 几乎立即频繁地撞上盒子。有了 CARE,机器人安全导航的距离显著增加。

比较碰撞前行驶距离的图表。

图 5 和下方的 表 1 所示,配备 CARE 的 LoCoBot 在发生碰撞前平均行驶了超过 21 米 , 而没有配备时仅为 2 米 。 这是 10.7 倍的提升

碰撞前平均行驶距离表。

性能因机器人而异——TurtleBot4 的提升幅度小于 LoCoBot。作者将其归因于相机设置。LoCoBot 有一个广角鱼眼镜头,使 CARE 甚至能看到周边的障碍物。TurtleBot4 的视野较窄,这意味着障碍物可能会滑出画面,在转弯时导致碰撞。

实验 2: 到达目标

第二个实验更有结构性。机器人必须使用拓扑图 (一系列图像地标) 沿着 24 米长的走廊到达目的地。研究人员在走廊里堆放了地图上没有的随机障碍物。

测试环境走廊的照片。

指标集中在特定的权衡上: 安全是否会让机器人变慢?是否会让路径变长?

比较导航性能指标的表格。

表 2 揭示了关键结论:

  1. 安全第一: CARE 显著减少了碰撞次数。对于 LoCoBot,它在所有测试中实现了 0 碰撞
  2. 到达率: 成功率 (到达目标) 飙升。对于运行 ViNT 模型的 TurtleBot4,到达率从 70% 提高到了 100%
  3. 效率成本: 路径长度和完成时间略有增加 (大约增加 4-20%) 。这是预期的行为——绕过盒子显然比撞上去路程要长。

处理动态障碍物

也许最令人印象深刻的测试涉及动态障碍物——具体来说,就是有人跳到机器人面前。标准模型通常在这里会失败,因为它们无法对几何形状的突然变化做出足够快的反应。

显示动态障碍物碰撞率的表格。

表 3 显示了这种“压力测试”的结果。

  • Corner-appear (角落出现) : 一个人从角落跳出来。
  • Front-approach (正面接近) : 一个人径直走向机器人。

在几乎所有的基线试验 (NoMaD/ViNT) 中,机器人都会撞上人。 有了 CARE,碰撞率降至 0/10。 斥力估计会对人的腿引起的深度变化做出即时反应,而 Safe-FOV 机制迫使机器人立即停止或转弯。

结论与启示

CARE 论文强调了当前机器人“基础模型”时代的一个关键差距: 泛化并不等于安全。虽然大型模型可以理解上下文,但它们往往在新环境中难以进行精确的空间感知

CARE 提供了一个引人注目的解决方案,因为它弥合了高级学习和低级反应控制之间的差距。

  1. 易于获取: 你不需要价值 10,000 美元的 LiDAR 传感器。
  2. 可迁移: 同一模块在三种不同的机器人上均有效。
  3. 有效: 在特定任务中减少高达 100% 的碰撞。

通过整合显式深度估计和基于物理的斥力,CARE 赋予了视觉导航模型在现实世界中生存所需的“反射神经”。对于机器人学领域的学生和研究人员来说,这强调了混合系统的重要性——结合深度学习与经典机器人学原理——以创造不仅聪明,而且安全的机器。