引言

想象一下，你刚拆箱一个新的机器人，打开电源，告诉它“去厨房”。得益于基础模型 (Foundation Models) 和视觉语言模型 (VLMs) 的最新进展，这正在成为现实。机器人现在可以理解高级指令，并在它们从未见过的环境中导航。

然而，这里有个问题。虽然这些现代 AI 模型非常擅长根据视觉上下文理解“去哪里”，但它们往往缺乏对物理几何结构的精确理解。它们可能会识别出通往厨房的路径，但却没注意到走廊里放着的一个小纸箱，或者是桌子底下伸出来的椅子腿。结果呢？碰撞。

传统上，解决这个问题需要昂贵的传感器 (如激光雷达 LiDAR) 或在包含各种障碍物类型的海量数据集上重新训练神经网络。但是，如果我们可以在不重新训练模型且不增加新硬件的情况下，让这些“失明”的导航模型变得更安全呢？

在这篇文章中，我们将深入探讨 CARE (Collision Avoidance via Repulsive Estimation，基于斥力估计的避障) , 这是一篇在 CoRL 2025 上发表的新颖研究论文。CARE 是一个即插即用的模块，作为现有视觉导航模型的安全层。通过结合单目深度估计和受物理学启发的斥力方法，CARE 允许机器人实时避开障碍物——即使是它们从未见过的物体——从而显著减少分布外 (Out-of-Distribution) 环境中的碰撞。

分布外 (OOD) 障碍物设置下的轨迹输出比较。

问题所在: 强大的泛化能力，贫乏的安全性

要理解为什么 CARE 是必要的，我们需要先看看当前视觉导航的现状。像 ViNT (Visual Navigation Transformer) 和 NoMaD 这样的模型是机器人领域的“基础模型”。它们从普通摄像头获取 RGB 图像，并输出机器人跟随的路径点或轨迹。

这些模型在多样化的数据集上进行训练，使其具有很好的泛化能力。它们可以在人行道、办公室或家庭中导航，而无需地图。然而，它们主要依赖基于外观的推理 。它们学习到“地板看起来可通行”和“墙壁看起来是实心的”。

当这些模型面对分布外 (OOD) 场景——即看起来与训练数据不同的环境时，局限性就出现了。这可能是:

未见过的物体: 一个随机的盒子、一堆衣物或奇怪的家具。
不同的相机设置: 改变视场角 (FOV) 或机器人上相机的高度。

如上文 图 1 所示，标准模型 (图 c) 经常生成会擦碰或穿过障碍物的轨迹，因为它们没有明确计算“那个物体有多远？”它们只是根据视觉模式预测路径。当视觉模式不熟悉时，机器人就会撞车。

解决方案: CARE 框架

研究人员提出 CARE 作为一个“可附加”模块。它位于导航模型和机器人的电机控制器之间。它并不取代那个知道如何到达目的地的高级 AI；相反，它充当一个反射系统，轻推机器人远离直接的危险。

CARE 的美妙之处在于其简单性和兼容性。它需要:

无新传感器: 它使用与导航模型相同的 RGB 相机。
无需微调: 不需要重新训练庞大的基础模型。
无繁重计算: 它与导航策略并行实时运行。

工作原理

CARE 框架在一个三阶段的流程中运行: 俯视距离估计、斥力估计和安全增强轨迹调整 。

CARE 系统架构概览。

如 图 2 所示，系统获取 RGB 图像并将其输入两个并行流。一个流是原始的基于视觉的模型 (如 ViNT) ，它说: “我想去那里。”另一个流是 CARE 模块，它说: “等等，路上有东西，我们调整一下。”

让我们分解一下这个流程的数学和逻辑步骤。

第一阶段: 从单张图像中感知几何结构

由于系统依赖于标准相机，它缺乏 LiDAR 或深度相机提供的直接距离测量。为了解决这个问题，CARE 使用了一个预训练的单目深度估计模型 (具体来说是 UniDepthV2) 。这个 AI 模型观察平面的 2D 图像并预测稠密的深度图，估计每个像素有多远。

一旦生成了深度图，CARE 将这些数据投影为 3D 点云，然后将其扁平化为俯视局部地图 。

估计深度的俯视投影。

在 图 3a 中，你可以看到这种转换。左图是机器人看到的 (一个有椅子的房间) 。右图是 CARE 生成的俯视图。黑色圆圈是机器人，彩色点代表从深度图中检测到的障碍物。

为了过滤掉噪音 (如天花板或远处的墙壁) ，系统将 x 轴 (宽度) 离散化为若干个区间 (bins) ，并选择每个区间中最近的点 (\(z^*\)) :

寻找最近障碍点的公式。

这产生了一组相对于机器人位置的干净障碍物坐标 \(\mathcal{O}\)。

第二阶段: 斥力物理学

现在机器人知道障碍物在哪里了，它如何避开它们呢？CARE 借用了经典机器人学中的一个概念，称为人工势场法 (APF) 。

想象一下，机器人的目标是一块磁铁，将其向前拉 (引力) ，而每个障碍物都是一块磁铁，将其推开 (斥力) 。

CARE 查看导航模型提出的轨迹 (\(\mathbf{p}_k\)) ，并计算每个检测到的障碍物 (\(\mathbf{o}_m\)) 施加的斥力。该公式依赖于平方反比定律——障碍物越近，它将机器人推开的力度就呈指数级增强。

斥力计算公式。

系统识别规划路径上哪一点受到的斥力最强——本质上是寻找轨迹中“最危险”的部分:

寻找具有最大斥力的路径点的公式。

根据该力的方向，CARE 计算出一个调整角度 \(\theta_{rep}\)。

第三阶段: 轨迹调整与 Safe-FOV

CARE 不是丢弃原始路径，而是旋转它。它将旋转角度 \(\theta_{rep}\) (被限制在最大安全范围内) 应用于整个轨迹。这有效地引导机器人绕过障碍物，同时试图保持原始目标的大致方向。

上面的图片面板中的 图 3b 优雅地展示了这一点。 黄色路径是原本直奔碰撞的轨迹。矢量显示了来自障碍物的斥力。 紫色路径是结果: 一条绕过危险的安全曲线。

“安全视野 (Safe-FOV)” 机制

基于摄像头的导航的一个主要风险是视场角 (FOV) 。如果机器人为了避开一个盒子而急转弯，它可能会盲目地撞上一面之前在相机画面之外的墙。

为了防止这种情况，CARE 实施了 Safe-FOV 规则。它检查所需的航向变化 (\(\theta_{des}\)) 。

Safe-FOV 运动控制公式。

如果转弯很急 (\(|\theta_{des}| > \theta_{thres}\)) : 机器人停止前进 (\(v=0\)) ，只原地旋转。这使得相机可以扫视到新区域，在机器人进入之前揭示任何隐藏的障碍物。
如果转弯平缓: 机器人同时前进和转弯 (标准转向) 。

实验验证

研究人员不仅在模拟中进行了测试；他们还将 CARE 部署在三个具有不同高度、相机角度和轴距的真实机器人平台上: LoCoBot、TurtleBot4 和 RoboMaster S1 。

用于评估的移动机器人平台。

他们进行了两种主要类型的实验: 无定向探索和图像目标条件导航 。

实验 1: 无定向探索

在这个测试中，机器人被放置在一个充满随机盒子 (未见过的障碍物) 的受限空间 (\(3.5m \times 2.8m\)) 中。目标只是尽可能多地四处游荡而不撞车。

探索和导航任务示意图。

结果非常显著。没有 CARE 时，基线模型 (NoMaD) 几乎立即频繁地撞上盒子。有了 CARE，机器人安全导航的距离显著增加。

比较碰撞前行驶距离的图表。

如 图 5 和下方的 表 1 所示，配备 CARE 的 LoCoBot 在发生碰撞前平均行驶了超过 21 米 , 而没有配备时仅为 2 米 。这是 10.7 倍的提升 。

碰撞前平均行驶距离表。

性能因机器人而异——TurtleBot4 的提升幅度小于 LoCoBot。作者将其归因于相机设置。LoCoBot 有一个广角鱼眼镜头，使 CARE 甚至能看到周边的障碍物。TurtleBot4 的视野较窄，这意味着障碍物可能会滑出画面，在转弯时导致碰撞。

实验 2: 到达目标

第二个实验更有结构性。机器人必须使用拓扑图 (一系列图像地标) 沿着 24 米长的走廊到达目的地。研究人员在走廊里堆放了地图上没有的随机障碍物。

测试环境走廊的照片。

指标集中在特定的权衡上: 安全是否会让机器人变慢？是否会让路径变长？

比较导航性能指标的表格。

表 2 揭示了关键结论:

安全第一: CARE 显著减少了碰撞次数。对于 LoCoBot，它在所有测试中实现了 0 碰撞 。
到达率: 成功率 (到达目标) 飙升。对于运行 ViNT 模型的 TurtleBot4，到达率从 70% 提高到了 100% 。
效率成本: 路径长度和完成时间略有增加 (大约增加 4-20%) 。这是预期的行为——绕过盒子显然比撞上去路程要长。

处理动态障碍物

也许最令人印象深刻的测试涉及动态障碍物——具体来说，就是有人跳到机器人面前。标准模型通常在这里会失败，因为它们无法对几何形状的突然变化做出足够快的反应。

显示动态障碍物碰撞率的表格。

表 3 显示了这种“压力测试”的结果。

Corner-appear (角落出现) : 一个人从角落跳出来。
Front-approach (正面接近) : 一个人径直走向机器人。

在几乎所有的基线试验 (NoMaD/ViNT) 中，机器人都会撞上人。 有了 CARE，碰撞率降至 0/10。 斥力估计会对人的腿引起的深度变化做出即时反应，而 Safe-FOV 机制迫使机器人立即停止或转弯。

结论与启示

CARE 论文强调了当前机器人“基础模型”时代的一个关键差距: 泛化并不等于安全。虽然大型模型可以理解上下文，但它们往往在新环境中难以进行精确的空间感知。

CARE 提供了一个引人注目的解决方案，因为它弥合了高级学习和低级反应控制之间的差距。

易于获取: 你不需要价值 10,000 美元的 LiDAR 传感器。
可迁移: 同一模块在三种不同的机器人上均有效。
有效: 在特定任务中减少高达 100% 的碰撞。

通过整合显式深度估计和基于物理的斥力，CARE 赋予了视觉导航模型在现实世界中生存所需的“反射神经”。对于机器人学领域的学生和研究人员来说，这强调了混合系统的重要性——结合深度学习与经典机器人学原理——以创造不仅聪明，而且安全的机器。

引言#

问题所在: 强大的泛化能力，贫乏的安全性#

解决方案: CARE 框架#

工作原理#

第一阶段: 从单张图像中感知几何结构#

第二阶段: 斥力物理学#

第三阶段: 轨迹调整与 Safe-FOV#

“安全视野 (Safe-FOV)” 机制#

实验验证#

实验 1: 无定向探索#

实验 2: 到达目标#

处理动态障碍物#

结论与启示#

引言