用语言驾驶：GENNAV 如何解决“把车停在那边”的问题

想象一下你坐在一辆出租车里。你告诉司机: “请把车停在那辆红车左边。”司机环顾四周，看到了一辆蓝色卡车和一辆白色轿车，但没有红车。司机转过头对你说: “那里没有红车。”

这种互动对人类来说微不足道。我们对语言、空间关系和物体恒常性有着直觉般的理解。然而，对于自动驾驶汽车 (AV) 来说，这是一个巨大的挑战。目前大多数人工智能系统的运行假设是: 如果你发出了指令，目标物体一定就在那里。如果你告诉一个标准的视觉语言模型“找到那辆红车”，而实际上并没有红车，它通常会产生“幻觉”——拼命选择一个最接近的匹配项 (比如红色的消防栓或栗色的卡车) ，仅仅为了满足请求。

在这篇文章中，我们将深入探讨一篇题为 “GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions” (GENNAV: 面向广义指代可通行区域的多边形掩码生成) 的论文。这项研究介绍了一种新颖的架构，旨在理解用于导航的自然语言指令，专门解决那些目标可能不存在、可能存在多个目标，或者目标是空间中模糊区域 (如“草地”) 而非特定物体的棘手场景。

问题所在: “去那里”还不够

计算机视觉与自然语言处理 (NLP) 的交叉领域是人工智能中最令人兴奋的领域之一。在自动驾驶的背景下，这通常被形式化为 指代可通行区域 (Referring Navigable Regions, RNR) 任务。其目标是根据语言指令在摄像头画面中识别特定区域。

然而，GENNAV 的作者们发现了现有 RNR 研究中的一个关键缺口。以前的方法主要集中在“Thing 类型 (物体类型) ”的目标上——具有清晰边界的可数物体，如“汽车”或“行人”。它们还假设目标总是存在的。

现实世界的驾驶要混乱得多。我们经常提到“Stuff 类型 (材质/区域类型) ”的区域——边界模糊的区域，如“路缘旁边的路”或“草地”。此外，指令可能是无效的 (当没有公交车时说“停在公交车后面”) ，或者涉及多个位置 (“停在那些树的任意一棵旁边”) 。

研究人员定义了一个更稳健的任务，称为 广义指代可通行区域 (Generalized Referring Navigable Regions, GRNR) 。如下图所示，该任务要求模型处理三种截然不同的场景:

单目标 (Single-target) : 具有一个明确目的地的标准指令。
多目标 (Multi-target) : 适用于多个有效区域的指令。
无目标 (No-target) : 引用了缺失地标的指令。

图 5: GRNR 任务的典型示例。左: 单目标。中: 多目标。右: 无目标。目标是生成零个或多个分割掩码 (绿色显示) 。与 RNR 不同，GRNR 适应指定任意数量地标的指令，包括存在多个目标区域或不存在目标区域的情况。

为什么现有方法会失败

在介绍解决方案之前，了解为什么以前的尝试在这里举步维艰很有帮助。

基于像素的分割: 许多现有模型试图将图像中的每一个像素分类为“目标”或“背景”。这不仅计算量大，而且速度慢。在驾驶中，毫秒必争。
存在的假设: 传统模型被训练为必须输出某些东西。当面对“无目标”场景时，它们会强制进行预测，导致危险的错误 (例如，仅仅因为指令提到了一辆不存在的汽车，就将可行驶车道识别为停车位) 。
视觉定位的局限性: 像 GPT-4V 或 Gemini 这样的大型多模态大语言模型 (MLLMs) 虽然功能强大，但它们通常针对边界框 (矩形) 进行了优化，而不是精确的可通行多边形。矩形可能会包含路缘或行人，而多边形可以紧贴安全驾驶区域。

GENNAV 登场: 架构解析

为了解决这些问题，研究人员提出了 GENNAV 。它的设计初衷是显式地预测目标的存在性，并生成高效的多边形掩码，而不是繁重的像素图。

让我们看看高层工作流程:

图 1: GENNAV 概览。该模型根据自然语言指令和移动载具捕捉的前置摄像头图像预测目标区域。

系统接受两个输入: 前置摄像头图像和自然语言指令。它通过三个专门的模块处理这些输入，最终输出: “是的，有一个 (或多个) 目标”，以及“这是确切的坐标”。

该架构由三个关键模块组成:

地标分布分块模块 (Landmark Distribution Patchification Module, LDPM)
视语言空间融合模块 (Visual-Linguistic Spatial Integration Module, VLSiM)
存在感知多边形分割模块 (Existence Aware Polygon Segmentation Module, ExPo)

让我们逐一拆解每个模块。

图 2: GENNAV 的整体架构。DA 代表 Depth Anything [45]。图中的绿色、红色和蓝色区域分别代表 LDPM、VLSiM 和 ExPo 模块。

1. 地标分布分块模块 (LDPM)

由图 2 中的绿色区域表示。

标准的图像处理通常会将图像调整为较小的正方形 (例如 224x224 像素) 以节省处理能力。然而，在驾驶场景中，重要的地标 (如远处的停车标志或街区那头的行人) 在该分辨率下会变成微小、模糊的斑点。

LDPM 没有均匀地切割图像，而是采用了一种更智能的策略。它根据地标的空间分布将图像划分为多个图块 (patches) 。研究人员分析了地标在驾驶数据集中通常出现的位置 (通常沿地平线和道路边缘，很少在天空中) 。

通过将高分辨率的处理能力集中在这些“热点”区域，GENNAV 在最重要的地方提取了细粒度的视觉特征 (\(h_{ldp}\)) ，而不会将资源浪费在天空或汽车引擎盖上。

2. 视语言空间融合模块 (VLSiM)

由图 2 中的红色区域表示。

理解像“停在汽车旁边的路上”这样的指令需要三种类型的理解:

视觉: 物体看起来像什么？ (汽车) 。
深度: 物体有多远？ (旁边) 。
语义: 哪些区域实际上是可行驶的？ (路) 。

VLSiM 融合了这些概念。它提取图像特征 (\(f_{vis}\)) ，并将其与由深度估计模型 (Depth Anything V2) 生成的伪深度图 (\(f_{depth}\)) 相结合。它还结合了由语义分割模型 (PIDNet) 生成的道路分割掩码 (\(f_{road}\)) 。

这种融合防止了模型选择不可通行的区域。例如，即使“天空”在视觉上符合“蓝色开阔空间”的描述，道路掩码也能确保汽车永远不会试图往那里开。

这种融合可以用数学公式表示为:

公式 1: 多模态特征融合公式

这里，\(h_{inst}\) 是语言特征 (文本指令) 。注意文本是如何与视觉深度特征和道路深度特征相乘 (哈达玛积 \(\odot\)) 的。这迫使语言去“关注”场景的物理布局和语义上的可行驶性。

3. 存在感知多边形分割模块 (ExPo)

由图 2 中的蓝色区域表示。

这是决策核心。不同于绘制图像的基于像素的方法，ExPo 是一个基于 Transformer 的解码器 。它接收来自前述模块的丰富特征，并同时执行两个任务:

分类头 (Classification Head) : 它预测三种状态的概率分布: {无目标, 单目标, 多目标}。这就是让汽车能够说出“我做不到，目标不在这里”的“大脑”。
回归头 (Regression Head) : 如果目标存在，它预测勾勒出目标区域的多边形顶点的精确 \((x, y)\) 坐标。

为什么要用多边形？与分类 50,000 个像素相比，由 6 到 12 个点定义的区域在计算上几乎是瞬间完成的。这种效率正是 GENNAV 能够实时运行的原因。

用于训练该模块的损失函数结合了分类误差和几何误差:

公式 2: 结合分类和回归的损失函数

术语 \(\mathbb{I}\) 是一个指示函数。它本质上是说: “只有当目标实际存在时，才去最小化形状误差 (\(\ell_1\)) 。”这防止了模型因为试图为不存在的物体绘制形状而感到困惑。

GRiN-Drive 基准测试

为了测试这个架构，研究人员面临一个障碍: 没有很好的数据集能同时结合自动驾驶中的“Stuff”目标 (道路/草地) 、多目标和无目标。

因此，他们建立了自己的数据集: GRiN-Drive 。他们结合了现有数据集 (Talk2Car 和 Refer-KITTI) 的数据并对其进行了增强。

无目标生成: 他们在图像之间交换指令 (例如，将“寻找卡车”的指令放在只有轿车的图像上) ，并使用 GPT-4o 和人工检查来验证目标的缺失。
多目标生成: 他们识别出包含同一物体多个实例 (例如两个行人) 的帧，并为两者都标注了多边形。

图 6: GRiN-Drive 基准测试中多目标样本的标注界面。标注者被指示根据导航指令，为给定图像中任意数量的目标区域提供多边形。

这产生了一个包含超过 17,000 个样本的稳健基准，为广义 RNR 任务提供了严格的测试场。

实验结果

GENNAV 的表现如何？研究人员将其与最先进的基于像素的方法 (如 LAVT 和 TNRSM) 以及大型 MLLM (GPT-4o, Gemini, Qwen2-VL) 进行了比较。

评估指标: msIoU 标准的交并比 (IoU) 对于这个任务来说是一个糟糕的指标。如果一个数据集包含许多“无目标”样本，一个懒惰的模型如果总是预测“无目标”，那么它在这些样本上会得到满分，从而夸大其平均分。

作者提出了 平均材质交并比 (mean stuff IoU, msIoU) 。该指标对分数进行了归一化，使得“无目标”预测与分割准确性达到平衡。

公式 3 和 4: msIoU 的定义公式 4 续

定量表现

结果是决定性的。

表 1: GENNAV 与基线方法在 GRiN-Drive 基准测试集上的定量比较。每个指标的最佳得分以粗体显示。

查看表 1，GENNAV 达到了 46.35% 的 msIoU , 显著优于得分 37.90% 的最佳基线方法 (TNRSM) 。

也许最令人惊讶的是，GENNAV 完胜了大型商业模型。 GPT-4o 仅达到 23.41% , 而 Gemini 得分为 6.98% 。这凸显了虽然基础模型是通才，但在需要精确定位的空间几何任务中，像 GENNAV 这样的专用架构仍然更胜一筹。

速度也是一个主要因素。GENNAV 的运行速度为 每样本 31.31 毫秒——大约每秒 30 帧。相比之下，GPT-4o 每样本需要超过 3.5 秒 (3525 毫秒) ，这对于移动车辆来说太慢了。

定性分析

让我们看看该模型与基线方法的实际对比。

图 3: GENNAV 和基线方法在 GRiN-Drive 基准测试上的定性结果。列 (a)、(b)、(c) 和 (d) 分别显示了 LAVT、TNRSM、Qwen2-VL (bbox) 和 GENNAV 的预测结果。绿色和红色区域分别表示预测区域和真实区域；黄色表示它们的重叠部分。

在 (i) 行中，指令是“把我的车停在架子旁边。”

LAVT (a) 和 Qwen2-VL (c) 产生了幻觉，生成了不合理的区域。
TNRSM (b) 预测“无目标” (没看到架子) 。
GENNAV (d) 正确识别了自行车架旁边的特定停车位。

在 (ii) 行中，“把车停在左边的行人旁边。”

这里有多个行人。 GENNAV 是唯一一个正确高亮显示两个行人旁边区域的模型，完美处理了多目标需求。

现实世界“零样本”测试

基准测试固然好，但它能开车吗？研究人员将 GENNAV 带出了实验室。他们在五个不同的城市区域使用四辆不同的汽车和智能手机录制了视频。他们将这些视频输入给 GENNAV，没有进行任何额外的训练 (零样本迁移) 。

图 4: GENNAV 在真实世界实验中的定性结果。区域颜色与图 2 相同

结果经受住了考验。

左图: “请靠近同方向行驶的那辆蓝色汽车。” GENNAV 忽略了迎面而来的交通流，高亮显示了前车后面的车道。
右图: “停在左侧行人的右边。” 它正确识别了行人附近的安全区域。

表 7 证实，即使在野外环境中，GENNAV 也保持了对基线方法的显著领先优势。

表 7: 所提方法与基线方法在真实世界实验中的定量比较。每个指标的最佳得分以粗体显示。

哪里会出问题？

没有模型是完美的。误差分析显示，GENNAV 在 能见度降低条件 (Reduced Visibility Conditions, RVC) 下最为吃力。

图 10: 归类为能见度降低条件的所提方法失败案例的定性分析。

在上面的图像中，雨水、眩光和黑暗迷惑了模型。

在 (a) 中，潮湿路面上的眩光可能掩盖了“草地”的纹理，导致模型错过了目标。
在 (b) 中，反光和黑暗使得区分特定的“前方车辆”变得困难。

此外，作者指出 多模态语言理解 (MLU) 仍然是一个瓶颈。有时模型看到了物体，但误解了关于它的复杂措辞。

结论

GENNAV 代表了自动驾驶出行的重要一步。通过摆脱繁重的像素计算并显式地对目标的“存在性”进行建模，它实现了实时驾驶所需的速度与准确性的平衡。

给学生和研究人员的关键启示:

不要假设存在: 现实世界的系统必须优雅地处理“空”结果。
多边形 > 像素: 对于几何导航任务，预测顶点比分割光栅图像要高效得多。
专业化很重要: 尽管大语言模型被大肆宣传，但在像自动驾驶这样融合深度、分割和语言特征的特定高风险任务中，专用架构仍然占据主导地位。

随着我们迈向 L5 级自动驾驶，像 GENNAV 这样能够处理人类语言模糊性 (“停在那个东西旁边……不，是另一个东西”) 的系统，对于创造不仅仅是驾驶，而是真正与我们协作的汽车至关重要。

问题所在: “去那里”还不够#

为什么现有方法会失败#

GENNAV 登场: 架构解析#

1. 地标分布分块模块 (LDPM)#

2. 视语言空间融合模块 (VLSiM)#

3. 存在感知多边形分割模块 (ExPo)#

GRiN-Drive 基准测试#

实验结果#

现实世界“零样本”测试#

哪里会出问题？#

结论#