想象一下,你站在公园里,指着远处的一棵树对朋友说: “去那边。”你的朋友看到你的手势,估算出距离,然后向树走去,途中还会调整路线避开长椅。这种互动是非常直观的,依靠的是视觉理解和常识。

现在,想象一下让无人机做同样的事情。传统上,这是一场噩梦。你要么需要用操纵杆手动驾驶,要么需要用数千小时的飞行数据来训练一个复杂的神经网络,只为了让它认出什么是“树”。

但是,如果无人机能像我们一样理解世界呢?如果它们只需要看 (See)指 (Point)飞 (Fly) 呢?

在国立阳明交通大学和国立台湾大学近期发表的一篇论文中,研究人员提出了 See, Point, Fly (SPF) 。 这是一个新颖的框架,允许无人机 (UAV) 完全基于自然语言指令进行导航——且无需任何特定训练 。 通过利用现代视觉语言模型 (VLM) 的强大功能,SPF 在模拟环境和真实世界中都达到了最先进的性能。

在这篇文章中,我们将剖析 SPF 是如何工作的,为什么它优于经过训练的策略,以及它如何将 2D 像素转化为 3D 飞行。

无人机导航的三种场景: 跟随动态目标、穿越长走廊以及搜寻人员。

问题: 为什么无人机导航如此困难?

自主空中导航处于三个高难度领域的交叉点:

  1. 视觉推理: 无人机必须理解非结构化环境 (杂物、人员、障碍物) 。
  2. 语言理解: “飞向那辆红车”与“找个安全的地方降落”是完全不同的指令。
  3. 控制: 系统必须输出精确的电机指令 (偏航、俯仰、油门) 。

端到端学习的局限性

传统方法通常使用“端到端”策略学习。研究人员收集专家驾驶无人机的海量数据,并训练神经网络将图像直接映射到电机控制。虽然这在实验室中有效,但它很脆弱。如果你在森林里训练无人机,它很可能会在仓库里坠毁。它无法泛化到新环境,也无法理解复杂的、自由形式的指令。

基于文本的 VLM 的问题

随着大型语言模型 (LLM) 和 VLM (如 GPT-4V 或 Gemini) 的兴起,出现了一种新方法: 向 VLM 展示图像并询问它该做什么。

然而,VLM 的设计初衷是生成文本 , 而不是飞行动力学参数。要求 VLM 输出“油门: 0.5,偏航: 10度”通常会失败,因为语言模型难以处理高精度的连续数字。以前的尝试试图通过让 VLM 从技能列表中进行选择 (例如,“向前移动”、“向左转”) 来简化这一点,但这种顿挫、离散的动作缺乏真实飞行所需的平滑度和精度。

核心洞察: 导航即“指向”

**See, Point, Fly (SPF)**背后的研究人员有一个绝妙的洞察: 不要让 VLM 去开无人机。让 VLM 指出图像上的目标。

VLM 非常擅长理解图像并回答像“穿绿衬衫的人在哪里?”这样的问题,通常通过提供边界框或图像上的一个点来回答。这是一个 2D 空间定位 (Spatial Grounding) 任务

如果 VLM 能够识别出无人机应该去 2D 图像上的哪里,我们就可以利用几何数学计算出无人机应该如何在 3D 空间中移动到达那里。这将高层推理 (由 VLM 处理) 与底层控制 (由几何学处理) 解耦了。

方法: SPF 如何工作

SPF 框架在一个连续的循环中运行: 看 (See) 环境,在图像上指 (Point) 出目标,然后飞 (Fly) 向它。因为它使用的是预训练的 VLM,所以它在飞行数据上需要 零训练

展示流程的图表: 无人机相机 -> VLM -> 2D 航点 -> 动作转控制 -> 飞行。

如上图 2 所示,该流程包含三个主要阶段。让我们一一拆解。

阶段 1: 基于 VLM 的动作规划 (看 & 指)

在每个时间步 \(t\),无人机捕获一张图像 (\(I_t\))。这张图像连同用户的文本指令 (\(l\)) 一起被输入到 VLM 中。

VLM 被提示输出一个“航点规划”。它输出的不是文本,而是图像上的一个 2D 坐标 \((u, v)\)——本质上是代表当前目标的像素位置。它还输出一个离散化的深度标签 (\(d_{VLM}\)),这是模型对目标距离的猜测 (范围从 1 到 \(L\)) 。

从数学上讲,系统寻找在给定指令和图像的情况下可能性最大的航点序列 \(w\):

公式显示在给定指令 l 和图像 I_t 的情况下,优化航点 w 的概率。

如果指令包含“避开障碍物”等约束,VLM 还会检测障碍物的边界框,并选择一个能引导无人机绕过它们的航点。这有效地将复杂的导航问题转化为了视觉标注任务。

阶段 2: 自适应步长 (“直觉”层)

来自 VLM 的原始深度猜测对于安全飞行来说不够准确。如果无人机只是盲目地跟随预测的深度,它可能会冲过头或坠毁。

为了解决这个问题,SPF 引入了 自适应行进距离缩放 机制。这个想法很简单: 如果目标很远,就迈大步;如果目标 (或障碍物) 很近,就迈出谨慎的小步。

系统使用非线性缩放曲线将 VLM 的离散深度分数 (\(d_{VLM}\)) 转换为调整后的物理距离 (\(d_{adj}\)):

自适应距离调整 d_adj 的公式。

这里,\(s\) 是全局缩放因子,而 \(p\) 控制非线性。这使得无人机在开阔空间能高效移动,而在接近目标时能减速进行精确机动。

阶段 3: 2D 到 3D 反投影 (指 -> 飞)

现在到了“飞”的部分。我们有一个 2D 像素 \((u, v)\) 和一个调整后的距离 \(d_{adj}\)。我们要如何将其转化为电机指令?

系统使用了 针孔相机模型 。 这是一个标准的几何模型,将世界中的 3D 坐标与图像传感器上的 2D 像素联系起来。通过使用相机的视场角 (FOV) 对 2D 像素进行“反投影”,系统计算出一个 3D 位移向量 \((S_x, S_y, S_z)\)。

图解: 将 2D 航点转换为 3D 向量,再转换为偏航、俯仰和油门。

如上图 3(b) 所示,2D 点被提升为相对于无人机机身的 3D 空间坐标。转换公式如下:

根据 u, v 以及角度 alpha 和 beta 计算 Sx, Sy 和 Sz 的公式。

这里,\(\alpha\) 和 \(\beta\) 分别代表相机的水平和垂直半视场角。\(S_y\) 代表前进运动,而 \(S_x\) 和 \(S_z\) 代表横向和垂直位移。

阶段 4: 反应式控制

最后,这个 3D 向量 \((S_x, S_y, S_z)\) 被分解为无人机的原生控制原语: 偏航 (Yaw,旋转)俯仰 (Pitch,前后倾斜)油门 (Throttle,升降)

将 S 向量转换为 Delta Theta, Delta Pitch 和 Delta Throttle 的公式。

无人机执行这些速度指令,相机捕获新帧,循环重复。这种闭环系统允许无人机连续修正路径,使其对移动目标或风具有鲁棒性。

实验结果

研究人员将 SPF 与最先进的基线方法进行了比较,包括:

  • TypeFly: 使用 LLM 选择离散技能 (例如,“向左移动”) 。
  • PIVOT: 在图像上生成候选路径,并让 VLM 选择最好的一条。

他们在高保真模拟器 (DRL Simulator) 和使用 DJI Tello 无人机的真实环境中进行了测试。

模拟环境表现

结果非常鲜明。在模拟中,SPF 在各种任务中达到了 93.9% 的成功率 , 而 PIVOT 仅为 28.7%,TypeFly 接近 0%。

表 1 显示成功率。SPF 在模拟环境达到 93.9%,在真实世界达到 92.7%,远超基线。

如表 1 所示,SPF 在每个类别中都表现出色,包括复杂的推理任务 (“当我口渴时飞向能帮助我的物体”) 和长程导航。

飞行可视化

定性差异在飞行轨迹中清晰可见。在下方的图 4 中,你可以看到模拟器中不同模型的路径。绿线 (SPF) 平滑地绕过障碍物到达目标。蓝线 (PIVOT) 经常卡住或采取低效路径,而紫线 (TypeFly) 则无法生成有效指令。

模拟飞行轨迹的俯视图。绿色路径 (SPF) 平滑且成功;其他路径则不稳定。

真实世界的成功

现实世界的环境是混乱的。光线变化、传感器噪声和空气动力学都是不可预测的。尽管如此,SPF 在真实世界实验中仍达到了 92.7% 的成功率

该系统证明了其具备“动态目标跟随”能力——与行走的人保持同步——以及“推理驱动搜索”能力,即根据模糊的描述找到特定物体。

真实世界飞行轨迹。绿色代表起飞,洋红色代表任务轨迹。

图 5 展示了真实世界的轨迹。无人机有效地识别目标 (如一个人) 并平滑地向其导航。

速度与效率

不仅仅是到达目标,还要高效地到达。研究人员分析了完成时间,发现 SPF 明显快于基线方法。

条形图显示完成时间。SPF 在各项任务中始终更快。

自适应步长重要吗?

人们可能会想,为了“自适应步长”做复杂的数学运算是否有必要?我们能否直接使用固定速度?

表 3 中的消融实验证明了其价值。对比固定步长与自适应控制器,自适应方法将完成时间缩短了近一半 (在一项任务中从 61秒 减少到 28秒) ,同时保持了 100% 的成功率。

表 3 对比固定步长与自适应步长。自适应方式更快。

这证实了在接近目标时减速、在开阔空间加速的“直觉”对于高效的自动飞行至关重要。

为什么这很重要

See, Point, Fly 代表了机器人技术的一个重大转变。

  1. 泛化能力: 因为它依赖于通用的 VLM (如 Gemini 或 GPT-4) ,它继承了这些模型的常识。你可以要求它在一个从未见过的房间里“找到背包”,它也能做到。
  2. 无需训练: 没有昂贵的数据收集或策略训练阶段。你今天就可以把这段代码部署到无人机上。
  3. 模块化: 随着 VLM 变得更好,SPF 也会变得更好。如果下周发布了一个新的、更快的 VLM,你可以直接将其插入框架以提高无人机的感知能力。

结论

在物理世界中导航是人工智能面临的最困难的挑战之一。虽然端到端深度学习已经取得了进步,但它往往缺乏处理现实世界无限多样性的灵活性。

SPF 通过将导航视为视觉定位 (Grounding) 问题弥合了这一差距。通过让 VLM 做它最擅长的事情 (解释图像和语言) ,并让几何学做它最擅长的事情 (计算 3D 向量) ,我们得到了一个鲁棒、通用且能力惊人的系统。

当我们展望快递无人机、搜救 UAV 和个人空中助手的未来时,像 SPF 这样的框架表明,自主性的关键可能不在于更努力地训练,而在于更聪明地建模。


参考文献与致谢 本文基于论文 “See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation”,作者 Chih Yao Hu, Yang-Sen Lin 等人 (国立阳明交通大学 & 国立台湾大学) 。