如何利用视觉语言模型教无人机飞行（无需训练）

想象一下，你站在公园里，指着远处的一棵树对朋友说: “去那边。”你的朋友看到你的手势，估算出距离，然后向树走去，途中还会调整路线避开长椅。这种互动是非常直观的，依靠的是视觉理解和常识。

现在，想象一下让无人机做同样的事情。传统上，这是一场噩梦。你要么需要用操纵杆手动驾驶，要么需要用数千小时的飞行数据来训练一个复杂的神经网络，只为了让它认出什么是“树”。

但是，如果无人机能像我们一样理解世界呢？如果它们只需要看 (See) 、指 (Point) 和飞 (Fly) 呢？

在国立阳明交通大学和国立台湾大学近期发表的一篇论文中，研究人员提出了 See, Point, Fly (SPF) 。这是一个新颖的框架，允许无人机 (UAV) 完全基于自然语言指令进行导航——且无需任何特定训练 。通过利用现代视觉语言模型 (VLM) 的强大功能，SPF 在模拟环境和真实世界中都达到了最先进的性能。

在这篇文章中，我们将剖析 SPF 是如何工作的，为什么它优于经过训练的策略，以及它如何将 2D 像素转化为 3D 飞行。

无人机导航的三种场景: 跟随动态目标、穿越长走廊以及搜寻人员。

问题: 为什么无人机导航如此困难？

自主空中导航处于三个高难度领域的交叉点:

视觉推理: 无人机必须理解非结构化环境 (杂物、人员、障碍物) 。
语言理解: “飞向那辆红车”与“找个安全的地方降落”是完全不同的指令。
控制: 系统必须输出精确的电机指令 (偏航、俯仰、油门) 。

端到端学习的局限性

传统方法通常使用“端到端”策略学习。研究人员收集专家驾驶无人机的海量数据，并训练神经网络将图像直接映射到电机控制。虽然这在实验室中有效，但它很脆弱。如果你在森林里训练无人机，它很可能会在仓库里坠毁。它无法泛化到新环境，也无法理解复杂的、自由形式的指令。

基于文本的 VLM 的问题

随着大型语言模型 (LLM) 和 VLM (如 GPT-4V 或 Gemini) 的兴起，出现了一种新方法: 向 VLM 展示图像并询问它该做什么。

然而，VLM 的设计初衷是生成文本 , 而不是飞行动力学参数。要求 VLM 输出“油门: 0.5，偏航: 10度”通常会失败，因为语言模型难以处理高精度的连续数字。以前的尝试试图通过让 VLM 从技能列表中进行选择 (例如，“向前移动”、“向左转”) 来简化这一点，但这种顿挫、离散的动作缺乏真实飞行所需的平滑度和精度。

核心洞察: 导航即“指向”

**See, Point, Fly (SPF)**背后的研究人员有一个绝妙的洞察: 不要让 VLM 去开无人机。让 VLM 指出图像上的目标。

VLM 非常擅长理解图像并回答像“穿绿衬衫的人在哪里？”这样的问题，通常通过提供边界框或图像上的一个点来回答。这是一个 2D 空间定位 (Spatial Grounding) 任务 。

如果 VLM 能够识别出无人机应该去 2D 图像上的哪里，我们就可以利用几何数学计算出无人机应该如何在 3D 空间中移动到达那里。这将高层推理 (由 VLM 处理) 与底层控制 (由几何学处理) 解耦了。

方法: SPF 如何工作

SPF 框架在一个连续的循环中运行: 看 (See) 环境，在图像上指 (Point) 出目标，然后飞 (Fly) 向它。因为它使用的是预训练的 VLM，所以它在飞行数据上需要 零训练 。

展示流程的图表: 无人机相机 -> VLM -> 2D 航点 -> 动作转控制 -> 飞行。

如上图 2 所示，该流程包含三个主要阶段。让我们一一拆解。

阶段 1: 基于 VLM 的动作规划 (看 & 指)

在每个时间步 \(t\)，无人机捕获一张图像 (\(I_t\))。这张图像连同用户的文本指令 (\(l\)) 一起被输入到 VLM 中。

VLM 被提示输出一个“航点规划”。它输出的不是文本，而是图像上的一个 2D 坐标 \((u, v)\)——本质上是代表当前目标的像素位置。它还输出一个离散化的深度标签 (\(d_{VLM}\))，这是模型对目标距离的猜测 (范围从 1 到 \(L\)) 。

从数学上讲，系统寻找在给定指令和图像的情况下可能性最大的航点序列 \(w\):

公式显示在给定指令 l 和图像 I_t 的情况下，优化航点 w 的概率。

如果指令包含“避开障碍物”等约束，VLM 还会检测障碍物的边界框，并选择一个能引导无人机绕过它们的航点。这有效地将复杂的导航问题转化为了视觉标注任务。

阶段 2: 自适应步长 (“直觉”层)

来自 VLM 的原始深度猜测对于安全飞行来说不够准确。如果无人机只是盲目地跟随预测的深度，它可能会冲过头或坠毁。

为了解决这个问题，SPF 引入了 自适应行进距离缩放 机制。这个想法很简单: 如果目标很远，就迈大步；如果目标 (或障碍物) 很近，就迈出谨慎的小步。

系统使用非线性缩放曲线将 VLM 的离散深度分数 (\(d_{VLM}\)) 转换为调整后的物理距离 (\(d_{adj}\)):

自适应距离调整 d_adj 的公式。

这里，\(s\) 是全局缩放因子，而 \(p\) 控制非线性。这使得无人机在开阔空间能高效移动，而在接近目标时能减速进行精确机动。

阶段 3: 2D 到 3D 反投影 (指 -> 飞)

现在到了“飞”的部分。我们有一个 2D 像素 \((u, v)\) 和一个调整后的距离 \(d_{adj}\)。我们要如何将其转化为电机指令？

系统使用了 针孔相机模型 。这是一个标准的几何模型，将世界中的 3D 坐标与图像传感器上的 2D 像素联系起来。通过使用相机的视场角 (FOV) 对 2D 像素进行“反投影”，系统计算出一个 3D 位移向量 \((S_x, S_y, S_z)\)。

图解: 将 2D 航点转换为 3D 向量，再转换为偏航、俯仰和油门。

如上图 3(b) 所示，2D 点被提升为相对于无人机机身的 3D 空间坐标。转换公式如下:

根据 u, v 以及角度 alpha 和 beta 计算 Sx, Sy 和 Sz 的公式。

这里，\(\alpha\) 和 \(\beta\) 分别代表相机的水平和垂直半视场角。\(S_y\) 代表前进运动，而 \(S_x\) 和 \(S_z\) 代表横向和垂直位移。

阶段 4: 反应式控制

最后，这个 3D 向量 \((S_x, S_y, S_z)\) 被分解为无人机的原生控制原语: 偏航 (Yaw，旋转) 、俯仰 (Pitch，前后倾斜) 和油门 (Throttle，升降) 。

将 S 向量转换为 Delta Theta, Delta Pitch 和 Delta Throttle 的公式。

无人机执行这些速度指令，相机捕获新帧，循环重复。这种闭环系统允许无人机连续修正路径，使其对移动目标或风具有鲁棒性。

实验结果

研究人员将 SPF 与最先进的基线方法进行了比较，包括:

TypeFly: 使用 LLM 选择离散技能 (例如，“向左移动”) 。
PIVOT: 在图像上生成候选路径，并让 VLM 选择最好的一条。

他们在高保真模拟器 (DRL Simulator) 和使用 DJI Tello 无人机的真实环境中进行了测试。

模拟环境表现

结果非常鲜明。在模拟中，SPF 在各种任务中达到了 93.9% 的成功率 , 而 PIVOT 仅为 28.7%，TypeFly 接近 0%。

表 1 显示成功率。SPF 在模拟环境达到 93.9%，在真实世界达到 92.7%，远超基线。

如表 1 所示，SPF 在每个类别中都表现出色，包括复杂的推理任务 (“当我口渴时飞向能帮助我的物体”) 和长程导航。

飞行可视化

定性差异在飞行轨迹中清晰可见。在下方的图 4 中，你可以看到模拟器中不同模型的路径。绿线 (SPF) 平滑地绕过障碍物到达目标。蓝线 (PIVOT) 经常卡住或采取低效路径，而紫线 (TypeFly) 则无法生成有效指令。

模拟飞行轨迹的俯视图。绿色路径 (SPF) 平滑且成功；其他路径则不稳定。

真实世界的成功

现实世界的环境是混乱的。光线变化、传感器噪声和空气动力学都是不可预测的。尽管如此，SPF 在真实世界实验中仍达到了 92.7% 的成功率 。

该系统证明了其具备“动态目标跟随”能力——与行走的人保持同步——以及“推理驱动搜索”能力，即根据模糊的描述找到特定物体。

真实世界飞行轨迹。绿色代表起飞，洋红色代表任务轨迹。

图 5 展示了真实世界的轨迹。无人机有效地识别目标 (如一个人) 并平滑地向其导航。

速度与效率

不仅仅是到达目标，还要高效地到达。研究人员分析了完成时间，发现 SPF 明显快于基线方法。

条形图显示完成时间。SPF 在各项任务中始终更快。

自适应步长重要吗？

人们可能会想，为了“自适应步长”做复杂的数学运算是否有必要？我们能否直接使用固定速度？

表 3 中的消融实验证明了其价值。对比固定步长与自适应控制器，自适应方法将完成时间缩短了近一半 (在一项任务中从 61秒减少到 28秒) ，同时保持了 100% 的成功率。

表 3 对比固定步长与自适应步长。自适应方式更快。

这证实了在接近目标时减速、在开阔空间加速的“直觉”对于高效的自动飞行至关重要。

为什么这很重要

See, Point, Fly 代表了机器人技术的一个重大转变。

泛化能力: 因为它依赖于通用的 VLM (如 Gemini 或 GPT-4) ，它继承了这些模型的常识。你可以要求它在一个从未见过的房间里“找到背包”，它也能做到。
无需训练: 没有昂贵的数据收集或策略训练阶段。你今天就可以把这段代码部署到无人机上。
模块化: 随着 VLM 变得更好，SPF 也会变得更好。如果下周发布了一个新的、更快的 VLM，你可以直接将其插入框架以提高无人机的感知能力。

结论

在物理世界中导航是人工智能面临的最困难的挑战之一。虽然端到端深度学习已经取得了进步，但它往往缺乏处理现实世界无限多样性的灵活性。

SPF 通过将导航视为视觉定位 (Grounding) 问题弥合了这一差距。通过让 VLM 做它最擅长的事情 (解释图像和语言) ，并让几何学做它最擅长的事情 (计算 3D 向量) ，我们得到了一个鲁棒、通用且能力惊人的系统。

当我们展望快递无人机、搜救 UAV 和个人空中助手的未来时，像 SPF 这样的框架表明，自主性的关键可能不在于更努力地训练，而在于更聪明地建模。

参考文献与致谢 本文基于论文 “See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation”，作者 Chih Yao Hu, Yang-Sen Lin 等人 (国立阳明交通大学 & 国立台湾大学) 。

问题: 为什么无人机导航如此困难？#

端到端学习的局限性#

基于文本的 VLM 的问题#

核心洞察: 导航即“指向”#

方法: SPF 如何工作#

阶段 1: 基于 VLM 的动作规划 (看 & 指)#

阶段 2: 自适应步长 (“直觉”层)#

阶段 3: 2D 到 3D 反投影 (指 -> 飞)#

阶段 4: 反应式控制#

实验结果#

模拟环境表现#

飞行可视化#

真实世界的成功#

速度与效率#

自适应步长重要吗？#

为什么这很重要#

结论#