TrackVLA 如何教会机器人跟随你：视觉、语言与动作的统一

想象一下，你正走在拥挤的办公室里，或者是背着装备走在森林小径上，身边跟着一个机器人助手。为了让机器人发挥作用，它需要完美地做一件事: 跟随你。

这项任务被称为具身视觉跟随 (Embodied Visual Tracking, EVT) , 对我们人类来说听起来很简单。我们能毫不费力地在人群中跟踪朋友，预测他们下一步会踩在哪里，并在不丢失视线的情况下避开障碍物。但对机器人来说，这是一场噩梦。它需要两种截然不同的技能: 识别 (确定谁是跟随目标) 和轨迹规划 (决定如何移动) 。

传统上，机器人专家将这些视为分离的问题。一个模块处理相机视觉，另一个模块处理运动。但是，如果视觉模块因为路人穿着类似的衬衫而感到困惑，会发生什么呢？运动模块就会盲目地跟随错误的人。

在最近的一篇论文中，研究人员介绍了 TrackVLA , 这是一个填补这一鸿沟的统一模型。通过将视觉、语言和动作结合到一个单一的框架中，TrackVLA 实现了最先进的跟随性能，即使在混乱的现实世界环境中也是如此。

TrackVLA 在各种具有挑战性的环境中展示了鲁棒的跟随、长时程跟随和跨域泛化能力。

问题所在: 当识别遇上规划

具身视觉跟随的核心挑战在于“协同”鸿沟。现有的方法通常将过程解耦:

跟随器/检测器在图像中找到目标。
规划器获取该边界框并计算速度指令。

这种分离导致了误差累积。如果检测器闪烁或因遮挡 (目标走到柱子后面) 而失效，规划器就失去了恢复的上下文。此外，大多数现有的规划器使用强化学习 (RL) ，这可能导致动作不连贯且不自然，或者依赖于在复杂场景中容易失效的简单视觉伺服。

为了解决这个问题，我们需要一个能同时理解视觉上下文和运动的“大脑”。

TrackVLA 登场: 一种视觉-语言-动作模型

TrackVLA 代表 视觉-语言-动作 (Vision-Language-Action) 。它建立在近期大语言模型 (LLM) 和视觉语言模型 (VLM) 爆发式发展的基础之上。这里的洞察力很巧妙: 如果 LLM 可以推理世界，为什么不教它们控制机器人的运动呢？

研究人员设计 TrackVLA 用一个共享的主干网络处理两个任务:

视觉问答 (VQA) : “这人穿什么？”
跟随: “跟随穿黑西装的男人。”

通过在这两个任务上进行训练，模型能更深入地理解目标的外观和行为。

架构

让我们分解一下流程，如下图所示。

TrackVLA 的整体流程。给定视频和语言指令，TrackVLA 输出机器人的跟随轨迹或识别问题的答案。

流程包含三个主要阶段:

观察编码 (Observation Encoding) : 机器人获取视频流图像。这些图像由视觉编码器 (具体为 EVA-CLIP) 处理。为了保持速度，系统使用了 网格池化 (Grid Pooling) 策略。它不是以高分辨率处理每个像素，而是创建多样化的特征图。

研究人员意识到，你需要高分辨率来查看当前的目标，但在记忆历史时低分辨率就足够了。他们在数学上将其实现为:

网格池化策略的公式。

这个公式本质上是说，他们将视觉特征池化为不同的大小——细粒度 (\(64/N\)) 用于当前帧以捕捉细节，而粗粒度 (\(4/N\)) 用于历史帧以捕捉运动上下文，同时不会导致内存爆炸。

LLM 前向传播 (LLM Forwarding) : 这些视觉 token 与文本指令 (例如，“Follow the person”) 一起被送入 大语言模型 (Vicuna-7B) 。
双头机制 (Dual Heads) : 这里是见证奇迹的时刻。模型根据需要执行的任务分为两个分支:

语言头: 如果任务是识别，它输出文本 (就像 ChatGPT 一样) 。
动作头: 如果任务是跟随，它会激活一个专门的 基于锚点的扩散模型 (Anchor-based Diffusion Model) 来预测机器人的路径。

动作头: 基于锚点的扩散

标准扩散模型 (如 DALL-E 或 Stable Diffusion 中使用的那些) 擅长生成数据，但速度很慢——通常需要数百步来去除噪声并创建输出。一个以每秒 1.5 米速度移动的机器人不能等待几秒钟来做决定。

TrackVLA 通过 基于锚点的扩散 (Anchor-based Diffusion) 解决了这个问题。模型不是从纯随机噪声开始，而是从一组预先计算的“锚点”轨迹开始——即从训练数据中得出的常见运动模式。

基于锚点的扩散动作模型。

如上图所示，模型获取这些带噪声的锚点和来自 LLM 的上下文 (\(E^{pred}_T\)) 并进行“去噪”以找到正确的路径。因为锚点已经很接近有效轨迹，模型在推理过程中只需要 两步去噪 。这使得系统能够在服务器上以 10 FPS (每秒帧数) 运行，这对于实时跟随来说已经足够了。

输出不仅仅是一条路径；它预测多条潜在轨迹并对它们进行评分。最终输出是基于最高分选择的:

轨迹选择和评分的公式。

模型通过优化组合损失函数进行训练，该函数同时关注轨迹的准确性 (MSE) 和分类评分 (BCE):

跟随损失函数公式。

为大脑提供燃料: EVT-Bench 数据集

复杂的模型需要复杂的数据。现有的数据集要么太小，要么缺乏语言描述，或者没有现实的人群动态。研究人员建立了他们自己的基准: EVT-Bench 。

他们利用 Habitat 模拟器创建了一个大规模训练集。他们不只是把随机的人体模型扔进房间；他们创建了一个复杂的流程:

100+ 自定义化身: 使用具有多样化服装和纹理的 SMPL-X 模型。
自然运动: 化身以逼真的类似人类的步行速度 (1.0 - 1.5 m/s) 移动，并使用避障算法 (ORCA) ，这样他们就不会穿过墙壁或彼此。
多样化场景:
*单目标跟随: * 基础跟随。
*干扰下跟随: * “跟随穿蓝衬衫的男人” (忽略穿红衬衫的那个) 。
*模糊跟随: * “跟随你看到的第一个人。”

TrackVLA 使用的训练数据集概览。

为了确保模型既能识别物体也能跟随物体，他们将这些跟随数据与开放世界识别数据 (VQA 样本) 混合在一起。这种组合——85.5万个跟随样本和85.5万个识别样本——至关重要。如他们的消融研究 (见下文) 所示，当使用 1:1 的跟随与识别数据比例平衡时，性能达到峰值。

不同数据规模和比例的比较，显示 1:1 的比例能产生最佳性能。

实验结果

它真的有效吗？研究人员在仿真环境和现实世界中都测试了 TrackVLA。

仿真基准测试

在 Gym-UnrealCV 基准测试中，TrackVLA 以 零样本 (zero-shot) 方式取得了最先进 (SOTA) 的结果。这意味着它是在从未见过的环境中进行评估的。

单目标: 它在整个剧集中成功跟随目标。
干扰物: 在从外观相似的人中识别正确目标方面，它显著优于以前的方法 (如 AD-VAT 和标准 VLA 模型) 。
未见过的物体: 尽管主要是在人类数据上训练的，它甚至可以跟随动物 (马、狗、羊) ，证明了它的视觉泛化能力。

TrackVLA 在 Gym-UnrealCV 上跟随未见过物体 (如羊和马) 的可视化。

(注: 虽然该模型在人类身上表现出色，但此处展示的对动物的泛化能力凸显了底层视觉编码器的鲁棒性。) *

真实世界部署

仿真是安全的；真实世界则是一团糟。团队将 TrackVLA 部署在配备 RealSense 相机的宇树 Go2 四足机器人上。计算通过 Wi-Fi 卸载到配备 RTX 4090 GPU 的服务器上。

真实世界系统架构。TrackVLA 部署在远程服务器上，机器人通过互联网与其通信。

结果在视觉上令人印象深刻。机器人在以下场景成功跟随了用户:

杂乱环境: 树木遮挡视线的森林。
低照度: 光线昏暗的房间。
追逐-躲避: 追逐一个跑开的目标。

TrackVLA 在杂乱、低光和多人场景中的真实世界定性结果。

也许最具说明性的比较是针对商用跟随无人机 (DJI Flip) 。在“简单”场景 (开阔场地) 中，两者都达到了 100% 的成功率。然而，在“困难”场景 (快速移动、严重遮挡) 中，商用无人机的成功率降至 50% , 而 TrackVLA 保持在 70% 。

下方的可视化凸显了一个案例，其中商用无人机 (UVA 视角) 丢失了目标，而 TrackVLA 保持了轨迹锁定。

真实世界实验的可视化，比较 TrackVLA 与商用无人机。

意义何在

TrackVLA 代表了具身智能向前迈出的重要一步。通过将识别 (语言/视觉) 和规划 (动作/扩散) 统一到一个单一模型中，它消除了模块化系统中“传声筒”效应。

给学生和研究人员的关键要点是:

架构协同: 对 VQA 和运动使用相同的 token，使模型能够“理解”它正在跟随什么。
高效扩散: 如果使用智能锚点，就不需要数百步的扩散。这使得生成式策略在实时机器人技术中变得可行。
数据多样性: 混合识别数据集和跟随数据集对于鲁棒的性能至关重要。

随着机器人走出工厂，进入我们的家庭和街道，能够在不被人群或阴影困扰的情况下鲁棒地跟随我们并与我们互动，将是有用的具身智能的决定性特征。TrackVLA 向我们展示了一条通往这一目标的充满希望的道路。

问题所在: 当识别遇上规划#

TrackVLA 登场: 一种视觉-语言-动作模型#

架构#

动作头: 基于锚点的扩散#

为大脑提供燃料: EVT-Bench 数据集#

实验结果#

仿真基准测试#

真实世界部署#

意义何在#