想象一下,你正走在拥挤的办公室里,或者是背着装备走在森林小径上,身边跟着一个机器人助手。为了让机器人发挥作用,它需要完美地做一件事: 跟随你。
这项任务被称为具身视觉跟随 (Embodied Visual Tracking, EVT) , 对我们人类来说听起来很简单。我们能毫不费力地在人群中跟踪朋友,预测他们下一步会踩在哪里,并在不丢失视线的情况下避开障碍物。但对机器人来说,这是一场噩梦。它需要两种截然不同的技能: 识别 (确定谁是跟随目标) 和轨迹规划 (决定如何移动) 。
传统上,机器人专家将这些视为分离的问题。一个模块处理相机视觉,另一个模块处理运动。但是,如果视觉模块因为路人穿着类似的衬衫而感到困惑,会发生什么呢?运动模块就会盲目地跟随错误的人。
在最近的一篇论文中,研究人员介绍了 TrackVLA , 这是一个填补这一鸿沟的统一模型。通过将视觉、语言和动作结合到一个单一的框架中,TrackVLA 实现了最先进的跟随性能,即使在混乱的现实世界环境中也是如此。

问题所在: 当识别遇上规划
具身视觉跟随的核心挑战在于“协同”鸿沟。现有的方法通常将过程解耦:
- 跟随器/检测器在图像中找到目标。
- 规划器获取该边界框并计算速度指令。
这种分离导致了误差累积。如果检测器闪烁或因遮挡 (目标走到柱子后面) 而失效,规划器就失去了恢复的上下文。此外,大多数现有的规划器使用强化学习 (RL) ,这可能导致动作不连贯且不自然,或者依赖于在复杂场景中容易失效的简单视觉伺服。
为了解决这个问题,我们需要一个能同时理解视觉上下文和运动的“大脑”。
TrackVLA 登场: 一种视觉-语言-动作模型
TrackVLA 代表 视觉-语言-动作 (Vision-Language-Action) 。 它建立在近期大语言模型 (LLM) 和视觉语言模型 (VLM) 爆发式发展的基础之上。这里的洞察力很巧妙: 如果 LLM 可以推理世界,为什么不教它们控制机器人的运动呢?
研究人员设计 TrackVLA 用一个共享的主干网络处理两个任务:
- 视觉问答 (VQA) : “这人穿什么?”
- 跟随: “跟随穿黑西装的男人。”
通过在这两个任务上进行训练,模型能更深入地理解目标的外观和行为。
架构
让我们分解一下流程,如下图所示。

流程包含三个主要阶段:
- 观察编码 (Observation Encoding) : 机器人获取视频流图像。这些图像由视觉编码器 (具体为 EVA-CLIP) 处理。为了保持速度,系统使用了 网格池化 (Grid Pooling) 策略。它不是以高分辨率处理每个像素,而是创建多样化的特征图。
研究人员意识到,你需要高分辨率来查看当前的目标,但在记忆历史时低分辨率就足够了。他们在数学上将其实现为:

这个公式本质上是说,他们将视觉特征池化为不同的大小——细粒度 (\(64/N\)) 用于当前帧以捕捉细节,而粗粒度 (\(4/N\)) 用于历史帧以捕捉运动上下文,同时不会导致内存爆炸。
LLM 前向传播 (LLM Forwarding) : 这些视觉 token 与文本指令 (例如,“Follow the person”) 一起被送入 大语言模型 (Vicuna-7B) 。
双头机制 (Dual Heads) : 这里是见证奇迹的时刻。模型根据需要执行的任务分为两个分支:
- 语言头: 如果任务是识别,它输出文本 (就像 ChatGPT 一样) 。
- 动作头: 如果任务是跟随,它会激活一个专门的 基于锚点的扩散模型 (Anchor-based Diffusion Model) 来预测机器人的路径。
动作头: 基于锚点的扩散
标准扩散模型 (如 DALL-E 或 Stable Diffusion 中使用的那些) 擅长生成数据,但速度很慢——通常需要数百步来去除噪声并创建输出。一个以每秒 1.5 米速度移动的机器人不能等待几秒钟来做决定。
TrackVLA 通过 基于锚点的扩散 (Anchor-based Diffusion) 解决了这个问题。模型不是从纯随机噪声开始,而是从一组预先计算的“锚点”轨迹开始——即从训练数据中得出的常见运动模式。

如上图所示,模型获取这些带噪声的锚点和来自 LLM 的上下文 (\(E^{pred}_T\)) 并进行“去噪”以找到正确的路径。因为锚点已经很接近有效轨迹,模型在推理过程中只需要 两步去噪 。 这使得系统能够在服务器上以 10 FPS (每秒帧数) 运行,这对于实时跟随来说已经足够了。
输出不仅仅是一条路径;它预测多条潜在轨迹并对它们进行评分。最终输出是基于最高分选择的:

模型通过优化组合损失函数进行训练,该函数同时关注轨迹的准确性 (MSE) 和分类评分 (BCE):

为大脑提供燃料: EVT-Bench 数据集
复杂的模型需要复杂的数据。现有的数据集要么太小,要么缺乏语言描述,或者没有现实的人群动态。研究人员建立了他们自己的基准: EVT-Bench 。
他们利用 Habitat 模拟器创建了一个大规模训练集。他们不只是把随机的人体模型扔进房间;他们创建了一个复杂的流程:
- 100+ 自定义化身: 使用具有多样化服装和纹理的 SMPL-X 模型。
- 自然运动: 化身以逼真的类似人类的步行速度 (1.0 - 1.5 m/s) 移动,并使用避障算法 (ORCA) ,这样他们就不会穿过墙壁或彼此。
- 多样化场景:
- *单目标跟随: * 基础跟随。
- *干扰下跟随: * “跟随穿蓝衬衫的男人” (忽略穿红衬衫的那个) 。
- *模糊跟随: * “跟随你看到的第一个人。”

为了确保模型既能识别物体也能跟随物体,他们将这些跟随数据与开放世界识别数据 (VQA 样本) 混合在一起。这种组合——85.5万个跟随样本和85.5万个识别样本——至关重要。如他们的消融研究 (见下文) 所示,当使用 1:1 的跟随与识别数据比例平衡时,性能达到峰值。

实验结果
它真的有效吗?研究人员在仿真环境和现实世界中都测试了 TrackVLA。
仿真基准测试
在 Gym-UnrealCV 基准测试中,TrackVLA 以 零样本 (zero-shot) 方式取得了最先进 (SOTA) 的结果。这意味着它是在从未见过的环境中进行评估的。
- 单目标: 它在整个剧集中成功跟随目标。
- 干扰物: 在从外观相似的人中识别正确目标方面,它显著优于以前的方法 (如 AD-VAT 和标准 VLA 模型) 。
- 未见过的物体: 尽管主要是在人类数据上训练的,它甚至可以跟随动物 (马、狗、羊) ,证明了它的视觉泛化能力。

- (注: 虽然该模型在人类身上表现出色,但此处展示的对动物的泛化能力凸显了底层视觉编码器的鲁棒性。) *
真实世界部署
仿真是安全的;真实世界则是一团糟。团队将 TrackVLA 部署在配备 RealSense 相机的宇树 Go2 四足机器人上。计算通过 Wi-Fi 卸载到配备 RTX 4090 GPU 的服务器上。

结果在视觉上令人印象深刻。机器人在以下场景成功跟随了用户:
- 杂乱环境: 树木遮挡视线的森林。
- 低照度: 光线昏暗的房间。
- 追逐-躲避: 追逐一个跑开的目标。

也许最具说明性的比较是针对商用跟随无人机 (DJI Flip) 。在“简单”场景 (开阔场地) 中,两者都达到了 100% 的成功率。然而,在“困难”场景 (快速移动、严重遮挡) 中,商用无人机的成功率降至 50% , 而 TrackVLA 保持在 70% 。
下方的可视化凸显了一个案例,其中商用无人机 (UVA 视角) 丢失了目标,而 TrackVLA 保持了轨迹锁定。

意义何在
TrackVLA 代表了具身智能向前迈出的重要一步。通过将 识别 (语言/视觉) 和 规划 (动作/扩散) 统一到一个单一模型中,它消除了模块化系统中“传声筒”效应。
给学生和研究人员的关键要点是:
- 架构协同: 对 VQA 和运动使用相同的 token,使模型能够“理解”它正在跟随什么。
- 高效扩散: 如果使用智能锚点,就不需要数百步的扩散。这使得生成式策略在实时机器人技术中变得可行。
- 数据多样性: 混合识别数据集和跟随数据集对于鲁棒的性能至关重要。
随着机器人走出工厂,进入我们的家庭和街道,能够在不被人群或阴影困扰的情况下鲁棒地跟随我们并与我们互动,将是有用的具身智能的决定性特征。TrackVLA 向我们展示了一条通往这一目标的充满希望的道路。
](https://deep-paper.org/en/paper/2505.23189/images/cover.png)