引言

当你伸手去拿咖啡杯时，你并不会显式地计算手肘和肩膀关节的逆运动学。相反，你很可能是在脑海中预想了一个结果——你的手抓住了杯柄——然后你的身体凭直觉就知道如何调整手臂来匹配那个心理图像。这种视觉与身体感知之间存在着强烈的感官耦合。

然而，在机器人技术中，这个过程通常要僵化得多。传统的机器人操作严重依赖动作标注数据 (action-labeled data) 。这意味着人类必须费力地遥操作机器人来演示任务，记录每一个关节角度和速度。这种方法虽然有效，但成本高昂、速度缓慢且难以扩展。如果我们想要通用的机器人，我们不可能手动教会它们每一个可能的动作。

GVF-TAPE (Generative Visual Foresight with Task-Agnostic Pose Estimation，即“结合任务无关姿态估计的生成式视觉预见”) 应运而生。这个由南方科技大学及其合作者提出的新框架提供了一个迷人的替代方案。GVF-TAPE 不再依赖昂贵的动作标签，而是教机器人“想象”任务成功的视频，然后使用一个独立的通用系统来计算其手臂需要处于什么位置才能让该视频成为现实。

图 1: GVF-TAPE 的高层示意图。给定单一 RGB 观测和任务描述，GVF-TAPE 通过生成式预见模型预测未来的 RGB-D 帧。随后，一个解耦的姿态估计器提取末端执行器的姿态，从而在无需动作标签的情况下实现闭环操作。

如图 1 所示，该系统接收当前图像和文本指令 (例如，“拿起蓝色的碗”) ，生成未来的视频，并提取执行任务所需的机器人姿态——所有这些都不需要专家的动作演示数据。

核心问题: 数据瓶颈

要理解 GVF-TAPE 的重要性，我们需要看看模仿学习 (Imitation Learning, IL) 的现状。大多数最先进的方法，如机器人 Transformer (RT-1, RT-2) ，训练的是“视觉-语言-动作” (Vision-Language-Action, VLA) 模型。这些模型接收图像和文本作为输入，直接输出电机指令。

局限性在哪里? 数据。 收集视频数据很容易 (YouTube 上到处都是) ，但收集机器人动作数据 (与视频对齐的本体感觉数据) 很难。你需要物理机器人和人类操作员。

研究人员试图通过使用视频预测模型来绕过这个问题。如果机器人能预测视频应该是什么样子，也许它就能推断出动作。然而，以前的尝试通常需要训练一个“逆动力学模型 (Inverse Dynamics Model) ”来将预测的像素映射回动作。矛盾的是，训练那个逆模型仍然通常需要动作标注数据。

GVF-TAPE 打破了这个循环。它将“做什么” (视觉预见) 与“怎么动” (姿态估计) 解耦，完全消除了对特定任务动作标签的需求。

GVF-TAPE 框架

该框架在一个闭环中运行，这意味着它不断地重新评估周围环境并更新其计划。该过程包括两个不同的阶段:

生成式视觉预见 (Generative Visual Foresight) : 一个视频模型根据当前视图和文本命令预测未来的 RGB-D (彩色+深度) 帧。
任务无关的姿态估计 (Task-Agnostic Pose Estimation) : 一个独立的模型观察这些“想象”出来的帧，并计算机器人末端执行器的 6-DoF (六自由度) 姿态。

图 2: 框架概览。GVF-TAPE 首先根据当前 RGB 观测和任务描述生成未来的 RGB-D 视频。然后，一个基于 Transformer 的姿态估计模型从每个预测帧中提取末端执行器姿态，并将其发送给底层控制器执行。完成预测轨迹后，系统接收新的观测并在闭环方式中重复该过程。

图 2 展示了这个流程。机器人想象未来，提取它自己在那个未来的手部坐标，然后使用标准的底层控制器移动到那里。

第一部分: 文本条件的视觉预见

第一个组件是“规划器”。它不输出坐标，而是输出像素。具体来说，它预测一系列未来的帧。

作者使用了 Rectified Flow 模型，而不是标准的扩散 (Diffusion) 模型。虽然扩散模型很强大，但采样速度通常很慢，这对于实时机器人技术来说是不利的。Rectified Flow 通过对变换速度建模，将噪声序列转换为清晰的视频预测。

流轨迹的核心方程为:

Rectified Flow 轨迹方程

这里，\(x^t\) 代表纯噪声 (\(x^1\)) 和清晰视频 (\(x^0\)) 之间的插值。模型学习一个速度场 \(v_\theta\) 来预测从噪声到数据的直线路径。训练目标是最小化预测速度与通向清晰视频的实际方向之间的差异:

视觉预见模型的损失函数

这种方法允许系统在极少的推理步骤 (少至 3 步) 内生成高质量的视频计划，使其在实时循环中变得可行。

关键创新: 与许多仅输出 RGB 的视频模型不同，GVF-TAPE 预测 RGB-D (彩色+深度) 。它是通过在训练期间使用预训练的深度估计器 (如 Video Depth Anything) 来隐式地做到这一点的。这种深度信息对于下一步至关重要: 理解 3D 空间。

第二部分: 任务无关的姿态估计

一旦机器人“梦到”了它拿起杯子的视频，它就需要将这些像素转化为坐标。这就是任务无关的姿态估计器 。

为什么是“任务无关”？因为这个模型不知道“杯子”或“盘子”。它只关心一件事: 机器人的夹爪在哪里?

基于随机探索的训练

这个模块的妙处在于它的训练数据。研究人员没有使用人类。他们只是让机器人在工作空间中随机挥动手臂。他们记录了相机画面 (RGB) 、深度和机器人已知的本体感觉 (手臂实际在哪里) 。

这就创建了一个“图像 \(\rightarrow\) 姿态”对的数据集。由于机器人是自己生成这些数据的，因此实际上是无限且免费收集的。

架构: 融合 RGB 和深度

该模型使用了 Transformer 架构。它使用 Vision Transformers (ViT) 分别处理 RGB 图像和深度图，然后使用交叉注意力机制 (Cross-Attention mechanism) 将它们融合。

交叉注意力方程

在这个方程中，查询 (Query, \(Q\)) 来自深度特征 (\(d_{cls}\)) ，而键 (Keys, \(K\)) 和值 (Values, \(V\)) 来自 RGB 特征 (\(r_{tok}\)) 。这有效地强制模型使用深度信息来对视觉特征进行语境化，从而产生包含丰富 3D 空间感知的融合表示 (\(f_{fused}\)) 。

最后，模型使用 Smooth L1 损失来最小化预测姿态与实际姿态之间的差异:

姿态估计的损失函数

实验结果

研究人员在 LIBERO 仿真基准测试和真实世界场景中对 GVF-TAPE 进行了评估。

仿真基准测试 (LIBERO)

在仿真中，GVF-TAPE 与几种最先进的方法进行了比较。其中一些基线 (如 ATM 和 UniPi) 使用动作标注数据，而 GVF-TAPE 不使用任何动作数据。

表 1: 在三个 LIBERO 评估套件上与最先进方法的性能比较。报告了三个随机种子的成功率 (平均值 ± 标准差) 。GVF-TAPE 在三个套件中的两个上取得了最高性能，并且总体平均水平比第二名高出 11.56%。

如表 1 所示，GVF-TAPE 显著优于 R3M-finetune 和 VPT 等方法。更令人印象深刻的是，它在 Spatial (空间) 和 Object (物体) 套件中击败了 ATM (使用动作数据) 。它在 Goal (目标) 套件中略显吃力，作者将其归因于遮挡问题，即夹爪挡住了相机视野——这是单视角视觉反馈的一个已知局限。

预训练的重要性

机器人学习中的一个主要问题是数据效率。我们需要多少数据？研究人员发现，在大型视频数据集 (如 LIBERO-90) 上预训练视觉预见模型能显著提升性能。

图 4: 我们的方法在有无预训练情况下的性能。仅使用 20% 的视频数据，我们的方法就与之前的 SOTA (ATM) 持平；在 LIBERO-90 上进行预训练将性能提升了 9.2%，超过 ATM 5.43%。

图 4 强调了即使仅有 20% 的目标任务数据，GVF-TAPE (在预训练后) 也能超越完全训练的基线。

真实世界性能与鲁棒性

真实世界的实验是终极考验。实验设置包括一个 ARX-5 机械臂和一个 Intel RealSense 相机。任务包括拿起碗、把辣椒放入篮子，甚至折叠布料。

图 6: (a) 真实世界设置。我们使用配备固定侧视 Intel RealSense D435i 相机的 ARX-5 机械臂。评估环境包括动态接触、可变形物体、背景杂乱和变化的光照条件。(b) 人类视频预训练的效果。在人类手部操作视频上进行预训练显著减少了幻觉并提高了预测稳定性。

可变形物体

最令人印象深刻的演示之一涉及可变形物体。机器人通常很难处理像布料这样的柔软物品，因为它们的形状变化不可预测。

图 22: 真实世界任务“将抹布放入垃圾桶”的评估展示。第一行和第二行分别显示生成的 RGB 和深度帧；第三行显示真实世界环境。

在图 22 中，我们看到机器人成功抓起抹布并将其放入桶中。因为系统是在“视频空间”中进行规划的，它可以可视化抹布的变形并相应地引导夹爪，前提是姿态估计器能够跟踪末端执行器。

故障恢复

闭环视觉规划的一个独特优势是纠正错误的能力。如果机器人抓空了，下一个“想象”的视频可能会显示物体仍然在桌子上，从而提示机器人再次尝试。

图 10: 通过多次重规划成功抓取纸巾的评估环境展示。第一行和第二行分别显示生成的 RGB 和深度帧；第三行显示真实世界环境。机械臂在第一次尝试中未能抓出纸巾；作为规划器的视频生成模型在这个过程中注意到纸巾没有被抓住，因此新采样的图像仍将指示机器人去抓取，从而导致最终的成功。

图 10 完美地展示了这一点。机器人试图抓取纸巾但失败了。视觉预见模型看到纸巾还在盒子里，于是生成了一个新的序列来再次抓取它，最终在第二次尝试中成功。

设计选择的重要性: 深度与扩散

论文包含了一些有趣的消融研究，证明了其架构的合理性。

1. 为什么要 RGB-D (深度) ? 机器人真的需要深度感知吗，还是说 2D 图像就足够了？结果很明确。

图 12: 没有使用 Video-Depth-Anything 的系统评估展示，由于有偏差的空间姿态估计导致无法打开抽屉。第一行显示生成的 RGB 帧；第二行显示仿真环境。

图 11: 使用 Video-Depth-Anything 的系统评估展示，成功打开抽屉。第一行和第二行分别显示生成的 RGB 和深度帧；第三行显示仿真环境。

比较图 12 (无深度) 和图 11 (有深度) ，我们看到如果没有深度信息，机器人会遭遇“有偏差的空间姿态估计”。它会误以为把手比实际距离更近或更远，导致抓空。有了深度信息，交叉注意力机制能完美地对齐夹爪。

2. 为什么用 Rectified Flow? 作者比较了 Rectified Flow 与标准扩散模型 (DDIM) 。

图 5: 预训练和模型选择极大地影响视频生成质量和效率。(a) 在不同的本体感觉数据比例下，预训练模型始终优于从头开始训练的模型。(b) 虽然扩散模型随着采样步骤的增加而改进，但它会带来高昂的推理成本；Rectified Flow 仅需三步即可获得强大的结果，这是我们设计选择的动力。

图 5(b) 显示，Rectified Flow 仅需 3 个采样步骤即可实现高结构相似性 (SSIM) ，而 DDIM (扩散) 需要更多步骤才能达到相当的质量。在机器人等待下一个命令的实时控制循环中，这些毫秒至关重要。

局限性与挑战

尽管取得了成功，GVF-TAPE 并非完美无缺。依赖单一相机视角会产生遮挡问题。如果机器人的手臂挡住了相机对物体的视野，姿态估计器就会失去夹爪相对于目标的追踪。

图 9: LIBERO 中的挑战性场景。左边两幅图展示了 LIVING-ROOM-SCENE-5 中的任务，其中机器人的末端执行器移出了相机的视野，导致姿态估计不可靠。右边两幅图说明了固定侧视相机视野中夹爪可见性有限，这影响了 LIBERO-Goal 中精细任务的准确性。

如图 3 所示 (注: 在图片描述中引用为图 9) ，当末端执行器离开画面或挡住物体时，会导致失败。此外，该系统目前缺乏触觉反馈，这限制了其执行需要精确施力任务的能力。

结论

GVF-TAPE 代表了向可扩展机器人学习迈出的重要一步。通过将视觉规划与执行解耦并消除对动作标签的需求，它开启了在海量视频交互数据集 (甚至可能是人类视频) 上训练机器人的大门，而无需遥操作的瓶颈。

生成式视觉预见 (想象未来) 与任务无关的姿态估计 (知道你在那个未来中的位置) 的结合，使得机器人能够仅凭“眼睛”和对自己身体的一般理解来执行复杂的动态任务。随着视频生成模型在速度和保真度上的不断提升，像这样的框架可能会成为机器人与非结构化世界交互的标准。

引言#

核心问题: 数据瓶颈#

GVF-TAPE 框架#

第一部分: 文本条件的视觉预见#

第二部分: 任务无关的姿态估计#

基于随机探索的训练#

架构: 融合 RGB 和深度#

实验结果#

仿真基准测试 (LIBERO)#

预训练的重要性#

真实世界性能与鲁棒性#

可变形物体#

故障恢复#

设计选择的重要性: 深度与扩散#

局限性与挑战#

结论#

引言