通用机器人的梦想是造出一台能走进一间从未见过的凌乱厨房,然后直接“洗碗”或“收纳杂货”的机器,而不需要针对那个特定的房间进行数周的专门训练。然而,机器人学习的现实往往要脆弱得多。大多数机器人是通过 行为克隆 (Behavior Cloning, BC) 训练的,即它们一丝不苟地模仿收集到的机器人动作数据集。问题在于?收集机器人数据既昂贵、缓慢,又充满危险。
相反,生成式 AI 的世界正因数据而爆发。我们拥有基于数百万网络视频训练的模型,这些模型理解人类如何移动、物体如何交互以及物理规律通常如何运作。
在这篇文章中,我们将深入探讨 Gen2Act , 这是一篇引人入胜的论文,试图弥合这一差距。研究人员提出了一个新颖的想法: 与其收集更多的机器人数据,如果利用生成式视频模型在并不存在的新场景中*幻觉化生成 (hallucinate) *人类执行任务的过程,然后教机器人去模仿这个幻觉,会怎么样?

核心问题: 数据瓶颈
要理解 Gen2Act 的重要性,我们首先需要了解现代机器人技术的瓶颈。
像 RT-1 (Robotics Transformer) 这样最先进的模型能力惊人,但它们极度依赖数据 (data-hungry) 。要教机器人打开某种特定类型的抽屉,你通常需要向它展示数千个机器人打开该抽屉的例子。如果你随后让机器人面对一个它从未见过的抽屉,或者要求它做一个没练习过的动作 (比如“擦拭”而不是“抓取”) ,策略通常会失效。
研究人员主要尝试了两种方法来解决这个问题:
- 扩展机器人数据: 仅仅收集更多数据。这是一种暴力方法,但由于实用性问题会遇到瓶颈。我们不可能记录机器人与世间万物的每一次互动。
- 利用网络数据: 在 ImageNet 或 YouTube 视频上预训练视觉编码器。这有助于机器人“看”得更清楚,但这并不一定能教会机器人如何移动。
Gen2Act 选择了第三条路。它假设我们不需要向机器人展示如何做一项新任务。我们只需要生成一个人类做这件事的视频,并将其用作动态说明书。
Gen2Act 流程
Gen2Act 框架基于一个简单但强大的前提: 将语言条件下的操作任务转化为视频生成问题。
该过程分为两个明显的阶段:
- 想象阶段 (The Imagination) : 生成人类执行任务的视频。
- 转化阶段 (The Translation) : 将该人类视频转化为机器人动作。
让我们分解一下架构。

第一阶段: 零样本人类视频生成
请看上图 2 的左侧。流程始于当前场景的静态图像 (\(I_0\)) 和文本指令 (\(G\)),例如“将椅子向右拖动”。
系统将这些输入送入一个预训练的视频生成模型 (在本文中,他们使用的是类似于 VideoPoet 的模型) 。关键在于,这个模型没有在机器人数据上进行微调。它是一个在网络数据上训练的现成生成模型。
该模型生成一个“人类视频” (\(V_g\))。它幻化出一只人类的手进入场景并执行所要求的任务。
为什么要生成人类视频而不是机器人视频?
- 数据可用性: 视频生成模型是在 YouTube/网络数据上训练的,那里充满了人类,而不是机器人。它们在零样本 (zero-shot) 情况下生成逼真人类动作的能力要强得多。
- 泛化能力: 因为视频模型已经看过数百万个关于人们打开罐子、擦桌子和移动椅子的片段,所以它比在有限数据集上训练的机器人策略能更好地泛化到新物体和新场景。
如下面的可视化所示,这些生成结果具有惊人的连贯性。即使模型从未见过这个特定的厨房或这个特定的碗,它也理解“拿香蕉”或“擦水槽”所需的物理和语义。

第二阶段: 转化模型 (闭环策略)
一旦我们有了这个人类视频,我们就拥有了一个“视觉规划”。现在,机器人需要去执行它。这就是转化模型发挥作用的地方 (图 2 右侧) 。
这是一个学习到的策略 (\(\pi_\theta\)),它接受两个输入:
- 生成的人类视频 (\(V_g\))。
- 机器人的当前和过去观测 (\(I_{t-k:t}\))。
该策略需要观看人类视频以理解做什么以及如何移动,并观察其自身的摄像头反馈以闭合回路,从而实际移动其手臂。
秘诀: 点轨迹预测 (Point Track Prediction)
这是 Gen2Act 最具技术性和创新性的部分。仅仅将人类视频的像素数据输入机器人策略通常是不够的。存在“域差异”——人手看起来一点也不像机器人的夹爪。此外,原始像素可能含有噪声。
为了弥合这一差距,作者利用了点轨迹 (Point Tracks) 。
点轨迹仅仅是特定像素随时间变化的轨迹。如果你追踪海绵在桌子上被擦拭时的一个点,无论是由人手还是夹爪握着,该轨迹都代表了动作的本质。
在训练期间,研究人员使用现成的追踪器 (如 TAP-Vid 或 CoTracker) 从以下来源提取点轨迹:
- 生成的人类视频。
- 真实的机器人视频 (来自训练集) 。
然后,他们添加了一个辅助损失函数 , 称为轨迹预测损失 (Track Prediction Loss) 。
其工作原理是: 在神经网络内部,存在“潜在 Token” (视频的压缩表示) 。网络被迫仅使用这些 Token 来预测场景中随机点的移动。
如果网络能够准确预测视频中点的移动,这就证明网络“理解”了任务的运动动力学。这迫使视觉编码器 (AI 中处理图像的部分) 专注于运动和几何结构 , 而不仅仅是静态纹理。
这种机制允许机器人从人类视频中提取动作的意图,并将其映射到自身的物理现实中。
部署工作流
在现实世界中部署 (推理) 时,流程非常直接:
- 机器人观察场景。
- 机器人接收文本指令。
- Gen2Act 生成一个幻影人类执行任务的视频。
- 策略同时观看该视频和实时摄像头反馈。
- 策略输出电机指令。
下图完美展示了这种转化。上一行显示了“幻觉化”的人类视频,下一行显示了机器人忠实地执行相同的动作规划。

实验与结果
研究人员将 Gen2Act 与强大的基线进行了对比测试,包括 RT-1 (标准的语言条件策略) 和 Vid2Robot (基于真实人类视频的策略) 。
他们在不同难度级别上评估了系统:
- 轻度泛化 (Mild Generalization, MG): 场景不同 (光照、背景) ,但物体是已知的。
- 标准泛化 (Standard Generalization, G): 未见过的物体实例 (例如,不同颜色的杯子) 。
- 物体类型泛化 (Object-Type Generalization, OTG): 机器人从未练习过的全新类型的物体。
- 动作类型泛化 (Motion-Type Generalization, MTG): 新动作 (例如,机器人只练习过抓取,但现在必须擦拭) 。
泛化差距
结果 (表 I) 令人震惊。

- RT-1 在新物体 (OTG 成功率为 0%) 和新动作 (MTG 为 0%) 上表现非常挣扎。它完全依赖于死记硬背训练数据。
- Gen2Act 在未见过的物体类型上达到了 58% 的成功率,在未见过的动作上达到了 30% 。
这证实了假设: 通过利用视频生成模型中包含的“世界知识”,机器人可以处理其训练数据中完全缺失的场景。视频生成器充当了桥梁,将未知场景转化为机器人可以理解的视觉规划。
长程任务链 (Long-Horizon Chaining)
Gen2Act 最酷的应用之一是任务链。现实世界中的家务不仅仅是“捡起苹果”。它们是复杂的序列: “打开抽屉,把苹果放进去,关上抽屉。”
作者使用大型语言模型 (LLM) 将复杂的命令分解为步骤。然后,他们按顺序运行 Gen2Act。至关重要的是,他们使用前一步骤的最后一帧作为下一步骤视频生成的初始帧。

例如,在上面展示的“清理桌子”任务中:
- 步骤 1: 生成拿取纸巾的视频 -> 执行。
- 步骤 2: 拍摄新照片。生成按压消毒液的视频 -> 执行。
- 步骤 3: 拍摄新照片。生成擦拭的视频 -> 执行。
这些链式任务的成功率很有希望,尽管随着链条变长,成功率自然会下降 (因为步骤 1 中的错误会破坏步骤 2) 。

联合训练带来的提升
作者还发现,Gen2Act 不仅仅是一个零样本工具;它也是一种增强训练的好方法。通过添加少量多样化的人类遥操作演示数据集 (仅约 400 条轨迹) 并对模型进行联合训练 (Co-Training),他们在所有指标上都获得了更好的性能。

什么时候会失败?
没有完美的机器人系统,Gen2Act 有一个非常具体的失败模式: 垃圾进,垃圾出 (Garbage In, Garbage Out)。
机器人完全依赖生成的视频来知道该做什么。如果生成模型幻觉出物理上不可能的事情,或者在视频中未能正确地与物体交互,机器人就注定会失败。

在图 6 中,我们看到了这样的例子:
- 前几行: 视频生成有缺陷 (手错过了物体或移动得很奇怪) 。因此,机器人失败了。
- 最后一行: 视频生成看起来没问题,但机器人未能准确转化抓取动作。
这凸显了一个依赖性: 只有当视频生成模型 (如 Sora、Gen-3 或 VideoPoet) 变得更好时,Gen2Act 才会变得更好。
结论: 具身智能的未来
Gen2Act 代表了我们对机器人学习思考方式的重大转变。它不再问“我们如何收集更多的机器人数据?”,而是问“我们如何转化我们已经拥有的大量人类数据?”
通过将视频生成视为中间推理步骤——一种让机器人在行动前“想象”解决方案的方式——我们可以解锁暴力训练根本无法实现的泛化能力。
这项工作的主要收获是:
- 生成式先验 (Generative Priors): 预训练的视频模型包含丰富的物理和语义知识,机器人可以零样本利用这些知识。
- 动作轨迹很重要: 通过点轨迹隐式学习动作是弥合人类与机器人之间视觉差距的有效途径。
- 可扩展性: 这种方法允许机器人执行从未见过的任务,只要视频模型能够想象出这些任务。
随着生成式视频模型在真实感和一致性方面的不断提高,像 Gen2Act 这样的框架预示着这样一个未来: 机器人只需先“想象”一下,就能学会执行几乎任何家务任务。
](https://deep-paper.org/en/paper/2409.16283/images/cover.png)