教机器人运动: 从第一人称视频中挖掘 3D 轨迹

想象一下让机器人“把柜台上的刀拿起来”。对人类来说,这轻而易举。但对机器人来说,这需要对 3D 空间、物体可供性 (在哪里抓取) 以及安全执行动作所需的特定运动轨迹有复杂的理解。

多年来,教授机器人这些技能的黄金标准一直是模仿学习 (Imitation Learning) ——向机器人展示人类完成任务的示例。然而,这种方法有一个巨大的瓶颈: 数据稀缺。收集高质量的 3D 数据通常需要昂贵的动作捕捉 (MoCap) 实验室、数据手套和繁琐的设置。我们根本无法将其规模化以覆盖现实世界中的每一个物体和动作。

但是,如果我们所需的数据已经存在了呢?如果我们能通过让机器人“观看”人们做家务的 YouTube 视频来教它们呢?

在京都大学及其合作伙伴最近发表的一篇题为 “Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision” (在第一人称视觉中根据动作描述生成 6DoF 物体操作轨迹) 的论文中,研究人员提出了一个新的框架来实现这一目标。他们展示了一种从 2D 第一人称 (egocentric) 视频中自动提取 3D 物体操作轨迹的方法,并利用这些数据训练模型,使其能够根据文本描述生成复杂的运动路径。

在这篇文章中,我们将深入探讨他们如何将平面视频转化为 3D 机器人知识,以及这对具身智能的未来意味着什么。


挑战: 从像素到姿态

研究人员解决的核心问题是 6DoF 物体操作轨迹生成

让我们分解一下这个概念:

  • 6DoF (六自由度) : 为了完整描述物体在空间中的位置,你需要 3 个位置坐标 (\(x, y, z\)) 和 3 个旋转参数 (横滚 roll、俯仰 pitch、偏航 yaw) 。
  • 轨迹 (Trajectory) : 仅仅知道物体的起点和终点是不够的;机器人需要中间的移动路径。
  • 动作描述 (Action Description) : 输入是自然语言指令,例如“把水倒进杯子里”。

目标如下图所示。模型接收初始状态的图像和文本描述,它必须“想象”出物体应该采取的 3D 姿态序列。

图 1. 6DoF 物体操作轨迹。该任务旨在根据动作描述以及包含视觉输入和物体初始姿态的初始状态,生成一系列 6DoF 物体姿态。

主要的障碍在于我们没有足够的标记数据,即视频的每一帧都配有完美的 3D 坐标。研究人员的解决方案是什么? 自动标注。 他们利用了海量的 Ego-Exo4D 数据集——包含人们烹饪、修理自行车和进行日常活动的第一人称视频集合——并构建了一个 AI 流程,从 2D 镜头中“提取”出 3D 真值。


核心方法: 从视频中挖掘轨迹

研究人员开发了一套复杂的四阶段流程,将原始视频片段转化为干净的、可用于训练的 3D 轨迹。这个流程是全自动的,依赖于一系列最先进的视觉模型。

步骤 1: 时序动作定位 (寻找“什么”和“何时”)

首先,系统需要知道发生了什么。研究人员使用 GPT-4 作为推理引擎。他们将视频帧和相关的文本描述 (例如,“切红辣椒”) 输入到 GPT-4 中。

  • 动作跨度: GPT-4 准确识别包含动作开始和结束的帧 (\(t_{start}\) 到 \(t_{end}\)) 。
  • 活动物体: 它识别被操作的物体 (例如,“刀”) ,并检查它是否为刚性物体 (布料等可变形物体暂时被排除) 。

一旦识别出物体,他们就使用 Grounded SAM (Segment Anything Model) 来创建分割掩码,将物体像素从背景中分离出来。

步骤 2: 位置序列提取 (寻找“在哪里”)

知道哪些像素对应物体很好,但我们需要它的 3D 位置。

  • 深度估计: 他们使用名为 Depth Anything 的模型来估计每个像素距离相机的距离。
  • 3D 追踪: 他们采用 SpaTracker , 这是一个密集点追踪器。它在帧之间追踪物体上的特定点,将 2D 像素运动与深度图结合起来,创建移动的物体 3D 点云。

步骤 3: 轨迹投影 (稳定视角)

这对于第一人称视频来说是关键的一步。在第一人称镜头中,相机 (人的头) 在不断移动。如果用户向左转头,即使物体是静止的,看起来也像是在向右移动。

为了解决这个问题,系统使用点云配准计算帧之间的相机运动。它本质上是将世界坐标系“冻结”在第一帧 (\(f_{start}\)) 。通过减去相机的运动,他们分离出了物体相对于世界的真实运动。

2D 像素 \((i, j)\) 和 3D 点 \((x, y, z)\) 之间的关系由相机内参 \(K\) 和深度 \(d_{ij}\) 定义:

\[ \left[ \begin{array} { l } { { x } } \\ { { y } } \\ { { z } } \end{array} \right] = d _ { i j } K ^ { - 1 } \left[ \begin{array} { l } { { i } } \\ { { j } } \\ { { 1 } } \end{array} \right] , \]

步骤 4: 旋转序列提取 (寻找方向)

最后,他们需要旋转信息。他们提取起始时刻的物体点云,并将其与随后的每一步的点云进行比较。使用 奇异值分解 (SVD) , 他们在数学上计算出最能使物体形状从一帧对齐到下一帧的旋转矩阵。

结果是一个干净的 6DoF 姿态序列——他们将这个数据集称为 EgoTraj , 包含超过 28,000 条轨迹。

图 2. 从第一人称视频中提取轨迹。(1) 时序动作定位,(2) 位置序列提取,(3) 轨迹投影,和 (4) 旋转序列提取这四个步骤。


生成模型: 运动即语言

随着 EgoTraj 数据集的创建,研究人员进入了第二阶段: 训练一个模型从零开始生成这些轨迹。

他们采用了 视觉-语言模型 (VLM) 方法。这里的洞察是将 3D 运动视为一种语言。

  1. Token 化 (Tokenization) : 他们将轨迹的连续值 (x, y, z, roll, pitch, yaw) 离散化为 256 个不同的“区间 (bins) ”。每个区间变成一个 Token,就像词汇表中的一个单词。
  2. 下一个 Token 预测: 任务变成了给定图像特征和文本提示,预测下一个姿态 Token。

架构

他们测试了几种主干架构,包括 BLIP-2PointLLM

  • 输入: 模型接收场景的 RGB 图像、深度图或点云,以及文本提示 (例如,“打开抽屉”) 。
  • 处理: 视觉编码器处理场景。然后语言模型 (LLM) 关注这些视觉特征和文本指令。
  • 输出: LLM 自回归地生成代表物体路径的 Token 序列。

图 3. 模型架构概览。我们的模型架构利用视觉和基于点云的语言模型作为主干,并通过结合用于轨迹 Token 化的扩展词汇表对其进行扩展。

这种架构非常强大,因为它利用了大型语言模型的“常识”推理能力,并将其应用于物理运动。


实验与关键结果

研究人员在 HOT3D 数据集上评估了他们的模型,这是一个具有 3D 追踪真值的高质量数据集。他们将基于 VLM 的方法与 Seq2Seq 模型和“不确定性感知状态空间 Transformer”(USST) 等传统方法进行了比较。

1. VLM 优于传统基线

结果表明,基于 VLM 的模型 (特别是 PointLLM 和 BLIP-2) 显著优于标准的 Seq2Seq 模型。

表 2. 3DoF 和 6DoF 物体操作轨迹生成的比较。

值得注意的是, PointLLM (使用点云作为输入) 在 3D 位置精度 (ADE/FDE) 方面取得了最好的结果。这凸显了对于 3D 操作任务,为模型提供显式的 3D 几何数据 (点云) 远优于仅提供平面 2D 图像。

2. “概率采样”的力量

机器人的一个困难在于,做某事通常不止一种正确的方法。你可以从把手或杯沿拿起杯子。 由于该模型基于 LLM,它是概率性的。通过使用核采样 (nucleus sampling) 等技术,模型可以针对同一个提示生成多种不同的有效轨迹。研究人员发现,仅生成 10 个样本并选择最好的一个,就能显著降低错误率。

3. 定性理解

也许最有趣的结果是定性的。模型不仅仅是死记硬背路径;它似乎理解了动词的语义

  • 当被要求 “Transfer” (转移) 一个勺子时,它会生成一个提升和移动的轨迹。
  • 当被要求用勺子 “Stir” (搅拌) 时,轨迹会停留在碗内并进行圆形/搅动的运动。

图 6. PointLLM [97] 在不同动作描述下的结果。生成结果通过 3D 边界框可视化。

4. 规模很重要

研究人员还分析了挖掘数据集的大小如何影响性能。正如预期的那样,存在明显的相关性: 更多的数据等于更好的物理表现。

图 5. PointLLM [97] 在不同数据集规模下的性能比较。

随着他们在更多的 EgoTraj 数据集上进行训练,错误率 (ADE/FDE) 持续下降。这验证了他们的自动提取流程——即使自动挖掘的数据略有噪声,其巨大的规模也提供了强大的学习信号。


结论与未来启示

这篇论文代表了迈向“通用”机器人的一大步。通过成功地自动化从无处不在的视频数据中提取 6DoF 轨迹,研究人员解锁了一个以前机器人学家无法获得的巨大训练素材源。

关键要点:

  1. 视频是一座金矿: 我们并不总是需要昂贵的实验室来教机器人。我们可以利用巧妙的 AI 流程从现有的视频档案中挖掘知识。
  2. 运动即语言: 将物理轨迹视为 Token 序列,使我们能够使用强大的 Transformer 和 LLM 来解决机器人控制问题。
  3. 几何结构很重要: 虽然 2D 视觉-语言模型很好,但显式摄取 3D 数据 (如点云) 的模型在操作任务上更胜一筹。

虽然目前的框架仅限于刚性物体 (对不起,叠衣服机器人!) ,但它设定了一个新的基线。随着像 SAM 和 Depth Anything 这样的计算机视觉模型不断改进,这种“挖掘”数据的质量只会越来越好,让我们更接近那些可以观看烹饪教程并立即开始和我们一起切菜的机器人。