超越 2D: 预测人类在 3D 空间交互的“位置”与“方式”
想象一下,厨房里有一个机器人助手在观察你。你正在泡茶。你刚烧好水。一个真正有用的助手不仅应该识别出你当前是“站立”状态,还应该预判在接下来的几秒钟内,你会走向橱柜,伸手去拿马克杯,然后走向冰箱拿牛奶。
要有效地做到这一点,AI 需要理解的世界不能仅仅是扁平的视频帧序列,而必须是一个持久的 3D 环境。它需要回答两个关键问题: 接下来你会去哪里 ?你将如何移动身体与那里的物体进行交互?
这就是研究论文 “FICTION: 4D Future Interaction Prediction from Video” 所解决的核心挑战。研究人员提出了一种新颖的方法,超越了传统的 2D 视频分析,在完整的 3D 场景背景下预测长期的人类行为。

问题: 计算机视觉的扁平世界
多年来,计算机视觉在“是什么 (What) ”方面表现出色。模型可以看一眼视频帧并告诉你“这是一一个人”或“他们拿着一个杯子”。最近,预测模型尝试猜测接下来会发生什么。然而,这些方法通常受到两个主要限制:
- 2D 陷阱: 大多数模型将世界视为一系列 2D 图像。它们忽略了房间持久的 3D 空间布局。如果摄像头从冰箱移开,2D 模型本质上就忘记了冰箱的存在。
- 短期记忆: 现有的姿态预测模型通常只能预测未来几秒钟的动作 (例如,延续行走的步伐) 。它们难以预测那些要在几分钟内展开的复杂、多步骤活动,如做饭或修自行车。
这篇论文的作者认为,人类的运动与环境密不可分。你不仅仅是在“伸手”;你是在向房间里特定坐标的特定物体伸手。因此,要预测未来,AI 必须理解 4D 语境——即 3D 空间加上时间维度。
走进 FICTION: 一种 4D 方法
研究人员推出了 FICTION (Future Interaction prediCTION,未来交互预测) ,这是一个旨在预测基于物理环境的交互的模型。
目标非常宏大。给定一段人类进行某项活动的视频,以及场景的 3D 表示,该模型必须预测:
- 位置 (Where) : 在下一个时间段 (最长 3 分钟) 内,人将与哪些物体进行交互。
- 方式 (How) : 在这些交互过程中,人将采取的具体 3D 身体姿态 (骨骼配置) 。
洞察: 情境为王
核心假设是,如果不考虑环境,就无法预测交互。如果一个人在泡茶,且饮水机是壁挂式的,他们会伸出手臂。如果是放在低层架子上的水壶,他们会弯腰。交互的“方式”是由“位置”决定的。
方法论
FICTION 的架构是多模态融合的典范。它不仅仅依赖一种数据;它综合了三种不同的信息流,在预测未来之前构建出对过去的全面图景。

1. 输入 (“观察”)
如上面的架构图 (图 2) 所示,该模型接收涵盖截止到时间 \(\tau_o\) 的观察期的三个输入:
- 视觉流: 使用大型预训练编码器 (EgoVLPv2) 提取的以自我为中心的视频 (第一人称视角) 特征。这提供了正在发生的事情的语义背景 (例如,“做饭”) 。
- 姿态流: 人体运动序列,由 SMPL 参数表示。这捕捉了行动者的生物力学特征。
- 空间流: 场景的体素化 (3D 网格) 表示。这告诉模型物体相对于人的位置。
这些输入通过特定的“映射器 (Mappers) ”转化为一种通用语言,然后输入到多模态 Transformer 编码器中。该编码器学习当前世界状态和活动的丰富表示 (\(\bar{\mathbf{r}}\))。
2. 预测“位置” (交互位置)
模型的第一项输出是位置预测。研究人员将其视为 3D 体素网格上的分类问题。模型学习一个函数 \(\mathcal{F}_o\),输出一组将发生交互的 3D 点。

在这个公式中:
- \(\mathcal{V}\) 是视频观察。
- \(\mathcal{P}\) 是姿态/位置数据。
- 输出是一组坐标 \(\mathbf{x}_{\tau_k}\),人将在未来的某个时间点在此处与物体 \(\mathcal{O}\) 交互。
本质上,模型查看编码的历史信息,并在 3D 网格中“点亮”它认为人在接下来 3 分钟内会触摸物体的体素。
3. 预测“方式” (姿态分布)
预测身体姿态比较棘手,因为它是随机的 (stochastic) 。 如果你要打开橱柜,你可能用左手也可能用右手;你可能前倾也可能后退。未来并不存在唯一“正确”的姿态。
为了处理这个问题,FICTION 使用了条件变分自编码器 (CVAE) 。 它预测的是可能姿态的分布,而不是单个确定性的姿态。

在这里,函数 \(\mathcal{F}_p\) 接收历史信息 (\(\mathcal{V}, \mathcal{P}\)) 和上一步预测的特定未来位置 (\(\mathbf{x}_{\tau_k}\))。它输出一个概率分布 \(\mathbb{P}(\theta, t)\)。
在推理 (测试) 期间,模型可以从该分布中采样,生成与该特定物体交互的多种合理的身体姿态。
训练模型
模型使用组合损失进行训练,以确保形状和位置的准确性。训练目标是最小化预测的身体网格与数据集中记录的实际人体之间的差异。

损失函数包括:
- 表面损失 (\(P - \hat{P}\)): 衡量 SMPL 参数 (身体形状/旋转) 的误差。
- 关节损失 (\(J - \hat{J}\)): 衡量 3D 骨骼关节的物理距离误差。
- KL 散度: 确保学习到的分布是形式良好的 (CVAE 训练中的标准) 。
构建数据集
这篇论文的重要贡献之一是创建了训练数据本身。此前并不存在结合了长期视频、精确 3D 物体位置和人体姿态交互的数据集。
研究人员基于 Ego-Exo4D 数据集构建,该数据集提供了使用 Aria 眼镜 (提供高质量 SLAM/3D 数据) 捕捉的熟练人类活动。然而,原始视频并不能告诉你交互何时发生。
为了解决这个问题,他们使用了一个包含大语言模型 (LLM) 和几何学的巧妙流程:
- 3D 物体检测: 他们使用 Detic (一种物体检测器) 并将像素映射到 3D 点云,以找到诸如“炉子”或“冰箱”之类的物体。
- 姿态提取: 他们使用 WHAM (一种最先进的姿态估计器) 来获取人的 3D 骨骼。
- 交互识别: 他们使用 Llama-3 (一种 LLM) 读取视频旁白 (例如,“人拿起杯子”) ,并确定是否发生了物理接触。
- 几何验证: 他们将 LLM 的输出与几何信息进行交叉验证。只有当人的手物理上位于所述物体的 3D 边界框内时,才确认发生了交互。

这一严谨的过程产生了一个包含超过 100,000 个交互实例的数据集,涵盖烹饪、自行车修理和健康场景。
实验与结果
研究人员将 FICTION 与两类主要的基线进行了比较:
- 自回归模型: 预测“下一个 token”的 Transformer (像 GPT 但用于动作) 。这些模型擅长短序列,但在长时间跨度上往往会发生漂移。
- 视频转 3D 模型: 试图直接从视频推断 3D 深度而没有显式 3D 输入的模型。
定量成功
结果是决定性的。如下表 1 所示,FICTION 在所有指标上均优于所有基线。

数据中的关键结论:
- 位置预测 (左侧) : 在“烹饪”场景中,FICTION 实现了 21.0 的精确率-召回率 AUC,而分层基线 (HierVL) 为 11.2。性能几乎翻倍。
- 姿态预测 (右侧) : 误差指标 (MPJPE,以毫米为单位) 显著下降。对于烹饪场景,误差从约 473mm (4D-Humans) 降至 FICTION 的 229mm。
- 消融实验: 标记为“w/o video” (无视频) 、“w/o pose” (无姿态) 和“w/o env” (无环境) 的行揭示了一些有趣的现象。移除环境信息 (“w/o env”) 导致性能下降幅度最大。这证明了论文的核心假设: 如果不了解房间的布局,就无法预测人类的交互。
定性可视化
数字令人印象深刻,但可视化更能阐明为什么该模型效果更好。
在下面的示例 (图 4) 中,我们看到模型在预测厨房中的交互。

看看自行车修理的例子 (图片底行) 。模型观察到人正在处理车轮。它正确地预测到人最终会移动到自行车架旁重新安装车轮。自回归模型可能只会预测人继续将车轮保持在原地。FICTION 理解该程序意味着在 3D 空间中移动到不同的位置。
直接与基线进行比较 (下图 5) ,我们可以看到竞争对手是如何失败的。自回归模型 (绿色) 经常预测人漂浮在空荡的空间中或漂移到远处。视频转 3D 模型 (棕色) 虽然让人稍微有些着地感,但未能识别出正确的未来物体。FICTION (粉色) 正确地将幽灵化身放置在炉子或自行车架旁。

结论与启示
FICTION 论文代表了具身智能迈出的重要一步。通过弥合视频理解与 3D 空间推理之间的鸿沟,它使机器能够以更有益的方式预测人类需求。
其影响是巨大的:
- 辅助机器人: 机器人可以为你打开冰箱,因为它知道你在到达之前正往那里走。
- 智能家居: 系统可以根据预期的移动优化照明或电器。
- 协作 AI: 在自行车修理或手术等场景中,AI 智能体可以为程序的下一步准备工具,因为它确切知道该步骤将在物理空间的何处发生。
通过将世界视为一个 4D 空间——充满物体、深度和时间——FICTION 让我们更接近真正理解人类日常生活之舞的 AI。
](https://deep-paper.org/en/paper/2412.00932/images/cover.png)