如果你曾经试过把 GoPro 绑在头上进行烹饪或工作,你就知道拍出来的画面有多混乱。相机在晃动,你的双手遮挡了视线,物体在移动,环境状态也在不断变化 (洋葱变成了切碎的洋葱) 。对于计算机视觉系统来说,理解这种“自我中心” (第一视角) 的画面简直是一场噩梦。
传统的 3D 重建方法,如神经辐射场 (NeRFs) ,通常假设世界是一座雕像——刚性且静止不变。另一方面,视频理解模型或许能理解“切”这个动作,但它们对动作发生的 3D 空间毫无概念。
在这篇文章中,我们将深入探讨 DIV-FF (Dynamic Image-Video Feature Fields,动态图像-视频特征场) , 这是由萨拉戈萨大学的研究人员提出的一种新颖框架。这篇论文提出了一种弥合 3D 几何与语义视频理解之间鸿沟的方法。这是一个不仅能看到“厨房”,还能理解“切菜”发生在哪里、跟踪移动物体并将行动者与环境分离的系统。

核心问题: 静态假设与现实的冲突
要理解为什么 DIV-FF 必不可少,我们首先需要看看当前技术的局限性。
神经辐射场 (NeRFs) 彻底改变了 3D 计算机视觉。通过训练神经网络预测空间中点的颜色和密度,NeRFs 可以从新角度生成逼真的场景视图。最近,像 LERF (Language Embedded Radiance Fields,语言嵌入辐射场) 这样的方法在此基础上增加了语义层。它们将语言特征 (来自 CLIP 等模型) 嵌入到 3D 场中,允许你通过文本查询 3D 场景 (例如,“找到烤面包机”) 。
然而,LERF 和类似方法依赖于刚性场景假设 。 它们假设从第 1 帧到第 100 帧,唯一移动的东西是相机。
在自我中心视频中,这种假设瞬间就会瓦解:
- 行动者 (The Actor): 佩戴相机的用户的双手和身体不断进出画面。
- 动态物体 (Dynamic Objects): 工具被拿起,食物被移动,容器被打开。
- 交互 (Interaction): 语义不仅仅关于名词 (物体) ;它们还关于动词 (可供性/Affordances) 。切菜板的定义在于它支持“切”这一动作的能力。
如果你在烹饪视频上运行标准的 NeRF,移动的手和物体会产生“重影”伪影,语义理解也会崩溃,因为模型无法区分永久存在的台面和临时出现的蔬菜。
解决方案: DIV-FF
研究人员提出了 DIV-FF , 这是一个将场景分解为三个不同组件的框架: 持久环境 (Persistent Environment)、动态环境 (Dynamic Environment) 和 行动者 (Actor) 。 此外,它整合了两种不同类型的“语言”来理解世界: 图像-语言 (Image-Language) (用于详细的物体识别) 和 视频-语言 (Video-Language) (用于动作和可供性理解) 。
让我们以此来拆解其架构。

1. 三流几何结构 (The Triple-Stream Geometry)
如上图 2 所示,DIV-FF 并不使用单个神经网络来表示空间。相反,它使用三个并行流,每个流处理现实的一个特定部分:
- 持久环境网络 (静态): 该流对背景进行建模——墙壁、桌子、冰箱。它以观察位置和方向作为输入,并输出颜色和密度 (\(c^p, \sigma^p\))。
- 动态环境网络 (物体): 该流对独立移动的物体进行建模,例如被搅拌的碗或被拿起的刀。关键在于,该网络接受一个帧特定编码 (\(z_t^d\)) 作为输入。这个编码就像一个时间戳,告诉网络,“这是物体在时间 \(t\) 的状态”。它预测密度和颜色以及不确定性 (\(\beta\)),允许模型对模糊的移动部分保持较低的置信度。
- 行动者网络 (手/身体): 该流对相机佩戴者进行建模。由于行动者随着相机连续移动,该网络使用不同的帧特定编码 (\(z_t^a\)) 来捕捉手和手臂的复杂非刚性变形。
通过显式分离这三个流,即使双手不断在前方挥舞,系统也能重建干净的背景。
2. 图像-语言流 (CLIP + SAM)
第二个创新在于 DIV-FF 如何理解它看到的是什么。以前的方法 (如 LERF) 使用的是从图像块 (patches) 中提取的 CLIP (对比语言-图像预训练) 特征。图像块的问题在于它们很粗糙。一个图像块可能包含半只手和半个苹果,这会混淆语义嵌入。
DIV-FF 通过整合 Segment Anything Model (SAM) 改进了这一点。
- SAM 为训练图像中的物体生成精确的掩码。
- 模型提取掩码区域和边界框的 CLIP 描述符。
- 它将这些描述符的加权平均值分配给掩码内的所有像素。
这产生了像素对齐特征 (pixel-aligned features) 。 模型不再学习模糊的“苹果味”云团,而是学习到严格位于苹果掩码内的像素对应于单词“苹果”。这使得在 3D 中的语义查询更加清晰。
3. 视频-语言流 (EgoVideo)
这对于机器人技术和交互理解来说可能是最关键的贡献。一张静态图像可以告诉你“这是一把刀”。但一段视频可以告诉你“这把刀正被用来切东西”。
为了捕捉这些“可供性” (行动的潜力) ,DIV-FF 提取了 EgoVideo (一种视频-语言预训练模型) 的特征。与只看单张图像的 CLIP 不同,EgoVideo 观察短视频片段并理解时间动态。
然而,从视频 Transformer 中提取局部特征是很棘手的。研究人员采用了一种巧妙的损失函数来监督这种训练:

如上式所示:
- \(\psi^{GT}(V_p)\): 代表补丁级 (patch-level) 视频特征 (中等大小的区域) 。
- \(\psi^{GT}(V)\): 代表全局 (global) 视频嵌入 (整个片段的含义) 。
- \(\mathcal{M}_{IH}\): 这是交互热点 (Interaction Hotspot) 。
模型强制学习到的特征 (\(\hat{\psi}\)) 在所有地方都与局部补丁特征相匹配。但在手与物体交互的特定区域 (交互热点) ,它同时强制特征与全局视频上下文相匹配。这教会了模型: 刀接触洋葱的特定区域就是“切”的区域。
实验与结果
研究人员在 EPIC-Kitchens 数据集上测试了 DIV-FF,特别是在有大量物体操作的序列上。他们将其与 LERF 和其他物体检测基线进行了比较。
动态物体分割
第一个测试很简单: 模型能否在新视角中找到并分割移动物体?

定量结果令人震惊。如表 1 所示,完整的 DIV-FF 模型达到了 30.5 mIoU (平均交并比) ,比最佳基线提高了 40.5% 。
为什么会有这么大的飞跃?
- LERF 失败是因为它假设场景是静态的。它试图将移动物体平均化到背景中,导致幽灵般的模糊。
- CLIP (Patches) 有所帮助,但边界模糊。
- CLIP (SAM) 显著锐化了边界。
我们可以从下面的消融研究中清楚地看到这种视觉上的改进。请注意,当我们从 LERF 转向完整的 DIV-FF 模型时,热力图 (红色/黄色区域) 是如何逐渐紧密地围绕物体 (如滤锅和切菜板) 的。

查询 3D 世界
由于模型学习了一个特征场,我们可以用文本对其进行查询。如果我们输入“countertop” (台面) 或“banana” (香蕉) ,模型会高亮显示相关的 3D 区域。

在图 4 中,我们可以看到模型很好地处理了尺度变化。它可以像分割小物体 (如香蕉) 一样好地分割大表面 (如台面) 。这归功于训练期间稳健的掩码策略。
时间一致性
视频分割中最难的事情之一是一致性。通常,模型会在第 10 帧检测到一个物体,在第 11 帧丢失它,然后在第 12 帧再次找到它。

DIV-FF 保持了非常好的一致性。在图 5 中,观察“铲子”和“蓝色切菜板”下方的热力图。即使行动者移动且视角发生变化,模型也能“记住”物体的身份。这是因为帧特定编码 (\(z_t\)) 在潜在空间中为语义特征提供了连续的轨迹。
理解不存在之物 (周边环境理解)
因为 DIV-FF 构建的是 3D 表示,它知道当前相机画面之外的环境。

图 6 展示了这种能力。即使“锅”和“水槽”在图像边缘几乎看不见,模型也能分割它们。这种“非模态 (amodal)”能力对于需要在不频繁转动摄像头确认物体位置的情况下规划移动的机器人至关重要。
可供性分割: 视频特征的力量
这是视频-语言流大放异彩的地方。研究人员用基于动作的短语查询模型,如“切洋葱”或“清洗厨房用具”。

在图 7 (和表 2) 中,我们看到了使用图像-语言特征与视频-语言特征的对比。
- 图像特征 (上排) : 它们在动词上很吃力。它们可能会找到“用具”,但它们不理解“清洗”它的概念。
- 视频特征 (下排) : DIV-FF 准确地高亮了交互区域。
表格证实了这一点,当使用视频推理流时,可供性分割有了 69.7% 的提升 。 模型理解“烤面包”不仅仅关于面包;它关于烤面包机和面包的交互。
下面的消融实验强调了全局监督 (在核心方法中提到) 的重要性。如果不在交互热点加入全局视频上下文,模型会产生扩散、模糊的映射 (中间列) 。有了全局监督,它就能精确定位动作 (右列) 。

分解场景
最后,由于架构被分成了三个流,DIV-FF 允许“非模态场景理解”。这意味着你可以虚拟地关闭现实的某些层。

在图 9 中,研究人员可视化了特征的主成分分析 (PCA)。
- PCA (all): 显示带有手的完整场景。
- PCA (w/o actor): 手消失了,露出了后面的物体。
- PCA (w/o actor & dynamic): 所有临时的东西都消失了,留下了一个干净的静态厨房地图。
这种能力对于长期测绘非常有用。机器人可以进入一个凌乱的房间,过滤掉混乱 (动态物体) ,并根据永久性家具进行导航。
结论
DIV-FF 代表了机器理解自我中心视频的一个重要飞跃。通过摆脱“静态场景”假设并拥抱现实世界交互的混乱,它构建了一个既几何精确又语义丰富的表示。
主要要点是:
- 分解是关键: 将世界分离为静态、动态和行动者流,可以实现更清晰的重建和理解。
- 像素优于补丁: 使用 SAM 掩码将语言特征与像素对齐,极大地改善了物体边界。
- 视频意味着行动: 仅凭图像无法理解“做”。整合视频-语言特征解锁了映射“可供性”的能力——不仅仅是事物是什么,而是它们允许我们做什么。
对于机器人学和 AR 领域的学生和研究人员来说,这篇论文强调了环境理解的未来在于混合模型——那些将显式几何 (NeRFs/3D) 与大型语言和视频模型的高级推理相结合的模型。
](https://deep-paper.org/en/paper/2503.08344/images/cover.png)