引言
想象一下你典型的早晨例行公事。你并不是一个只执行名为 make_breakfast.exe 程序的机器人。你会打开炉子煮燕麦片,在它炖煮的同时,你会转过身去研磨咖啡豆。也许你还会停下来打包午餐。你是在将来自多个不同任务的步骤交错组合成单一、连续的活动流。
对于人类来说,这是第二天性。但对于人工智能,特别是计算机视觉系统来说,这是一场噩梦。
目前大多数关于时序动作分割 (Temporal Action Segmentation, TAS) ——这一负责教计算机识别并将视频分解为不同步骤的领域——的研究都集中在“单任务”场景上。模型是在一个人从头到尾只做一件事的视频上训练出来的。但现实世界是混乱的、无序的,并且充满了多任务处理。
在这篇文章中,我们将深入探讨一篇 CVPR 论文,题为 “Understanding Multi-Task Activities from Single-Task Videos” (从单任务视频中理解多任务活动) 。 研究人员提出了一个引人入胜的框架,该框架在简单的单任务视频上训练 AI,却能使其理解复杂的多任务场景。

问题: 训练与现实之间的脱节
正如上方图 1 所示,我们在当前训练 AI 的方式与我们期望它的表现之间存在根本的脱节。
在单任务视频 (图 1b,左侧) 中,环境是干净的。如果是制作茶的视频,你只会看到与泡茶相关的物体。顺序是线性的。
在多任务视频 (图 1b,右侧) 中,环境是杂乱的。你可能会在倒水 (为了泡茶) 时,看到柜台上放着一罐花生酱 (为了做三明治) 。此外,时间线 (图 1a) 是碎片化的。“泡茶”任务被“做风车卷”任务打断,然后又恢复。
研究人员指出了两个主要障碍:
- 上下文偏差: 当现有模型看到与当前动作无关的物体 (例如,在煮燕麦片时看到咖啡研磨机) 时,它们会感到困惑。
- 数据稀缺: 收集和标注涵盖所有可能的交错任务组合的数据集极其困难且昂贵。
解决方案: MT-TAS 框架
为了解决这个问题,作者介绍了多任务时序动作分割 (MT-TAS) 框架。这种方法的精妙之处在于,它只需要单任务视频进行训练。它通过合成生成多任务数据,让模型为现实世界做好准备。

如图 2 所示,该框架由四个关键模块组成,旨在弥合单任务训练与多任务测试之间的差距。让我们逐步分解它们。
1. 多任务序列混合 (MSB)
由于我们没有带标签的多任务视频,我们需要制造它们。然而,我们不能只是随机地将视频片段拼接在一起。如果“倒水”和“穿鞋”这两个任务不在同一个房间发生,那么将它们拼接在一起是没有意义的。
研究人员利用大型语言模型 (LLM) 作为操作的“大脑”。他们向 LLM 提供当前的动作,并问它一个逻辑问题: 现在切换任务是否合理,还是我们应该继续当前的任务?

看一看图 3(a) 。 如果当前的步骤是“打开水壶”,那么切换任务是有意义的,因为你需要等待水烧开。如果步骤是“舀果酱”,在涂抹果酱之前你不应该切换。通过使用 LLM 来指导这些转换, 多任务序列混合 (MSB) 模块创建了遵循人类常识的合成训练视频。
2. 片段边界学习 (SBL)
当你拼接两个不同的视频时,过渡在视觉上会非常突兀。光线可能会变化,或者摄像机角度可能会瞬间移动。这些“跳跃剪辑”在真实的连续视频中不会发生,它们会混淆 AI。
为了解决这个问题,作者引入了片段边界学习 (SBL) 。 其目标是在任务切换点平滑特征。
首先,模型使用标准的 3D 卷积神经网络 (I3D) 从视频中提取特征 (\(f_t\)) :

然后,SBL 模块尝试利用周围的帧来重构特定帧的特征 (\(\bar{f}_t\)) ,但排除直接相邻的帧以避免简单的复制:

系统的训练目标是最小化非边界帧的重构特征与原始特征之间的差异。通过学习预测平滑的过渡,模型可以在合成剪辑发生的地方“构想”出更平滑的边界。

3. 视频元素的动态隔离 (DIVE)
这也许是论文中视觉上最直观的部分。在多任务场景中,你的厨房柜台是杂乱的。你同时摆放着任务 A 和任务 B 的配料。而单任务训练视频通常太整洁了。
视频元素的动态隔离 (DIVE) 模块创建“缝合怪”式的帧来模拟这种杂乱。
- 识别相关物体: 系统询问 LLM: “把水倒进水壶需要什么物体?”LLM 回答: “水壶和量杯。” (见图 3(b) )。
- 分离前景/背景: 使用开放词汇目标检测器 (GroundingDINO) ,系统找到这些特定的物体和用户的手。这就是前景 。 其他一切都是背景 。
然后,系统使用高斯模糊掩码 (\(M\)) 分别提取前景 (\(f^{fg}\)) 和背景 (\(f^{bg}\)) 的特征:

接下来是巧妙的部分: 前景-背景特征合成 (FBFC) 。 为了模拟杂乱的多任务环境,模型获取当前任务的前景,并将其与完全不同任务视频的背景混合。

这里,\(\beta\) 控制混入多少“外来”背景。然后,解码器重构一个新的合成特征,它结合了正确的动作 (前景) 和复杂的、充满干扰的背景 (混合背景) 。

这迫使 AI 学习到“背景噪声”并不重要——只有相关的物体才重要。
4. 前景感知动作细化 (FAAR)
前面的步骤都发生在训练期间。但是当模型在测试视频上实际运行时会发生什么呢?
研究人员引入了一个名为前景感知动作细化 (FAAR) 的两阶段过程。
- 阶段 1: 基础模型对正在发生的事情做出初步预测 (\(p_t\)) 。
- 阶段 2: 模型专门观察前景 (之前识别出的手和相关物体) ,并做出第二次预测 (\(p_t^{fg}\)) 。
最终预测是全局视图和聚焦前景视图的加权平均值。这确保了即使背景令人困惑,模型也能保持专注于活动物体。

在这里,权重 \(\theta\) 确保模型优先考虑最可能的动作。
实验结果
为了测试这个框架,作者不能使用现有的数据集——因为它们都是单任务的!因此,他们收集了一个名为 MEKA (多任务第一视角厨房活动) 的新数据集,包含 12 小时的录像,参与者在其中执行交错的烹饪食谱。
离线性能
“离线”分割意味着模型可以一次性看到整个视频 (过去和未来的帧) 来做出决定。

表 1 显示了结果。
- 基线: 在单任务数据上训练的标准模型 (MSTCN 和 FACT) 表现不佳 (准确率约为 49-62%) 。
- 使用 MT-TAS: 随着研究人员添加他们的模块 (MSB, SBL, FBFC, FAAR) ,性能飙升。完整的框架在 MSTCN 上达到了 75.7% 的准确率 , 在 FACT 上达到了 77.6% 。 这证明了合成数据混合和前景聚焦显着帮助了模型的泛化能力。
在线性能
“在线”分割更难,因为模型实时处理视频,无法看到未来。

如表 2 所示,趋势依然存在。基线模型的准确率仅为 49.1%。使用完整的 MT-TAS 框架,准确率跃升至 67.8% 。 FAAR 模块 (前景感知动作细化) 在这里至关重要,它提供了巨大的提升,帮助模型忽略不相关的过去上下文,专注于手部此刻正在做的事情。
定性分析: 观察混合效果
这有助于直观地了解 FBFC 模块实际上对数据做了什么。

图 5 展示了合成混合的实际效果。
- 左列: 前景动作 (例如,倒糖浆) 。
- 中间列: 来自不同任务的背景。
- 右列: 通过混合特征创建的合成帧。
- 当 \(\beta\) 较低 (0.2) 时,图像看起来更像背景。
- 当 \(\beta\) 较高 (0.8) 时,相关物体 (糖浆瓶) 变得清晰。
通过在这些变化上进行训练,模型学会了识别“倒糖浆”,而不管背后是干净的柜台还是一堆杂乱的盘子。
消融实验: 前景真的很重要吗?
最后,研究人员提出了一个问题: 专注于前景真的有帮助吗,还是会丢失重要的上下文?

图 4(a) 清楚地回答了这个问题。使用“全图”特征 (蓝条) 给出了不错的结果。只使用“背景” (橙条) 会破坏性能。但使用“前景”特征 (绿条) 产生了最高的准确率。这证实了在多任务场景中,背景通常只是噪声。
结论
MT-TAS 框架代表了视频理解领域向前迈出的重要一步。它解决多任务处理这一现实问题的方法不是要求昂贵的新数据集,而是更智能地利用现有数据。
通过使用 LLM 来模拟逻辑,使用混合算法来模拟杂乱,以及使用目标检测来集中注意力,这种方法成功地教会了 AI 从噪声中分离出信号。
关键要点:
- 合成数据行之有效: 如果你能智能地合成复杂性,你就可以在简单数据上训练来解决复杂问题。
- 上下文管理: 在多任务处理中,知道要忽略什么 (背景干扰) 与知道要追踪什么同样重要。
- 视觉中的 LLM: 大型语言模型正在被证明是计算机视觉任务的优秀“导演”,提供了构建视觉数据所需的常识。
随着我们迈向更先进的家庭机器人和助手,像 MT-TAS 这样的框架对于机器真正理解人类日常生活中混乱、交错的本质将至关重要。
](https://deep-paper.org/en/paper/file-2273/images/cover.png)