想象一下你在看一场足球比赛。如果一名球员跑到了裁判身后,你不会惊慌失措地认为这名球员从世界上消失了。你的大脑会利用上下文、运动轨迹,或者 (如果你在看多机位转播) 利用不同角度的视野来准确预测该球员会从哪里出现。

然而,计算机视觉系统常常在这种场景下陷入困境。在视觉目标跟踪 (Visual Object Tracking, VOT) 领域,由于遮挡 (被另一个物体挡住) 导致丢失目标是跟踪失败的主要原因。传统的跟踪器依赖于单一的相机视角。如果目标走到柱子后面,跟踪器就“瞎”了。

但是,如果跟踪器可以访问一组“相机团队”呢?如果相机 A 丢失了目标,位于不同角度的相机 B 肯定能看到它。这个概念就是多视角目标跟踪 (Multi-View Object Tracking, MVOT) 的核心。

在这篇文章中,我们将深入探讨 MITracker , 这是一篇提出了一种强大的多视角问题解决方案的新研究论文。我们将探索研究人员如何构建一个新的海量数据集来训练这些系统,以及一种允许跟踪器通过借用可见视角的信息,“脑补”出被遮挡视角中物体位置的新颖架构。

问题所在: 为什么多视角跟踪如此困难?

随着 Transformer (如 ViT) 和孪生网络 (Siamese networks) 的兴起,单视角跟踪已经取得了显著进步。然而,它们从根本上受限于其视角。你无法跟踪你看不到的东西。

多视角系统提供了一种解决方案,但在此之前,两大瓶颈一直阻碍着它的发展:

  1. 数据稀缺: 深度学习需要海量数据。虽然单视角数据集很多,但多视角数据集却很罕见。现有的少数数据集通常只专注于人类 (监控风格) 或特定的类别 (如鸟类) 。目前还没有用于在多个相机之间跟踪通用物体 (如背包、玩具或笔记本电脑) 的大规模基准。
  2. 融合的复杂性: 即使你有多个相机,融合这些信息也是困难的。你怎么告诉系统,相机 1 中的那团“像素”与相机 2 中的是同一个物体,尤其是当物体从侧面看与从正面看完全不同时?

MITracker 论文正面解决了这两个问题。

MITracker 多视角融合机制概览。

图 1 所示,其核心理念简单而强大: 特定的相机视角将其特征投影到一个共享的 3D 空间中。即使目标在一个视角中不可见 (由红色的“Target Invisible”标签指示) ,3D 空间仍保留了物体的存在,允许系统为“失明”的相机修正跟踪结果。

基石: MVTrack 数据集

在构建模型之前,研究人员需要一个试验场。他们推出了 MVTrack , 这是一个旨在训练类别无关跟踪器 (即可以跟踪任何物体,而不仅仅是人) 的大规模数据集。

为了理解其重要性,让我们看看跟踪数据集的现状:

表 1 当前目标跟踪数据集的比较。

如上表所示,大多数现有的多视角数据集 (底部几行) 仅限于 1 个或极少数类别 (主要是人类) 。 MVTrack 通过包含以下内容改变了这一局面:

  • 234,000 帧视频。
  • 27 个不同的物体类别 (通用物体) 。
  • 每个场景 3-4 个同步相机
  • 精确的 3D 标定数据。

这种多样性至关重要。仅在行走的人类身上训练的模型,在试图跟踪翻滚的雨伞或滑动的手机时会失效。研究人员捕捉了专门设计用来挑战跟踪器的场景,包括快速运动、严重遮挡和形变。

展示变形和遮挡情况的 MVTrack 数据集示例序列。

图 2 让我们得以一窥这些挑战。在 (a) 行中,一把雨伞在打开时完全改变了形状。在 (b) 行中,一部手机完全隐藏在杂乱的物体后面。一个稳健的跟踪器需要处理这些极端的外观变化,同时协调不同的相机角度。

核心方法: 深入 MITracker

现在,让我们拆解 多视角融合跟踪器 (MITracker) 的架构。其目标是跨任意视点跟踪任意长度视频中的任意物体。

该架构分为两个主要阶段:

  1. 特定视角特征提取 (View-Specific Feature Extraction): 分析每个相机单独看到的内容。
  2. 多视角融合 (Multi-View Integration): 将这些独立视角融合为 3D 理解以修正错误。

让我们分解下面的架构图。

图 3. MITracker 框架,展示特征提取和多视角融合。

1. 特定视角特征提取 (“眼睛”)

图的左侧 (a 部分) 展示了单个相机视角的处理过程。这部分系统看起来类似于现代的单视角跟踪器。

该模型使用 Vision Transformer (ViT) 作为骨干网络。它接受两个输入:

  • 参考帧 (\(I_R\)): 展示目标样子的图像 (模板) 。
  • 搜索帧 (\(I_S\)): 我们正在其中寻找目标的当前视频帧。

然而,静态图像是不够的。物体会移动、旋转和模糊。为了给模型一种时间感,研究人员引入了 时间 Token (Temporal Tokens)

\[ I _ { U } = I _ { S } ^ { \prime } \cdot ( I _ { S } ^ { \prime } \times ( T _ { t } ^ { \prime } ) ^ { \top } ) , \]

如上式所示,模型维护一个时间 Token \(T_t\),它携带从前一帧当前帧的信息。这有助于模型理解物体的即时历史——本质上是给了跟踪器一个短期记忆。如果物体在上一帧向左移动,时间 Token 会帮助模型预测它可能会继续向左。

这一阶段的输出是每个相机视角的一组 2D 特征图 (\(F_{2D}\))。在这一点上,相机之间还没有进行交流。

2. 多视角融合 (“大脑”)

这就是 MITracker 创新的地方。如果相机 1 看到了物体,但相机 2 被挡住了,我们需要转移这些知识。研究人员通过将 2D 特征提升到 3D 世界来实现这一点。

步骤 A: 3D 特征投影

由于相机已经标定,我们确切地知道它们在房间里的位置。系统从图像中提取 2D 特征像素 \((u, v)\),并将它们投影到坐标为 \((x, y, z)\) 的 3D 体素网格 (3D 像素体积) 中。

投影遵循以下变换:

\[ \begin{array} { r } { \left( \begin{array} { l } { u } \\ { v } \\ { 1 } \end{array} \right) = C _ { K } [ C _ { R } | C _ { t } ] \left( \begin{array} { l } { x } \\ { y } \\ { z } \\ { 1 } \end{array} \right) , } \end{array} \]

这里,\(C_K\)、\(C_R\) 和 \(C_t\) 分别代表相机的内参设置、旋转和平移 (位置) 。通过对每个相机运行此投影,系统填充了一个共享的 3D 特征体 (3D Feature Volume)

想象一下,从每个相机射出一束手电筒光穿过图像进入 3D 房间。在光束相交的地方,我们有很高的置信度认为物体存在。

步骤 B: BEV 压缩

处理密集的数据立方体计算成本很高。此外,在大多数跟踪场景 (如机器人或监控) 中,物体主要沿地面移动。

为了提高系统效率,研究人员压缩了 3D 体积的垂直轴 (\(Z\)),将其压扁为 鸟瞰图 (Bird’s Eye View, BEV) 特征图。这张 BEV 图充当主平面图,显示了从所有相机汇总的物体在地面上的位置。

步骤 C: 空间增强注意力

现在进入“反馈循环” (如图 3c 所示) 。我们有了主 BEV 图,它根据所有可见角度知道了物体的“真实”位置。

系统将此 BEV 信息嵌入到一个 3D 感知 Token (\(T_{3D}\)) 中。这个 Token 被反馈每个特定视角的 Transformer 中。

这就是“空间增强注意力”机制。它强制特定视角的跟踪器关注 3D 体积建议的位置。

  • 场景: 相机 2 被墙挡住。特定视角的提取器什么也没看到。
  • 修正: 源自相机 1 和 3 的 3D Token (\(T_{3D}\)) 告诉相机 2 的 Transformer: “物体在坐标 X 处。”
  • 结果: 相机 2 的跟踪器恢复并正确预测了边界框,即使视觉证据很弱或缺失。

训练这一庞大系统

为了训练这个复杂的系统,研究人员结合使用了多种损失函数,以确保 2D 和 3D 的准确性。

\[ L _ { \mathrm { t r a c k } } = L _ { \mathrm { c l s } } + \lambda _ { \mathrm { g i o u } } L _ { \mathrm { g i o u } } + \lambda _ { L _ { 1 } } L _ { 1 } + \lambda _ { \mathrm { b e v } } L _ { \mathrm { b e v } } , \]

损失函数 (公式 3) 结合了:

  1. 分类损失 (\(L_{cls}\)): 物体被正确识别了吗?
  2. BBox 回归损失 (\(L_{giou}, L_1\)): 框是否紧密地包围了物体?
  3. BEV 损失 (\(L_{bev}\)): 地平面上的 3D 位置准确吗?

通过端到端的训练,模型学会了平衡自身的视觉输入与全局 3D 共识。

实验与结果

这种复杂的 3D 投影真的有帮助吗?结果表明确实如此。

最先进 (SOTA) 的性能

研究人员将 MITracker 与领先的单视角跟踪器 (如 OSTrack 和 MixFormer) 进行了比较。请注意,单视角跟踪器本身不能进行多视角跟踪,因此为了公平比较,它们通过后期融合处理进行了调整。

表 2 与 SOTA 方法的比较。

表 2 所示,MITracker 在排行榜上占据主导地位。

  • MVTrack 数据集上,它达到了 88.77% 的精度 (PNorm) , 比第二名 (EVPTrack) 高出近 10 个百分点。
  • GMTD 数据集上,差距甚至更大,MITracker 达到了 91.87% 的精度

这表明,简单地融合单视角跟踪器的输出 (竞争对手使用的策略) 不如像 MITracker 那样融合网络内部的特征

恢复测试

多视角跟踪器最关键的测试是恢复能力。如果目标从一个视角中完全消失,当它重新出现时,跟踪器能多快再次找到它?或者更好的是,当它被隐藏时继续跟踪它?

图 4. 展示成功率和恢复能力的鲁棒性实验。

图 4(b) (中间的图表) 特别具有启示性。它绘制了“恢复率”与帧数的关系。

  • MITracker (红线) 立即飙升,在 10 帧内达到了 79.2% 的恢复率
  • 像 SAM2Long (紫线) 这样的竞争对手则滞后,大约在 56%。

这证明了空间增强注意力是有效的: 物体的 3D 记忆让跟踪器保持“热身”状态,因此它可以瞬间重新锁定目标。

视觉证据

让我们看看这种性能差异在视频序列中实际上是什么样子的。

图 5 定性比较结果,显示了 IoU 曲线和帧画面。

图 5 中,我们看到了 MITracker (红色) 和 ODTrack (蓝色) 之间的对比。

  • 顶部图表 (IoU): 高就是好。低就是坏。
  • 观察图表中的灰色区域——这些代表目标不可见或被遮挡的时间段。
  • 注意蓝线 (ODTrack) 经常降为零,即使在物体重新出现后 (白色间隙) 也保持平坦。它已经永久丢失了目标。
  • 红线 (MITracker) 可能会在完全遮挡期间下降,但它几乎立即反弹回 1.0 (完美跟踪) 。

轨迹分析

最后,3D 理解能力使得 MITracker 能够在现实世界 (鸟瞰图) 中绘制物体的路径,而不仅仅是在屏幕上。

图 6 BEV 轨迹的可视化。

图 6 展示了预测路径 (红色) 与真值 (绿色) 的对比。两者的对齐非常紧密,表明该模型已成功地从 2D 相机输入中构建了对场景连贯的 3D 理解。

结论与未来启示

MITracker 代表了计算机视觉领域向前迈出的重要一步。通过不再将相机视为孤立的观察者,而是将它们集成到一个统一的 3D 特征空间中,该系统解决了跟踪中最持久的问题之一: 遮挡。

关键要点:

  1. 数据至关重要: MVTrack 的创建填补了一个关键空白,使研究人员能够在多视角下针对通用物体训练模型。
  2. 3D > 2D: 将特征投影到 3D 空间允许不同的视角进行交流。如果一个相机瞎了,其他的可以引导它。
  3. 空间注意力: 使用特定的架构块 (BEV 引导的注意力) 使系统能够比最先进的单视角方法更快地从目标丢失中恢复。

虽然目前的系统依赖于已标定的相机 (确切知道相机在哪里) ,但作者建议未来的工作可以专注于未标定的设置,这将使这项技术能够更灵活地部署——也许是在无人机群或临时安全设置中,让“透视墙壁”成为现实。