引言

在智能监控不断发展的格局中,我们正见证着两个截然不同世界的融合: 地面和天空。传统的安防系统严重依赖固定在视线水平或略高位置的闭路电视 (CCTV) 摄像头。然而,无人机 (UAV) 的迅速普及引入了一个全新的有利视角。这种结合提供了全面的覆盖,但也引发了一个巨大的计算难题,即空地行人重识别 (AGPReID)

核心问题说起来简单,解决起来却异常困难: 如何教计算机识别出无人机从陡峭俯视角度拍摄的人,与地面摄像头从正面视角拍摄的人是同一个人?

图 1. 由于视角的显著差异,空中视角和地面视角表现出显著的外观变化。这种变化给跨视角图像匹配带来了巨大挑战。

如图 1 所示,同一个人的外观在这两个视角之间发生了巨大的变化。在地面上清晰可见的特征 (如 T 恤上的图案或面部特征) 在空中可能完全看不见,只能看到头顶、肩膀和鞋子。

在这篇文章中,我们将深入探讨一篇提出该问题新颖解决方案的研究论文: SeCap (Self-Calibrating and Adaptive Prompts,自校准自适应提示) 。 SeCap 背后的研究人员认为,传统方法之所以失败,是因为它们太僵化了。相反,他们提出了一种系统,该系统可以根据输入图像的具体视角,动态调整其内部搜索标准——即“提示 (prompts) ”。我们将探讨 SeCap 如何利用视觉 Transformer (ViT) 和提示学习的力量来架起空中网络与地面网络之间的桥梁。

背景: AGPReID 挑战

要理解为什么 SeCap 是必要的,我们首先需要看看现有的行人重识别 (ReID) 方法在这个领域面临的困难。

传统 ReID 的局限性

标准的行人重识别侧重于在通常共享相似视角的也不通摄像头之间匹配图像 (例如,匹配一个人从一个走廊摄像头走到另一个) 。当引入无人机时,域差距显著扩大。

以前解决 AGPReID 的尝试通常分为两类:

  1. 基于属性的方法: 这些方法试图识别特定的属性 (例如,“红衬衫”、“背包”) 。然而,属性在空中视角中经常被遮挡。
  2. 视角解耦: 这些方法试图在数学上将“视角”特征 (摄像机角度) 与“身份”特征 (人) 分离开来。虽然很有前景,但它们往往难以应对视角的极度多样性。20 米高的无人机视角不同于 60 米高的,3 米高的闭路电视也不同于 10 米高的。

现有的解耦方法往往忽视局部特征 。 由于无人机从陡峭的角度拍摄图像,身体部位经常出现透视缩短或自遮挡。一个只看“全局”图片的系统可能会错过匹配所需的细微的、视角不变的细节。

SeCap 框架

SeCap 方法引入了一种动态方案。它不是使用静态模型来处理每张图像,而是使用自适应提示 。 在视觉 Transformer (ViT) 的背景下,“提示”是一个可学习的向量,为模型提供关于寻找什么的线索或上下文。

SeCap 建立在编码器-解码器 Transformer 架构之上。

  1. 编码器: 提取视觉特征并解耦视角。
  2. 解码器: 使用自适应提示细化这些特征,专注于在不同视角下保持不变的细节。

让我们可视化完整的架构:

图 2. (a) 提出的 SeCap 架构。关键组件是一个编码器-解码器 Transformer。编码器提取图片的视觉特征并解耦视角。解码器通过当前视角信息重新校准提示,并使用重新校准后的提示解码局部特征。

如图 2(a) 所示,输入图像经过处理,被分割为视角不变特征和特定视角特征,然后通过一个包含两个关键创新的解码阶段: 提示重校准模块 (PRM)局部特征细化模块 (LFRM)

让我们分解框架的数学流程:

SeCap 框架概览公式。

这里,VDT 代表视角解耦 Transformer (编码器) 。系统生成 Cls (类别/身份) Token 和 View (视角) Token。通过从 Class Token 中减去 View Token,模型试图分离出 X_inv (视角不变特征) 。然后,这些不变特征被用来驱动解码器。

1. 编码器: 视角解耦 Transformer (VDT)

SeCap 的骨干是一个视觉 Transformer (ViT) 。然而,与仅输出分类 Token 的标准 ViT 不同,这个编码器旨在明确地将“是谁”与“在哪”分离开来。

它引入了一个视角 Token (View Token) 。 当图像通过 Transformer 的各层时,模型被训练为将关于摄像机角度的信息推入 View Token,并将关于人的身份信息推入 Class Token。这种分层解耦确保了当我们到达解码器时,有一组干净的特征可供使用。

2. 提示重校准模块 (PRM)

这就是名称中“自校准”的由来。在标准的提示学习中,提示是固定的、可学习的向量。在 SeCap 中,提示需要根据输入图像进行变化。

PRM 起到了桥梁的作用。它获取一组初始化的提示,并使用编码器提取的视角不变特征对它们进行“重校准”。

提示重校准模块 (PRM) 公式。

如上式所述:

  1. 交叉注意力 (CA): 提示关注视角不变特征 (X_inv)。这将通用提示与当前图像的具体内容对齐。
  2. 自注意力 (SA): 提示之间相互交互以整合信息。
  3. 前馈网络 (FFN): 生成重校准提示 (P_re) 的最后处理步骤。

这一过程确保了提示不仅仅是在寻找通用的人类特征,而是专门调整为寻找当前图像中存在的身份特征,而不管视角如何。

3. 局部特征细化模块 (LFRM)

一旦提示被校准,它们就被用来挖掘图像的局部特征 。 请记住,在空中视角中,我们可能会丢失全局形状,因此局部细节 (如头发的纹理或鞋子上的图案) 变得至关重要。

LFRM 使用一种双向注意力机制。仅仅让提示查看图像是不够的;图像特征也必须根据提示进行更新。

局部特征细化模块 (LFRM) 公式。

在这个两步过程中:

  1. 提示到图像: 提示从局部图像特征 (F_local) 中收集信息。
  2. 图像到提示: 图像特征根据细化后的提示自我更新。

这种双向流动允许模型“细化”局部特征,有效地突出图像中与身份识别相关的部分,同时抑制由摄像机角度引起的噪声。

双向注意力和 Transformer 解码块的结构。

最后,系统将这些细化后的局部特征与全局输出融合,创建该人的综合表征。

最终输出融合公式。

优化: 教导模型

SeCap 如何学习执行这些复杂的任务?研究人员采用了多层面的损失函数。

1. 视角分类损失: 为了确保“视角 Token”真正捕捉到视角信息,模型被训练来预测摄像机视角 (例如,空中与地面) 。

视角分类损失公式。

2. 正交性损失: 这是一个关键的正则化技术。我们希望“身份”特征和“视角”特征是截然不同的。如果它们重叠,说明模型没有真正解耦它们。这个损失函数强制视角和身份的向量表示正交 (在数学上垂直) ,从而最小化它们的相关性。

正交性损失公式。

3. 总体损失: 最终的训练目标结合了标准的 ID 分类和三元组损失 (在 ReID 任务中很常见) 与特定的视角和正交性约束。

总体损失函数公式。

这里,\(\lambda\) (lambda) 是一个超参数,用于平衡视角特定损失与标准识别损失的重要性。

新基准: LAGPeR 和 G2APS-ReID

AGPReID 研究的主要障碍之一是缺乏高质量、大规模的数据集。现有的数据集要么太小,要么是合成生成的。为了解决这个问题,作者贡献了两个新数据集。

表 1. 与现有数据集的统计比较。

LAGPeR (大规模空地行人重识别)

该数据集由作者独立收集和标注。它包括:

  • 4,231 个身份
  • 63,841 张图像
  • 21 个摄像头 (7 个无人机,14 个地面)

它涵盖了各种现实条件,包括不同的光照 (白天/夜晚) 、天气 (晴天/雨天) 和广泛的遮挡。

图 9. LAGPeR 数据集的示例图像。

G2APS-ReID

该数据集是从行人搜索数据集 (G2APS) 重构而来的。作者对其进行了重新划分,使其适合 ReID 任务,最终形成了一个包含 200,864 张图像 , 涵盖 2,788 个身份的海量集合。

这些数据集的引入为跨视角算法提供了更严格的测试平台,推动该领域从合成数据转向现实世界的应用。这些数据集的实验设置非常严格,测试了空中到地面 (\(A \rightarrow G\)) 和地面到空中 (\(G \rightarrow A\)) 的检索。

表 2. LAGPeR 和 G2APS-ReID 数据集的实验设置和数据划分。

实验与结果

SeCap 真的有效吗?实验结果给出了肯定的回答。作者将 SeCap 与最先进的方法进行了比较,包括标准的 ViT 基线和其他特定于跨视角的模型,如 VDT 和 AG-ReID。

定量性能

在新的 LAGPeR 和 G2APS-ReID 数据集上,SeCap 在Rank-1 准确率 (正确的人是第一个结果的频率) 和 mAP (平均精度均值) 方面均取得最高分。

表 3. LAGPeR 和 G2APS-ReID 数据集上的性能比较。

例如,在 LAGPeR 数据集的空中到地面设置中,SeCap 达到了 41.79% 的 Rank-1 准确率,显著优于 VDT 方法 (40.15%) 和标准 ViT 基线 (38.67%)。虽然这些数字与传统的单视角 ReID (通常超过 90%) 相比可能看起来较低,但它们代表了在困难的 AGPReID 领域中的巨大飞跃。

该方法在现有的数据集 (如 AG-ReID.v1) 上也表现出色,证明了其在不同数据源上的鲁棒性。

表 4. AG-ReID.v1 数据集两种设置下的性能比较。

消融实验: 什么最重要?

作者进行了消融实验,以验证每个组件是否都是必要的。他们通过逐一移除 VDT、LFRM 和 PRM 来测试模型。

表 5. 评估 SeCap 中各组件的有效性。

结果表明,虽然视角解耦 Transformer (VDT) 和局部特征细化 (LFRM) 各自提高了性能,但三者的结合——特别是添加提示重校准模块 (PRM)——产生了最好的结果 (第 6 行) 。这证实了根据视角不变特征自适应地校准提示是模型成功的关键。

可视化成功

数字固然好,但可视化有助于我们直观地理解模型学到了什么。

特征分布 (t-SNE): 在下面的 t-SNE 图中,我们可以看到基线模型与 SeCap 的特征空间对比。在基线中,“空中” (圆圈) 和“地面” (十字) 的分布有些分离,表明模型受到视角的干扰。在 SeCap 中,分布重叠得更多,并按身份聚类。这意味着模型已成功学会忽略摄像机角度并专注于人。

图 3. 使用 t-SNE 可视化 SeCap 和基线模型提取的特征。

检索结果: 下面是检索结果的比较。绿色框表示正确匹配,红色框表示错误。即使视角发生巨大变化,SeCap 也能检索到正确的匹配,而基线通常检索到在“视角”上看起来相似 (例如,相似的背景或角度) 但却是错误的人的图像。

图 4. LAGPeR 数据集设置下的几种检索可视化对比。

注意力图: 也许最能说明问题的可视化是注意力图。基线模型通常关注背景或一般的衣物色块。然而,SeCap 关注的是判别性部位 , 如头部和肩膀——这些特征在地面和空中视角均可见。

图 5. 我们的 SeCap 方法和基线模型的注意力图可视化结果。

参数分析

研究人员还分析了提示长度和损失超参数 (\(\lambda\)) 的影响。

图 6. 超参数 lambda 对模型性能的影响。 图 7. 提示长度 L 对模型性能的影响。

分析表明,模型对提示长度的变化相对稳健 (图 7) ,在长度为 64 左右时表现稳定。\(\lambda\) 参数 (图 6) 控制视角解耦损失的强度,显示出了一个最佳平衡点——太低,模型会忽略视角;太高,模型会过分关注视角而不是身份。

结论

SeCap 论文为现代监控中最困难的问题之一提出了一个复杂的解决方案: 连接空中无人机和地面摄像头之间的点。通过摆脱静态特征提取并采用自校准和自适应提示 , 该框架允许模型根据输入图像动态调整其焦点。

关键要点包括:

  1. 视角解耦至关重要: 你必须在数学上将“摄像机角度”与“人”分开,才能在跨视角任务中取得成功。
  2. 适应性为王: 静态模型在无人机角度的极端变化下会失效。自适应提示弥补了这一差距。
  3. 局部特征很重要: 当全局形状因透视而变形时,细化局部特征 (如头部和肩膀) 对于准确性至关重要。
  4. 数据驱动进步: LAGPeR 和 G2APS-ReID 的发布将通过提供现实、困难的基准来刺激该领域的进一步创新。

SeCap 代表了在创建统一、鲁棒的观察网络方面向前迈出的重要一步,无论摄像机是安装在墙上还是在云端,该网络都能识别人。