引言

想象一下,浏览数小时的监控录像,试图定位某个特定的人。你找的不仅仅是一张脸,而是描述特征: “一位穿红裙子的女士”、“一个背着背包的男人”或“戴眼镜的人”。在计算机视觉领域,这项任务被称为行人属性识别 (Pedestrian Attribute Recognition, PAR)

多年来,这一领域一直由单纯观察图像并试图猜测标签的系统所主导。然而,视觉-语言模型 (如 CLIP) 的兴起引入了一种新范式: 利用文本帮助计算机更好地“理解”图像。

但这里有个问题。目前大多数系统使用的是“静态”提示词 (prompts) 。它们对每一张图像都使用完全相同的通用句子来询问模型,例如“这个人戴帽子吗?”。但是,冬天的毛线帽和夏天的棒球帽看起来截然不同。如果提示词不能根据图像的上下文进行调整,识别效果就会大打折扣。

在这篇文章中,我们将深入探讨一篇近期发表在 CVPR 上的论文,题为 “Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition” (增强型视觉-语义交互与量身定制提示词用于行人属性识别) 。研究人员提出了一种名为 EVSITP 的新框架,它不再只是提出通用的问题。相反,它会根据在图像中看到的内容“量身定制”提示词,从而在视觉和文本数据之间建立动态的对话。我们还将介绍他们创建的一个新数据集 Celeb-PAR , 旨在解决现有基准数据集中缺乏季节和场景多样性的问题。

背景: PAR 框架的演变

为了理解这篇论文的创新之处,我们需要先了解现有的技术背景。通常,行人属性识别的方法分为两类: 单模态 (Unimodal)双模态 (Bimodal)

单模态时代

如下方 图 1(a) 所示,传统的单模态框架非常直接。你将图像输入卷积神经网络 (CNN) 或视觉 Transformer (ViT),提取视觉特征,然后通过分类器运行它们。虽然有效,但这种方法完全忽略了属性的语义含义。它知道“帽子”看起来像一簇像素,但它并没有利用“帽子”这一语言概念。

静态双模态时代

随着 CLIP 等模型的出现,研究人员开始使用 双模态 框架 (图 1(b)) 。这些系统同时使用图像编码器和文本编码器。它们使用“提示词”——像“这个行人戴着帽子”这样的句子——来提取文本特征。然后,这些文本特征与图像特征结合 (拼接) 在一起。

虽然这是一种进步,但它有两个主要缺陷:

  1. 静态模板: 提示词是固定的。无论图像多么复杂,它都使用相同的句子结构。它无法捕捉类内巨大的变异性 (例如,正式礼服和夏季连衣裙之间的区别) 。
  2. 弱交互: 视觉和文本特征通常只是在最后阶段被粘合 (拼接) 在一起。在处理阶段,它们并没有真正地“相互交流”。

自适应方法 (我们的重点)

本文介绍了 自适应可学习双模态框架 (图 1(c)) 。

图 1. 不同 PAR 框架的对比。(a) 现有的单模态 PAR 框架,(b) 现有的静态双模态 PAR 框架,(c) 我们的自适应可学习双模态 PAR 框架。

正如你在图像的 (c) 部分所看到的,新框架引入了位于图像和文本编码器之间的可学习组件。它允许视觉特征修改提示词,同时也允许文本特征优化视觉处理过程。

核心方法: EVSITP 框架

所提出的框架 EVSITP (Enhanced Visual-Semantic Interaction with Tailored Prompts) 建立在 CLIP 的架构之上,但引入了三个高度专业化的模块来处理视觉和语言之间的交互。

让我们拆解一下 图 2 中展示的完整架构。

图 2. 我们的 EVSITP 架构。总体而言,我们的方法包括 CLIP、IDIM、PERM 和 BMIM。

该架构由三个主要的新颖组件组成:

  1. IDIM: 图像条件双提示初始化模块 (Image-Conditional Dual-Prompt Initialization Module)。
  2. PERM: 提示增强与正则化模块 (Prompt Enhancement and Regularization Module)。
  3. BMIM: 双模态相互交互模块 (Bimodal Mutual Interaction Module)。

1. IDIM: 让提示词具备上下文感知能力

第一个挑战是解决“静态提示词”问题。研究人员引入了 IDIM 来创建能够适应图像的提示词。他们使用了一种 双提示 (Dual-Prompt) 策略,结合了固定模板和可学习模板。

固定提示词 (The Fixed Prompts): 模型使用诸如 “This pedestrian contains [attribute]” (该行人包含[属性]) 或 “There is a [attribute] in this pedestrian.” (该行人身上有[属性]) 等标准模板。这提供了稳定的语义知识基线。

可学习提示词 (The Learnable Prompts): 这里就是神奇之处。模型不再只是使用硬编码的单词,而是在属性标签前加上 可学习的 Token 。 这些 Token 是向量,模型可以在训练过程中调整它们,以表示单词可能遗漏的复杂概念。

组内注意力 (Within-Group Attention): 为了理解属性之间的关系 (例如,“裙子”和“女性”经常一起出现) ,模型对标签嵌入应用了自注意力机制。这种关系感知嵌入的数学公式为:

组内注意力公式

图像条件注意力 (Image-Conditional Attention): 这就是“量身定制”的部分。提示词不应该只是通用的;它应该受到正在分析的具体图像的影响。IDIM 使用交叉注意力机制,其中 视觉特征 (\(F\)) 引导 可学习提示词 (\(T_L\))

本质上,模型看着图像说: “好的,我看到了这种特定类型的衣服;让我调整我的文本提示词来描述这个属性的 这个 具体实例。”

图像条件注意力公式

在这个公式中,文本特征基于视觉输入 \(F\) 进行细化,从而产生图像条件的文本特征 (\(T^{ica}\))。

2. PERM: 提示词的增强与正则化

有了可学习的提示词,就存在一个风险: 模型可能会学习到“乱码”向量,这些向量可以帮助它在训练数据上作弊,但在新数据上会失败 (过拟合) 。 PERM 模块解决了这个问题。

跨组注意力 (Across-Group Attention): 由于模型使用多个提示词模板 (第 1 组、第 2 组等) ,PERM 会跨越不同的模板查看 同一个 属性,以整合信息。

正则化损失 (Regularization Loss): 为了防止可学习的提示词偏离成抽象的无意义内容,PERM 应用了正则化损失。它强制学习到的、基于图像条件的提示词 (\(t^{ica}\)) 保持在与原始、固定语言嵌入 (\(t\)) 相对接近的范围内。

正则化损失公式

这确保了提示词保持在实际语言语义的基础上,同时也允许必要的灵活性。

3. BMIM: 双向对话

在以前的方法中,视觉和文本的结合非常粗糙。 BMIM (双模态相互交互模块) 建立了一个复杂的双向沟通渠道。

它引入了一个 视觉-语言共享 Token 作为桥梁。该模块执行两种特定的交互:

  1. VLII (视觉引导的语言信息交互): 文本特征查询视觉特征。结果是“视觉引导的语言特征” (\(T_V\))。
  2. LVII (语言相关的视觉信息交互): 视觉特征查询文本特征。结果是“语言相关的视觉特征” (\(F_L\))。

这意味着最终的决策不仅仅基于图像看起来像什么,或者文本说了什么。它是基于 “看过图像的文本”“理解文本的图像”

最终分类

EVSITP 没有使用标准的线性分类层,而是直接在特征空间中计算这两组细化特征集之间的相似度。

最终分类公式

这个点积相似度决定了属性存在的概率。

优化

总损失函数结合了用于分类的标准二元交叉熵 (BCE) 损失和我们在 PERM 中讨论的正则化损失。

总损失公式

这里,\(\lambda\) 是一个超参数,用于平衡准确性和提示词的稳定性。

Celeb-PAR 数据集

这篇论文提出的主要批评之一是,现有的数据集 (如 PETA 或 PA100K) 存在“偏差”。它们通常是在很短的时间范围内 (有限的季节) 或特定的地点 (如单一的购物中心) 收集的。

如果一个数据集只在夏天收集,模型就永远学不会“大衣”或“围巾”在不同背景下真正的样子。

为了解决这个问题,作者推出了 Celeb-PAR , 它源自一个长期的行人重识别数据集。

表 1. 我们的 Celeb-PAR 数据集与其他 PAR 数据集的统计数据。

表 1 所示,Celeb-PAR 的独特之处在于它具有以前基准测试中缺乏的 多季节 (Multi-seasons)多场景 (Multi-scenarios) 特征。

图 3 展示了这种多样性。你可以看到春夏装束 (图 a) 与秋冬装束 (图 b) 之间的鲜明对比。这迫使模型学习对天气和光照变化具有鲁棒性的属性。

图 3. 我们新提出的 Celeb-PAR 数据集的统计属性和代表性样本展示。

实验与结果

研究人员将 EVSITP 与最先进的 (SOTA) 方法进行了比较,包括单模态方法 (如 SOFAFormer) 和双模态方法 (如 PromptPAR 和 VTB) 。

在标准数据集上的基准测试

表 2 显示了在广泛使用的数据集 (如 PA100K 和 RAPv2) 上的性能。

表 2. SOTA 方法在 PETA、PA100K、RAPv1 和 RAPv2 数据集上的性能比较。

结果令人印象深刻。在 PA100K (最具挑战性的标准数据集) 上,EVSITP 达到了最高的平均准确率 (mA) 88.66% , 比之前的最佳结果 (PromptPAR) 高出 1% 以上。这证实了“量身定制”的提示词方法比静态提示词能产生更好的特征表示。

在 Celeb-PAR 上的基准测试

既然 Celeb-PAR 是一个变异性高的新且更难的数据集,模型的表现如何呢?

表 3. Celeb-PAR 上与最先进方法的比较。

表 3 显示,EVSITP 在新数据集上也优于 VTB 和 PromptPAR,F1 分数达到 80.40 。 这表明该模型更有能力处理现实世界监控数据中“野外”、多季节的特性。

为什么它有效? (消融实验)

作者进行了消融实验,以证明每个特定模块 (IDIM、PERM、BMIM) 实际上都对成功做出了贡献。

表 4对此进行了细分。你可以看到逐步的改进。

  • 添加固定提示词有帮助。
  • 添加可学习提示词帮助更大。
  • 添加 PERM 进一步提升效果。
  • 完整模型 (包含 BMIM) 产生最高分。

表 4. 对所提出模块的消融研究。

正则化的重要性

值得强调的一个具体消融实验是 PERM 中正则化损失的影响。 图 4 可视化了有无此损失时的性能。

图 4. 对我们的 PERM 的消融研究。

在 RAPv1 和 RAPv2 的几乎每个指标中,橙色条 (有正则化) 都高于蓝色条。这证实了假设: 让可学习的提示词在没有约束的情况下偏离太远会损害泛化能力。

对未见身份的泛化

最后,为了测试模型是否只是记住了特定的人,他们在数据集的“零样本” (Zero-Shot, zs) 版本上进行了测试,其中训练和测试身份之间没有重叠。

表 5. PETA_zs 和 RAP_zs 上的性能比较

表 5 显示 EVSITP 在泛化测试中占据主导地位,显著优于 VTB 和 SOFAFormer。这对于现实世界的应用至关重要,因为系统会遇到它从未见过的陌生人。

敏感性分析

作者还检查了模型对超参数的敏感程度,特别是 \(\lambda\) (正则化损失的权重) 和 \(L\) (可学习提示 Token 的数量) 。

图 5. 参数 lambda 和 L 的敏感性

图 5 显示结果相对稳定,但也存在一个“最佳点”。

  • 对于 \(\lambda\) (图表 a) ,大约 0.5 的值效果最好。
  • 对于 \(L\) (图表 b) ,使用大约 12 个可学习 Token 能产生峰值性能。

结论

EVSITP 框架 代表了行人属性识别向前迈出的重要一步。通过摆脱静态提示模板并拥抱 自适应、图像条件的提示词 , 模型可以捕捉属性在现实世界中呈现的细微差别。

这项研究的关键要点:

  1. 上下文很重要: 描述图像的提示词应该受到图像本身的影响。
  2. 交互是关键: 视觉和语言特征不应该仅仅是拼接在一起;它们需要通过注意力机制相互作用和引导。
  3. 数据多样性: Celeb-PAR 的引入突显了以前的数据集在季节和场景变异性方面的盲点。

这项工作不仅提高了准确率基准,还为如何针对特定的、高变异性的计算机视觉任务微调视觉-语言模型提供了蓝图。