引言
想象一下,浏览数小时的监控录像,试图定位某个特定的人。你找的不仅仅是一张脸,而是描述特征: “一位穿红裙子的女士”、“一个背着背包的男人”或“戴眼镜的人”。在计算机视觉领域,这项任务被称为行人属性识别 (Pedestrian Attribute Recognition, PAR) 。
多年来,这一领域一直由单纯观察图像并试图猜测标签的系统所主导。然而,视觉-语言模型 (如 CLIP) 的兴起引入了一种新范式: 利用文本帮助计算机更好地“理解”图像。
但这里有个问题。目前大多数系统使用的是“静态”提示词 (prompts) 。它们对每一张图像都使用完全相同的通用句子来询问模型,例如“这个人戴帽子吗?”。但是,冬天的毛线帽和夏天的棒球帽看起来截然不同。如果提示词不能根据图像的上下文进行调整,识别效果就会大打折扣。
在这篇文章中,我们将深入探讨一篇近期发表在 CVPR 上的论文,题为 “Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition” (增强型视觉-语义交互与量身定制提示词用于行人属性识别) 。研究人员提出了一种名为 EVSITP 的新框架,它不再只是提出通用的问题。相反,它会根据在图像中看到的内容“量身定制”提示词,从而在视觉和文本数据之间建立动态的对话。我们还将介绍他们创建的一个新数据集 Celeb-PAR , 旨在解决现有基准数据集中缺乏季节和场景多样性的问题。
背景: PAR 框架的演变
为了理解这篇论文的创新之处,我们需要先了解现有的技术背景。通常,行人属性识别的方法分为两类: 单模态 (Unimodal) 和 双模态 (Bimodal) 。
单模态时代
如下方 图 1(a) 所示,传统的单模态框架非常直接。你将图像输入卷积神经网络 (CNN) 或视觉 Transformer (ViT),提取视觉特征,然后通过分类器运行它们。虽然有效,但这种方法完全忽略了属性的语义含义。它知道“帽子”看起来像一簇像素,但它并没有利用“帽子”这一语言概念。
静态双模态时代
随着 CLIP 等模型的出现,研究人员开始使用 双模态 框架 (图 1(b)) 。这些系统同时使用图像编码器和文本编码器。它们使用“提示词”——像“这个行人戴着帽子”这样的句子——来提取文本特征。然后,这些文本特征与图像特征结合 (拼接) 在一起。
虽然这是一种进步,但它有两个主要缺陷:
- 静态模板: 提示词是固定的。无论图像多么复杂,它都使用相同的句子结构。它无法捕捉类内巨大的变异性 (例如,正式礼服和夏季连衣裙之间的区别) 。
- 弱交互: 视觉和文本特征通常只是在最后阶段被粘合 (拼接) 在一起。在处理阶段,它们并没有真正地“相互交流”。
自适应方法 (我们的重点)
本文介绍了 自适应可学习双模态框架 (图 1(c)) 。

正如你在图像的 (c) 部分所看到的,新框架引入了位于图像和文本编码器之间的可学习组件。它允许视觉特征修改提示词,同时也允许文本特征优化视觉处理过程。
核心方法: EVSITP 框架
所提出的框架 EVSITP (Enhanced Visual-Semantic Interaction with Tailored Prompts) 建立在 CLIP 的架构之上,但引入了三个高度专业化的模块来处理视觉和语言之间的交互。
让我们拆解一下 图 2 中展示的完整架构。

该架构由三个主要的新颖组件组成:
- IDIM: 图像条件双提示初始化模块 (Image-Conditional Dual-Prompt Initialization Module)。
- PERM: 提示增强与正则化模块 (Prompt Enhancement and Regularization Module)。
- BMIM: 双模态相互交互模块 (Bimodal Mutual Interaction Module)。
1. IDIM: 让提示词具备上下文感知能力
第一个挑战是解决“静态提示词”问题。研究人员引入了 IDIM 来创建能够适应图像的提示词。他们使用了一种 双提示 (Dual-Prompt) 策略,结合了固定模板和可学习模板。
固定提示词 (The Fixed Prompts): 模型使用诸如 “This pedestrian contains [attribute]” (该行人包含[属性]) 或 “There is a [attribute] in this pedestrian.” (该行人身上有[属性]) 等标准模板。这提供了稳定的语义知识基线。
可学习提示词 (The Learnable Prompts): 这里就是神奇之处。模型不再只是使用硬编码的单词,而是在属性标签前加上 可学习的 Token 。 这些 Token 是向量,模型可以在训练过程中调整它们,以表示单词可能遗漏的复杂概念。
组内注意力 (Within-Group Attention): 为了理解属性之间的关系 (例如,“裙子”和“女性”经常一起出现) ,模型对标签嵌入应用了自注意力机制。这种关系感知嵌入的数学公式为:

图像条件注意力 (Image-Conditional Attention): 这就是“量身定制”的部分。提示词不应该只是通用的;它应该受到正在分析的具体图像的影响。IDIM 使用交叉注意力机制,其中 视觉特征 (\(F\)) 引导 可学习提示词 (\(T_L\)) 。
本质上,模型看着图像说: “好的,我看到了这种特定类型的衣服;让我调整我的文本提示词来描述这个属性的 这个 具体实例。”

在这个公式中,文本特征基于视觉输入 \(F\) 进行细化,从而产生图像条件的文本特征 (\(T^{ica}\))。
2. PERM: 提示词的增强与正则化
有了可学习的提示词,就存在一个风险: 模型可能会学习到“乱码”向量,这些向量可以帮助它在训练数据上作弊,但在新数据上会失败 (过拟合) 。 PERM 模块解决了这个问题。
跨组注意力 (Across-Group Attention): 由于模型使用多个提示词模板 (第 1 组、第 2 组等) ,PERM 会跨越不同的模板查看 同一个 属性,以整合信息。
正则化损失 (Regularization Loss): 为了防止可学习的提示词偏离成抽象的无意义内容,PERM 应用了正则化损失。它强制学习到的、基于图像条件的提示词 (\(t^{ica}\)) 保持在与原始、固定语言嵌入 (\(t\)) 相对接近的范围内。

这确保了提示词保持在实际语言语义的基础上,同时也允许必要的灵活性。
3. BMIM: 双向对话
在以前的方法中,视觉和文本的结合非常粗糙。 BMIM (双模态相互交互模块) 建立了一个复杂的双向沟通渠道。
它引入了一个 视觉-语言共享 Token 作为桥梁。该模块执行两种特定的交互:
- VLII (视觉引导的语言信息交互): 文本特征查询视觉特征。结果是“视觉引导的语言特征” (\(T_V\))。
- LVII (语言相关的视觉信息交互): 视觉特征查询文本特征。结果是“语言相关的视觉特征” (\(F_L\))。
这意味着最终的决策不仅仅基于图像看起来像什么,或者文本说了什么。它是基于 “看过图像的文本” 和 “理解文本的图像” 。
最终分类
EVSITP 没有使用标准的线性分类层,而是直接在特征空间中计算这两组细化特征集之间的相似度。

这个点积相似度决定了属性存在的概率。
优化
总损失函数结合了用于分类的标准二元交叉熵 (BCE) 损失和我们在 PERM 中讨论的正则化损失。

这里,\(\lambda\) 是一个超参数,用于平衡准确性和提示词的稳定性。
Celeb-PAR 数据集
这篇论文提出的主要批评之一是,现有的数据集 (如 PETA 或 PA100K) 存在“偏差”。它们通常是在很短的时间范围内 (有限的季节) 或特定的地点 (如单一的购物中心) 收集的。
如果一个数据集只在夏天收集,模型就永远学不会“大衣”或“围巾”在不同背景下真正的样子。
为了解决这个问题,作者推出了 Celeb-PAR , 它源自一个长期的行人重识别数据集。

如 表 1 所示,Celeb-PAR 的独特之处在于它具有以前基准测试中缺乏的 多季节 (Multi-seasons) 和 多场景 (Multi-scenarios) 特征。
图 3 展示了这种多样性。你可以看到春夏装束 (图 a) 与秋冬装束 (图 b) 之间的鲜明对比。这迫使模型学习对天气和光照变化具有鲁棒性的属性。

实验与结果
研究人员将 EVSITP 与最先进的 (SOTA) 方法进行了比较,包括单模态方法 (如 SOFAFormer) 和双模态方法 (如 PromptPAR 和 VTB) 。
在标准数据集上的基准测试
表 2 显示了在广泛使用的数据集 (如 PA100K 和 RAPv2) 上的性能。

结果令人印象深刻。在 PA100K (最具挑战性的标准数据集) 上,EVSITP 达到了最高的平均准确率 (mA) 88.66% , 比之前的最佳结果 (PromptPAR) 高出 1% 以上。这证实了“量身定制”的提示词方法比静态提示词能产生更好的特征表示。
在 Celeb-PAR 上的基准测试
既然 Celeb-PAR 是一个变异性高的新且更难的数据集,模型的表现如何呢?

表 3 显示,EVSITP 在新数据集上也优于 VTB 和 PromptPAR,F1 分数达到 80.40 。 这表明该模型更有能力处理现实世界监控数据中“野外”、多季节的特性。
为什么它有效? (消融实验)
作者进行了消融实验,以证明每个特定模块 (IDIM、PERM、BMIM) 实际上都对成功做出了贡献。
表 4对此进行了细分。你可以看到逐步的改进。
- 添加固定提示词有帮助。
- 添加可学习提示词帮助更大。
- 添加 PERM 进一步提升效果。
- 完整模型 (包含 BMIM) 产生最高分。

正则化的重要性
值得强调的一个具体消融实验是 PERM 中正则化损失的影响。 图 4 可视化了有无此损失时的性能。

在 RAPv1 和 RAPv2 的几乎每个指标中,橙色条 (有正则化) 都高于蓝色条。这证实了假设: 让可学习的提示词在没有约束的情况下偏离太远会损害泛化能力。
对未见身份的泛化
最后,为了测试模型是否只是记住了特定的人,他们在数据集的“零样本” (Zero-Shot, zs) 版本上进行了测试,其中训练和测试身份之间没有重叠。

表 5 显示 EVSITP 在泛化测试中占据主导地位,显著优于 VTB 和 SOFAFormer。这对于现实世界的应用至关重要,因为系统会遇到它从未见过的陌生人。
敏感性分析
作者还检查了模型对超参数的敏感程度,特别是 \(\lambda\) (正则化损失的权重) 和 \(L\) (可学习提示 Token 的数量) 。

图 5 显示结果相对稳定,但也存在一个“最佳点”。
- 对于 \(\lambda\) (图表 a) ,大约 0.5 的值效果最好。
- 对于 \(L\) (图表 b) ,使用大约 12 个可学习 Token 能产生峰值性能。
结论
EVSITP 框架 代表了行人属性识别向前迈出的重要一步。通过摆脱静态提示模板并拥抱 自适应、图像条件的提示词 , 模型可以捕捉属性在现实世界中呈现的细微差别。
这项研究的关键要点:
- 上下文很重要: 描述图像的提示词应该受到图像本身的影响。
- 交互是关键: 视觉和语言特征不应该仅仅是拼接在一起;它们需要通过注意力机制相互作用和引导。
- 数据多样性: Celeb-PAR 的引入突显了以前的数据集在季节和场景变异性方面的盲点。
这项工作不仅提高了准确率基准,还为如何针对特定的、高变异性的计算机视觉任务微调视觉-语言模型提供了蓝图。
](https://deep-paper.org/en/paper/file-2012/images/cover.png)