如何教 AI 像成千上万的人类一样写作: 一种用于行人重识别的合成数据新方法

在计算机视觉快速发展的世界里,数据就是新的石油。但对于像文本到图像行人重识别 (ReID) 这样的特定任务来说,这口油井正在枯竭。手工标注数百万张图像并提供详细文本描述的成本是天文数字。

自然地,研究人员转向多模态大型语言模型 (MLLMs) ——如 GPT-4V 或 LLaVA——来生成合成描述。这听起来像是一个完美的解决方案: 让 AI 来标注数据。然而,这里有个陷阱。MLLMs 往往一致了。它们倾向于使用单调、“平均”的风格说话,缺乏人类标注者自然提供的丰富语言多样性。

在这篇博文中,我们将深入探讨一篇引人入胜的论文,题为 “Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification” 。 作者介绍了一个名为 人类标注者建模 (Human Annotator Modeling, HAM) 的新颖框架。他们不再满足于机械式的描述,而是教 MLLM 扮演成千上万个不同的人类标注者,每个人都有独特的写作风格。这产生了一个大规模、多样化的数据集,显著提升了行人检索系统的性能。

问题所在: “无聊 AI”的瓶颈

文本到图像行人重识别 (ReID) 是根据文本描述 (例如,“一个穿着红色连衣裙和白色运动鞋、背着黑色背包的年轻女子”) 从图库中检索特定人物图像的任务。

为了训练该任务的鲁棒模型,你需要海量数据集。虽然我们有数百万张未标记的行人图像,但缺乏与之相配的文本描述。以前使用 MLLMs 自动化此过程的尝试面临着多样性问题。

如果你让标准的 MLLM 描述一个人,它可能会给你一个语法完美、标准的描述。如果你问它 1000 次,你会得到 1000 次相同的句子结构。然而,人类语言是杂乱且多变的。一个人可能会说“黑发”,而另一个人会说“笔直的齐肩黑发”。这种变化对于训练泛化模型至关重要。

图 1. 增强 MLLM 生成文本描述风格多样性的不同方案示意图。

图 1 所示,以前的方法 (顶部) 试图使用僵化的模板 (例如,“[性别] 穿着 [鞋子]”) 来强制多样性。这是有限且人工的。新方法 (底部) 采取了一条不同的路线: 它从真实人类数据中提取“风格特征”,对它们进行聚类,并教导 MLLM 模仿这些特定的人类风格。

解决方案: 人类标注者建模 (HAM)

本文的核心贡献是 HAM 框架。目标是模拟成千上万个不同标注者的偏好。该框架主要分三个阶段运行: 风格特征提取、聚类和提示学习。

图 2. HAM 框架概览。

1. 风格特征提取

你如何将某人说的内容与他们说话的方式区分开来?

作者提出了一种聪明的方法来分离“风格”。他们提取现有的由人类编写的描述 (例如,“一个穿蓝色衬衫的男人”) ,并使用大型语言模型 (LLM) 剥离特定的身份信息。他们用模糊、通用的词语替换特定的属性。

例如:

  • 原始: “一个留着长棕色头发、穿着红色印花 T 恤的女人。”
  • 处理后: “一个留着 [发型]、穿着 [上衣] 的人。”

通过移除特定的视觉内容 (红色、棕色、印花) ,剩下的就是句子结构和用词偏好——即“风格”。然后将处理后的文本输入 CLIP 文本编码器以生成向量表示。这个向量就是风格特征

2. 聚类: 寻找角色

一旦作者从成千上万的真实人类标注中提取了风格特征,就需要对其进行分组。他们使用聚类算法 (如 KMeans) 将相似的风格向量分到一组。

如果算法找到了 \(K_1\) 个簇,它实际上就识别出了训练数据中存在的 \(K_1\) 种不同的“角色”或写作风格。一个簇可能代表非常啰嗦的标注者;另一个可能代表那些言简意赅、只关注衣服颜色的标注者。

3. 提示学习

现在到了“植入”部分: 教 MLLM 采用这些角色。

作者没有编写像“用啰嗦的风格写作”这样的手动指令,而是使用提示学习 (Prompt Learning) 。 他们为每个风格簇分配一个可学习的向量 (“软提示”) ,记为 \(\mathbf{P}_i\)。

MLLM 的输入如下所示:

等式 1: MLLM 的输入结构。

其中:

  • \(\mathbf{V}\) 代表图像特征 (AI 看到的内容) 。
  • \(\mathbf{T}\) 代表文本 token (描述) 。
  • \(\mathbf{P}_i\) 是代表特定人类风格的可学习提示。

该模型被训练为在给定图像和特定风格提示 \(\mathbf{P}_i\) 的条件下生成原始的人类描述。至关重要的是, MLLM 的参数 (“大脑”) 是冻结的 。 只有提示向量 \(\mathbf{P}_i\) 和一个小型的适配器层会被更新。这确保了 MLLM 在学习“驾驭”其输出风格的同时,保留其庞大的知识。

训练使用标准的自回归损失函数,确保生成的文本逐个 token 地匹配目标人类文本:

等式 2: 自回归损失函数。

更进一步: 均匀原型采样 (UPS)

研究人员注意到标准聚类 (如 KMeans) 的一个缺陷。真实的人类数据通常聚集在常见的、“平均”的风格周围。如果你只对密集簇进行建模,就会错过那些稀有、独特或极端的写作风格,而这些风格正是让数据集真正多样化的关键。

为了解决这个问题,他们引入了均匀原型采样 (Uniform Prototype Sampling, UPS)

他们不只是看数据在哪里,而是着眼于风格特征空间本身。他们计算了整个数据集中风格特征的均值 (\(\mu_s\)) 和标准差 (\(\sigma_s\))。

等式 3: 计算风格特征的均值。 等式 4: 计算风格特征的标准差。

利用这些统计数据,他们为有效的风格特征定义了一个“边界框”。在这个空间内,他们执行均匀采样来生成新的簇中心 \(\mathbf{c}_i\)。

等式 5: 簇中心的均匀采样。

通过均匀采样,他们强制模型学习均匀分布在可能风格空间中的风格,而不仅仅是最常见的风格。这捕捉到了人类表达的“长尾”——即人们描述事物时独特但不常见的方式,这对稳健的训练至关重要。

最终的一组提示包含了基于密度的簇 (KMeans) 和均匀簇 (UPS) ,两全其美: 既准确表现了常见风格,又广泛覆盖了稀有风格。

实验与结果

为了证明这一点,作者创建了一个名为 HAM-PEDES 的新数据库,包含使用其方法标注的 100 万张图像。然后,他们在此数据上训练了标准的 ReID 模型,并在现实世界的基准测试 (CUHK-PEDES、ICFG-PEDES 和 RSTPReid) 上进行了测试。

风格建模有帮助吗?

第一个问题是,建模风格是否比使用模板更好。下面的消融研究比较了“静态标题” (基础 MLLM 输出) 、“基于模板”的标题和 HAM 方法。

表 1. 针对本文方法 (即 HAM 和 UPS) 关键组件的消融研究。

表 1 的主要结论:

  • 静态标题 (第 1 行) 表现不佳。缺乏多样性损害了模型。
  • 模板 (第 2-3 行) 有帮助,但增加更多模板 (即使是 6800 个!) 产生的回报递减。
  • HAM (第 6 行) 明显优于模板。
  • HAM + UPS (第 13 行) 提供了最佳性能。结合常见风格建模 (KMeans) 和探索完整风格空间 (UPS) 带来了准确率的巨大飞跃 (在 CUHK-PEDES 上 Rank-1 从约 35% 增加到约 60%) 。

与其他数据集的比较

HAM-PEDES 与 SYNTH-PEDES 或通用 MLLM 生成的其他大规模合成数据集相比如何?

表 2. 与现有预训练数据集的比较。

表 2 所示,在 HAM-PEDES 上预训练的模型 (底部几行) 明显优于在其他数据集上训练的模型,即使其他数据集更大或每张图像使用更多标题。在 RSTPReid 基准测试上,HAM 方法达到了 58.85% 的 Rank-1 准确率,大幅击败了之前的最佳成绩。

即使在微调模型时,这种优势依然存在,如下面的表 3 所示。从 HAM-PEDES 学到的初始参数为模型提供了更好的起点。

表 3. 传统微调设置下与现有预训练数据集的比较。

规模的重要性

合成数据的承诺之一是可扩展性。增加更多 HAM 生成的数据是否会继续提高性能?

图 3. 预训练数据规模对直接迁移 ReID 性能的影响。

图 3 证实性能几乎随数据规模线性扩展。随着作者将预训练数据从 10 万增加到 100 万张图像,所有三个数据集上的 Rank-1 准确率 (蓝线) 都在稳步攀升。这表明 HAM 提供的多样性防止了模型过早达到“饱和点”。

最先进 (SOTA) 的性能

最后,作者将他们的最终模型与当前最先进 (SOTA) 的方法进行了比较。

表 4. 与最先进 ReID 方法的比较。

表 4 中的结果是决定性的。当使用 HAM-PEDES 进行预训练时,ReID 模型在所有基准测试中都取得了新的 SOTA 结果。例如,在具有挑战性的 RSTPReid 数据集上,他们的方法 (结合 RDE 架构) 达到了 72.50% 的 Rank-1 准确率,大幅超过了之前基于 CLIP 的方法。

结论与启示

这篇“模拟成千上万个人类标注者”的论文为合成数据问题提供了一个复杂的解决方案。它认识到, 多样性不仅仅关于内容 (图像中有什么) ,还关于风格 (如何描述它) 。

通过提取风格特征、将其聚类为角色,并使用提示学习来控制 MLLM, HAM 框架生成的标题感觉独特且像人类。添加 UPS 确保了即使是罕见的描述风格也能得到体现,防止 AI 回归平庸。

主要启示:

  1. 模板已死: 硬编码的模板无法捕捉人类语言的细微差别。
  2. 风格是一种特征: 将写作风格视为数学向量,使我们能够有效地对其进行操作和采样。
  3. 更好的数据 > 更好的架构: 巨大的性能飞跃并非来自发明新的 ReID 网络,而是来自为现有网络创建更好的训练数据。

这种方法的影响远超行人重识别领域。想象一下将 HAM 应用于医学影像报告、电商产品描述或创意写作助手。任何依赖多样化、高质量文本数据的领域,都可以从教导 AI 模仿而不仅仅是一个人类,而是成千上万个人类中受益。