对通用人工智能 (AGI) 的追求往往感觉像是一场硬件竞赛——更大的集群,更多的 GPU。但资深研究人员都知道,瓶颈正日益变成数据质量 。 为了构建超越人类平均智力的 AI 智能体,我们需要包含超人类知识的训练数据。
在计算机视觉领域,特别是图像字幕 (Image Captioning) 生成方面,我们面临一个重大问题。大多数现有的训练数据集由幼稚、通用的描述组成。如果你给模型展示一张稀有的“普通鬣蜥”照片,标准数据集可能只会将其标记为“树枝上的蜥蜴”。这对用户来说用处极小。
相反,互联网上充满了“替代文本 (alt-text) ”——由用户上传的元数据。这些文本通常包含专家级的具体信息 (例如,特定物种名称、日期或地点) ,但往往充满噪声、语法错误,或者与图像像素仅有松散的对齐。
这篇博客文章将探讨 Altogether , 这是一篇来自 Meta FAIR 及其合作者的最新研究论文。研究人员提出了一个原则性的方法来解决这一困境。与其从头生成图像字幕 (这会丢失具体细节) 或使用原始的嘈杂替代文本,他们提出了一种将现有替代文本与图像重对齐 (re-align) 的方法。这种方法创建了一个高质量的合成数据集,显著提升了图像字幕生成、文本到图像生成以及零样本分类的性能。
核心问题: 特异性 vs. 质量
目前改进图像字幕的方法通常分为两大阵营:
- 从头生成字幕: 模型 (通常是像 GPT-4V 这样的大型专有模型) 观察图像并生成描述。虽然语法完美,但这些模型经常产生幻觉,或者遗漏它们无法识别的特定实体。它们可能会将一件特定的“1992年迈阿密大学 T 恤”仅仅称为“一件绿色衬衫”。
- 使用原始替代文本: 这保留了特定的“1992年迈阿密大学”文本,但可能包含不相关的元数据 (如文件名) 或完全缺失视觉描述。
Altogether 的作者们发现了一个关键洞察: 编写替代文本的原始创作者很可能是该领域的主题专家。 他们知道具体的狗品种或度假照片的地点。以后再看这张照片的 AI (或随机的人类标注员) 无法恢复那些丢失的上下文信息。
因此,目标不应该是重写字幕,而是优化它——保留替代文本中的丰富实体,同时将结构和视觉细节与实际图像内容进行对齐。
Altogether 方法
Altogether 方法包含两部分: 用于创建微调数据集的人工标注策略,以及经过训练以大规模自动化此过程的参数高效模型架构。
1. 标注策略: 迭代优化
研究人员意识到,要求人类从头开始编写密集的字幕很难,而且往往导致通用的结果。相反,他们采用了下图所示的迭代过程。

如 图 1 所示:
- 第 1 轮 (替代文本) : 我们从原始元数据开始。它包含特定实体 (“普通鬣蜥”) ,但缺乏视觉背景。
- 第 2 轮: 标注员优化这段文本,将其与视觉线索对齐 (描述颜色和位置) 。
- 第 N 轮: 最终的字幕是一个密集、纯净的描述,它保留了专家知识 (“鬣蜥”) ,但增加了描述的准确度 (“灰色的头”、“绿色的身体”、“爬在棕色的树枝上”) 。
2. 模型架构
我们如何教神经网络执行这种“重对齐”?研究人员设计了一个基于 ClipCap 架构的轻量级字幕生成器。
该架构需要处理两个不同的输入: 图像本身和原始替代文本。

如 图 2 所示,该流程如下工作:
- 图像编码器: 一个冻结的 CLIP 图像编码器处理输入图像。
- 映射网络: 一个 Transformer 将 CLIP 嵌入转换为固定序列的“视觉 token” (语言模型可以理解的向量) 。
- 文本解码器: 一个可训练的语言模型 (OPT 1.3B) 接收视觉 token 和 token 化的替代文本。
魔力发生在解码器中。因为它关注替代文本 token,它可以将特定实体 (如鬣蜥的名字) “复制”到最终输出中。因为它关注视觉 token,它确保描述实际上与图片相符 (例如,删除关于不可见对象的文本) 。
重对齐的数学原理
为了形式化这一点,让我们看看标准的图像字幕目标函数。通常,模型预测给定图像 \(i\) 时字幕 token \(t\) 的概率:

然而,Altogether 改变了条件。模型现在以图像 \(i\) 和之前的字幕 (替代文本) \(t'\) 为条件:

在前面描述的迭代标注过程中,下一轮的“基准真值 (ground truth) ”变成了当前轮的输入:

训练目标上的这种简单转变,使模型能够充当智能编辑器,而不仅仅是生成器。
它有效吗?实验结果
研究人员将他们的模型与最先进的基线进行了评估,包括像 GPT-4V 这样的大型专有模型。他们使用了 WIT (维基百科图像-文本) 数据集的一个子集进行测试,该数据集以拥有丰富、包含大量实体的描述而闻名。
定性分析
该模型在保留信号的同时过滤噪声的能力通过示例得到了最好的展示。

在 表 3 中,注意第二行 (海螺) 。
- 替代文本: “conch” (海螺) , “a rock” (一块岩石) 。
- 重对齐字幕: “A photo of a conch shell on a sandy beach…” (沙滩上的一张海螺壳照片…)
模型保留了特定术语“conch” (通用的模型可能只会称之为“贝壳”) ,但删除了错误的标签“a rock”,因为视觉 token 不支持它。这表明模型根据视觉证据有效地拒绝了替代文本中的幻觉。
人类评估
像 BLEU 和 CIDEr 这样的指标在捕捉密集字幕的事实正确性方面出了名地差。研究人员进行了一项人类研究,看看人们实际上更喜欢哪些字幕。

图 3 显示 Altogether (第 3 轮,紫色) 取得了明显的胜利。
- 对齐性 (Alignment) : 它的幻觉比 GPT-4V 还要少。
- 特异性 (Specificity) : 它包含明显更多的命名实体和具体细节。
- 有用性 (Usefulness) : 相比从头生成字幕的模型,它更好地保留了替代文本中有用的部分。
下游任务: 文本到图像生成
更好的字幕最有价值的应用之一是训练图像生成器 (如 Stable Diffusion 或 DALL-E) 。如果训练字幕更好,图像生成器应该能更好地遵循提示词。
研究人员使用他们的合成字幕与原始替代文本对比训练了一个潜在扩散模型 (LDM) 。

表 5 表明,使用 Altogether (第 3 轮) 合成字幕训练的模型获得了显著更高的 CLIP 分数 (29.8 vs 27.0) 。这意味着生成的图像在语义上与文本提示词更加对齐。
下游任务: 零样本分类
最后,这些数据对判别模型 (如 CLIP 本身) 有帮助吗?研究人员使用真实替代文本和合成字幕的不同混合比例训练了 CLIP 模型。

图 4 揭示了一个有趣的细微差别。虽然合成字幕很棒,但你不应该在分类任务中 100% 依赖它们。
- 橙色线 (26 个任务的平均值) 在 15% 的混合比例 左右达到峰值。
- 如果你用合成字幕替换所有数据 (比例 1.0) ,性能会下降。
为什么?很可能是因为合成字幕——虽然干净——可能会“抹平”原始替代文本中存在的一些混乱的、长尾的概念,而这些对于在多样化数据集上进行零样本分类至关重要。然而,用 15% 的重对齐数据补充真实数据提供了明显的提升 (大约 +1.1% 的准确率) 。
结论
Altogether 论文为数据集创建的未来提供了一个引人注目的蓝图。它挑战了仅依靠“黑盒”专有模型来清洗数据的趋势。
通过将图像字幕生成视为一项重对齐任务而非生成任务,我们可以:
- 保留智慧: 保留埋藏在元数据中的特定实体和专家知识。
- 确保对齐: 使用视觉编码器过滤掉噪声和幻觉。
- 高效扩展: 使用轻量级解码器处理数十亿张图像。
对于学生和研究人员来说,这强调了一个重要的教训: 数据不仅仅关乎数量。元数据 (替代文本) 和信号 (像素) 之间的结构关系是一种可以利用的资源,可用于构建更智能、更准确的模型。
](https://deep-paper.org/en/paper/2410.17251/images/cover.png)