引言

俗话说,“一图胜千言”。然而,如果我们看看目前训练人工智能理解图像的方式,现实情况更接近于“一图仅值寥寥数语”。

最先进的视觉语言模型 (VLMs) ——那些负责理解照片和生成艺术作品的 AI 系统——主要是在从网络上抓取的数据集上训练的。这些数据集依赖于“Alt 文本 (替代文本) ”,即隐藏在网站代码中简短且通常以 SEO 为导向的标题。虽然有一定帮助,但 Alt 文本很少具有描述性。它可能会说“Canon EOS R6” (相机元数据) 或“Europe vacation” (欧洲假期,位置) ,但很少详细描述视觉场景、光线、纹理或空间关系。

这为 AI 的性能设定了天花板。如果模型是在模糊、简短的文本上训练的,它们就会产生模糊、简短的回答。它们会产生幻觉 (Hallucinate) 细节,因为它们没有学会精确。

ImageInWords (IIW) 应运而生,这是由 Google DeepMind、Google Research 和华盛顿大学的研究人员推出的一个新框架。他们的目标是打破“寥寥数语”的障碍,策划出往往超过 200 个单词的超详细图像描述,捕捉场景的每一个细微差别。通过将人类的专业知识与机器的效率相结合,他们创建了一个数据集和一种微调方法,其性能大大优于现有的基准。

在这篇文章中,我们将剖析 ImageInWords 框架是如何工作的,为什么“人机回环 (human-in-the-loop) ”是秘诀所在,以及这些新数据如何让模型以惊人的保真度重建图像。

问题所在: VLM 的“数据饮食”

要理解为什么 ImageInWords 是必要的,我们首先需要看看当前视觉模型的“饮食结构”。

大多数 VLM 消耗像 LAION 或 COCO 这样的海量数据集。虽然这些数据集很大,但充满噪声。为了解决这个问题,人们创建了“密集”描述数据集,如 DCI 或 DOCCI,这些数据集雇佣人类编写更长的描述。然而,这些人工标注的数据集主要存在三个问题:

  1. 不一致性: 没有严格的指导方针,一个标注者可能专注于颜色,而另一个则专注于动作。
  2. 疲劳: 为单张图片写一段 200 字的描述在精神上是令人疲惫的。随着标注者感到疲倦,质量会下降。
  3. 幻觉: 令人惊讶的是,即使是人类在描述中也会产生“幻觉”,假设一些严格来说不可见的细节 (例如,当一个人的脸是中性表情时,将其描述为“悲伤”) 。

纯模型生成的描述虽然更便宜,但在幻觉和缺乏依据方面问题更严重。IIW 研究人员提出了一个中间路线: 人机回环框架 , 即机器先完成繁重的工作,然后由人类进行细化和润色。

ImageInWords 框架

这篇论文的核心创新不仅在于数据集本身,还在于用于创建它的过程。研究人员设计了一个流程,将“描述一切”这一艰巨任务分解为可管理的步骤,使用了一种称为种子式顺序标注 (Seeded Sequential Annotation) 的方法。

1. 种子的力量

万事开头难。编辑草稿则容易得多。IIW 使用高性能的 VLM 来生成“种子”描述。这些初稿可能并不完美,但它们为人类标注者提供了构建的基础。随着项目的进展,研究人员实际上使用他们收集的数据重新训练了 VLM,创建了一个主动学习循环 (Active Learning Loop) ,使得种子描述的质量随着时间的推移越来越好。

2. 任务 1: 对象级描述

在描述整个场景之前,该框架强制关注组件。在任务 1 中,系统使用对象检测来识别显著物体。

展示边界框和描述的任务 1 IIW 标注界面。

如上图所示,界面向标注者展示了特定对象的边界框和生成的描述。人类的工作还不是写小说,而是验证和优化图像的这些“乐高积木”。他们修复边界框,更正标签,并确保该特定对象的具体属性 (颜色、纹理、形状) 是准确的。

人工增强后的任务 1 IIW 标注界面。

在增强视图 (上图) 中,你可以看到人类标注者是如何细化数据的。他们可能会合并两个框 (例如,“轮胎”和“轮子”) 或添加缺失的细节。这种细粒度的关注确保了在编写最终描述时,没有任何小物体被遗漏。

3. 任务 2: 图像级综合

一旦对象被定义, 任务 2 就是将它们编织在一起。标注者会获得经过优化的对象描述和全局种子标题。他们的目标是创建一个连贯的叙述。

图解从任务 1 对象标注到任务 2 详细描述的流程。

上图 3 展示了这个工作流程。系统从孤立的对象数据 (左) 移动到全面、流畅的描述 (右) 。

为了确保高质量,研究人员采用了顺序增强 (Sequential Augmentation) 。 他们没有要求一个人写出完美的描述,而是使用多轮次进行。

  1. 标注者 A 起草描述。
  2. 标注者 B 查看图像和标注者 A 的草稿,并添加缺失的细节或修复错误。
  3. 标注者 C 进一步完善它。

这就像是一个同行评审系统。它减少了任何单一个体的认知负荷,并产生了明显更丰富的内容。

图表显示随着标注轮次的增加,Token 数量增加而耗时减少。

图 2 (上图) 中的数据证明了这种方法的有效性。随着标注轮次的推进,Token 数量 (长度/细节) 增加,但每轮花费的时间减少。此外,标注者之间的一致性 (Jaccard 相似度) 提高,表明描述正在收敛到一个高质量的“事实”。

4. 人机回环学习

这个顺序过程的一个有趣的副作用是,人类工作者实际上在互相训练。通过查看前几位标注者的编辑和补充,工人们潜移默化地学习了项目的高标准,随着时间的推移提高了他们自己的初稿质量。

图解展示标注者如何在顺序轮次中互相学习。

结果: 更丰富的数据

那么,与以前的数据集相比,ImageInWords 的描述是什么样子的呢?它明显更长,语言也更多样化。

像 COCO 甚至 DCI 这样的数据集平均可能有 15 到 100 个单词,而 IIW 的描述平均超过 200 个 Token 。 它们包含的名词和动词比最接近的竞争对手多出约 50%。

研究人员还关注“可读性”和写作风格。他们不只是想要一个对象列表;他们想要一个自然流畅的描述。

条形图显示 IIW 与其他数据集的可读性指标对比。

上面的图表展示了各种可读性指标 (如 Flesch-Kincaid 年级水平) 。蓝色条形 (IIW) 始终显示出比 DCI (橙色) 和 DOCCI (绿色) 更“成熟”的写作风格。这表明 IIW 的描述读起来不像是机器人的列表,更像是专业的散文。

“描绘画面”的指导方针

实现这一质量的关键部分是给标注者的指导。他们被告知要像是在指导画家复制图像一样写作,而画家并看不到图像。这包括特别关注摄像机角度

标注指南中不同摄像机角度的示例。

通过明确标记视角——无论是“荷兰式倾斜 (Dutch tilt) ”、“鸟瞰图 (Bird’s eye view) ”还是“仰视图 (Worm’s eye view) ”——这些描述提供了简单的对象列表所忽略的关键空间上下文。

实验: 它有效吗?

收集数据是昂贵的。最大的问题是这种超详细的数据是否真的能改进 AI 模型。研究人员进行了广泛的实验来寻找答案。

1. 人类并排 (SxS) 评估

首先,他们简单地要求人类将 IIW 的描述与其他数据集和 GPT-4V 的描述进行比较。评分标准包括全面性、具体性和幻觉。

表格显示人类相比于之前的研究更偏好 IIW 数据。

结果 (表 2) 压倒性地支持 IIW。在具体性和全面性方面,IIW 以超过 60% 的幅度击败了竞争对手。即使对抗 GPT-4V (下表 3) ,IIW 的描述也更受欢迎,这突显了即使是强大的 LLM 仍然会遗漏人类引导框架所能捕捉到的视觉细微差别。

表格对比模型生成的描述。

2. 微调视觉模型

研究人员使用 IIW 数据集微调了一个 PaLI-3 5B 模型。他们想看看在这个数据上训练的模型是否能学会“看”得更清楚。

为了测试这一点,他们使用微调后的模型为图像生成描述,然后使用这些描述来验证它们是否能处理复杂的推理任务。

表格显示在 ARO、SVO-Probes 和 Winoground 上的推理准确率。

表 13 展示了在推理基准测试 (如区分“人倒牛奶”和“牛奶被倒”) 上的结果。IIW 训练的模型 (PaLI-3 + IIW) 在 Winoground 和 Visual Genome Relations (VG-R) 等具有挑战性的子集上取得了最高的准确率,优于 InstructBLIP 和 LLaVA 等更大的模型。这证明在详细描述上进行训练教会了模型理解关系和属性,而不仅仅是识别物体。

3. 终极测试: 文本到图像重建

也许最令人信服的实验是文本到图像 (T2I) 重建 。 如果描述真的是“超详细”的,你应该能够将其输入到图像生成器 (如 Imagen 或 DALL-E) 中,并得到一张看起来几乎与原始照片一模一样的图像。

研究人员选取图像,使用在 DCI、DOCCI 和 IIW 上训练的模型生成描述,然后将这些文本描述输入到 T2I 模型中。然后,人类对生成的图像与原始图像的相似度进行排名。

T2I 输出和人类排名的示例。

在上面的例子中,看看那个黄色灯具的“原始图像 (Original Image) ”。

  • DCI 的描述 (“A medium-close-up view…”) 导致了一个通用的黄色灯具。
  • IIW 的描述更丰富: “灯具的外球体装饰着方块网络……沐浴在温暖的微黄光芒中。”
  • 来自 IIW 提示的生成图像 (排名第一) 捕捉到了其他人错过的特定网格纹理和光照氛围。

条形图显示 IIW 描述始终导致排名第一的重建。

统计数据支持了这一点。图 18(b) 显示,无论句子长度如何,与其他描述 (DCI 和 DOCCI) 相比,从 IIW 描述生成的图像 (黄色条) 始终获得“排名第一” (与原始图像最相似) 。这证实了 IIW 框架捕捉到了显著的视觉信息——那些真正让图像看起来像它自己的东西。

微调任务概览

为了取得这些结果,模型不仅仅是被训练来“预测下一个单词”。研究人员采用了源自其丰富标注数据的多种微调任务。

微调任务示意图,包括物体描述和最终描述。

如图 13 所示,该模型在混合任务上进行训练:

  • 区域任务: 为描述预测边界框。
  • 显著物体任务: 列出场景中的所有重要物品。
  • 描述任务: 生成完整的、超详细的段落。

这种多任务方法确保模型在学会表达 (知道如何描述它们) 的同时保持接地 (知道事物在哪里) 。

结论与启示

ImageInWords 代表了我们在思考视觉语言数据方式上的一个转变。多年来,该领域一直在追求数量——从网络上抓取数十亿个充满噪声的图像-文本对。这篇论文主张质量

通过设计一个严格的、人机回环的框架,研究人员创建了一个数据集,其中的文本终于与其描述的像素一样丰富。

  • 标注更加全面和具体。
  • 在此数据上训练的模型能更好地推理视觉关系。
  • 这些描述允许高保真的图像重建。

虽然数据集本身 (约 9000 张图像) 与网络规模的数据库相比很小,但它对微调的影响表明,少量的“金标准”数据可能比成山的噪声更有价值。随着 VLM 的不断发展,像 ImageInWords 这样的框架对于教 AI 不仅是标记图像,而且是真正理解和描述它所看到的世界将至关重要。

对于学生和研究人员来说,IIW 提供了一个新的基准 (IIW-Eval) 和一个关于如何策划高质量多模态数据的蓝图。它提醒我们,在自动化时代,人类的指导仍然是开启下一级 AI 能力的关键。