魔鬼藏在数据中: CoMM 如何修正多模态 AI 生成

如果你曾经尝试让 AI 写一本连贯的绘本或制作一个带有连贯插图的分步教程,你可能已经发现了一个问题。虽然现代多模态大型语言模型 (MLLM) 在描述单张图像或根据文本生成单张图片方面表现出色,但它们往往难以讲述一个连续的故事。角色在不同的画面之间外貌发生变化,逻辑跳跃,或者文字和图像似乎根本不在同一个频道上。

为什么会发生这种情况?答案通常在于“垃圾进,垃圾出” (Garbage In, Garbage Out) 原则。大多数模型都是在从网络上抓取的海量数据集上训练的,这些数据嘈杂、脱节且缺乏叙事流畅性。

在这篇文章中,我们将深入探讨一篇研究论文,该论文正是为了解决这个问题。研究人员推出了 CoMM , 这是一个高质量的数据集,旨在教导 AI 模型在生成图文交错内容时如何保持连贯、一致和逻辑合理。

问题所在: 重量不重质

要理解为什么 CoMM 是必要的,我们首先需要看看现有数据集 (如 MMC4 和 OBELICS) 的局限性。这些数据集非常庞大,包含数十亿从网络上抓取的图文对。然而,“大”并不总是意味着“好”。

研究人员指出了当前数据集的三个关键缺陷:

  1. 叙事不连贯: 文本无法从一个步骤逻辑流畅地过渡到下一个步骤。
  2. 实体不一致: 视觉元素随机变化 (例如,步骤 1 中的“蓝色沙发”在步骤 2 中变成了“红色椅子”) 。
  3. 图像模态的数据稀缺: 现有数据集中的大多数文档只包含一两张图片,这不足以教会模型如何处理长形式的视觉序列。

三个数据集的每篇文档图像-句子数量分布可视化。

如上图 Figure 2 所示,请观察每篇文档的图像分布情况。MMC4 和 OBELICS 的图表 (左上和右上) 严重偏向左下角,这意味着大多数文档的图像非常少 (中位数 = 1 或 2) 。

相比之下, CoMM 数据集 (下图) 显示出更健康的分布。它的每篇文档图像中位数为 4 张,并且有大量文档包含更多图像。这种密度对于教导模型如何在较长序列中保持上下文至关重要。

CoMM 登场: 构建更好的数据集

那么,如何构建一个能解决这些问题的数据集呢?研究人员不仅仅是抓取更多数据;他们极其精确地对其进行了策划和过滤。

1. 寻找高质量的原始数据

团队没有抓取随机网站,而是专注于以结构化叙事闻名的来源,特别是:

  • 指导性内容: 像 WikiHow 这样的网站,其中的连贯性是强制性的 (步骤 1 必须 导向步骤 2) 。
  • 视觉叙事: 致力于故事的平台,确保叙事流畅。

下面的 Figure 5 展示了 CoMM 涵盖的多样化主题,从园艺和烹饪到技术和人际关系。

CoMM 数据集的主题可视化,显示了园艺、烹饪和技术等多样化类别。

2. 多视角过滤策略

原始数据很少是完美的。为了打磨数据,研究人员使用先进的 AI 模型开发了一个三阶段过滤管道。

A. 文本序列过滤器 他们利用大型语言模型 (LLM,如 Llama-3) 来阅读文档文本,并对发展性连贯性进行评分。如果文本脱节或荒谬,该文档就会被丢弃。

B. 图像序列过滤器 这部分的数学原理很有趣。目标是确保图像在视觉上是一致的 (看起来属于同一组) ,但也表现出进展 (不仅仅是重复) 。

为了实现这一点,他们使用 CLIP (一种视觉-语言模型) 嵌入定义了一个度量标准。

公式 1: 图像序列过滤器度量标准。

让我们拆解这个公式:

  • 第一项 (正项) : 计算连续图像 (\(x_i\) 和 \(x_{i-1}\)) 之间的相似度。这奖励平滑的过渡。
  • 第二项 (负项) : 计算所有图像对之间的相似度。如果所有图像看起来完全一样,这将惩罚该序列。

通过最大化这个分数,过滤器会选择那些视觉上连贯但又足够独特以讲述故事的图像序列。

C. 图文对齐过滤器 最后,他们使用 MLLM 确保图像确实与文本描述相符,过滤掉视觉内容与说明无关的文档。

偏好训练: DPO 的优势

研究人员并不止步于清洗数据。他们还创建了一个偏好数据集 , 以使用强化学习技术,特别是直接偏好优化 (DPO) ,来进一步微调模型。

在这种设置中,“正样本”是原始的高质量文档。为了创建“负样本” (即不该做的反例) ,他们巧妙地处理了数据:

  • 打乱文本: 保持图像固定,但打乱文本顺序。
  • 打乱图像: 保持文本固定,但打乱图像顺序。
  • 打乱步骤: 随机化整个图文对的顺序。

这教导模型顺序和对齐很重要——步骤 1 必须在步骤 2 之前,且图像必须与其旁边的文本相匹配。

结果: 它有效吗?

CoMM 的评估非常全面,涵盖了数据集质量、下游任务性能和新的生成基准。

1. 数据集质量比较

研究人员使用 GPT-4o 和 Llama-3 对数据集的质量指标进行了“评分”。

表 1: 图文交错数据集的质量比较。

Table 1 所示,CoMM 在所有指标上都显着优于 MMC4 和 OBELICS:

  • 发展性 (DLP): 叙事流程更强。
  • 完整性 (CPL): 文档感觉更完整。
  • 图文对齐 (ITA): 图片确实与文字相符。
  • 图像序列质量 (ImgS): 视觉效果更加一致。

2. 提升下游任务

测试数据集最好的方法之一是用它训练一个模型,看看它在其他任务上是否变得更聪明。研究人员使用 CoMM 训练了一个基线模型 (OpenFlamingo) ,并将其与在 MMC4 和 OBELICS 上训练的版本进行了比较。

表 2: 下游少样本任务的性能比较。

Table 2 强调了在视觉问答 (VQA) 和图像描述 (COCO) 等任务上的结果。在 CoMM 上训练的模型 (底部行) 始终击败基线,特别是在模型必须从极少样本中学习的“少样本 (few-shot) ”设置中。这证明 CoMM 提高了模型的上下文学习能力。

3. 定性分析: “直观”检验

数字固然重要,但在多模态 AI 中,眼见为实。让我们看看在不同数据集上训练的模型如何处理生成请求。

图 3: 图文交错内容生成比较的可视化。

Figure 3 中,我们看到了在 MMC4 (左侧面板) 和 CoMM (右侧面板) 上训练的模型之间的比较。

  • 失败案例: 当被要求生成“肉桂苹果脆片”或“塑料瓶花盆”的说明时,MMC4 训练的模型通常无法生成相关图像或完全停止生成文本。
  • 成功案例: CoMM 训练的模型生成了分步说明,并配有相关的、一致的图像,看起来确实像是一个有用的指南。

我们也可以专门看看视觉叙事。

图 10: 在 MMC4 与 CoMM 上训练的 SEED-Llama 故事叙述可视化比较。

Figure 10 中,叙事风格的差异非常明显。CoMM 模型 (右侧) 生成了一个关于“环游世界的女孩”的连贯故事,包含明显的章节和插图。MMC4 模型 (左侧) 则生成了一个缺乏叙事结构的脱节的产品描述。

新时代的新基准

由于现有的基准测试并非为这种水平的交错生成而设计,研究人员提出了四个新任务来标准化未来的评估:

  1. 图像到文本序列生成: 给定一系列图像,写出故事。
  2. 文本到图像序列生成: 给定一个故事,生成插图。
  3. 续写: 给定文档的前半部分,完成它。
  4. 基于问题的生成: 根据用户查询 (例如,“我该如何烤蛋糕?”) 生成完整的教程。

他们在这些任务上对 MiniGPT-5、SEED-Llama 和 Emu2 等顶级模型进行了基准测试。

表 3: 不同模型在四个生成任务上的性能比较。

Table 3 提供了这些新任务的基线分数。有趣的是,不同的模型擅长不同的事情——MiniGPT-5 在文本指标 (ROUGE) 上表现出色,而 Emu2 通常在图像质量 (FID) 上得分更高。这凸显了要构建一个真正的“全能”多模态生成器,我们还有工作要做。

最后,研究人员展示了他们的偏好数据集结合直接偏好优化 (DPO) 的威力。

表 4: 经 DPO 训练的 SEED-Llama 的性能结果。

Table 4 所示,应用 DPO (标有“+ DPO”的行) 后,几乎所有指标的性能都比标准模型显着提升。这证实了教导模型不该做什么 (通过负样本) 与展示该做什么同样重要。

结论

CoMM 数据集代表了我们处理多模态 AI 训练方式的转变。它摒弃了“越大越好”的心态,转而拥抱“更干净、更连贯才更好”。

通过专注于指导性和叙事性内容,并应用严格的过滤以确保逻辑和视觉一致性,CoMM 为下一代 MLLM 提供了蓝图。这些模型不仅能够识别照片中的猫;它们还能给你讲一个关于这只猫的故事,向你展示如何一步步照顾它,并确保这只猫从头到尾看起来都是同一只猫。

对于进入该领域的学生和研究人员来说,结论很明确: 数据质量是瓶颈。 模型架构的改进固然重要,但如果没有像 CoMM 这样连贯的数据,即使是最优秀的算法也难以讲出令人信服的故事。