超越文生图：如何评估那些用图片讲故事的 AI？

引言

想象一下，你让 AI 写一篇关于“如何烘焙酸种面包”的教程。你肯定不希望看到满屏的纯文字；你想要的是分步骤的说明，中间穿插着面团发酵、划痕图案以及最终金黄面包的照片。或者，你可能希望 AI 创作一本儿童读物，每一页的文字和插图都能自然地融合在一起。

这种能力被称为图文交错生成 (Interleaved Text-and-Image Generation) 。虽然我们已经掌握了文本生成 (感谢 GPT-4 等大语言模型) ，并在图像生成方面取得了巨大进步 (如 Stable Diffusion、DALL-E) ，但将它们结合成单一、连贯的叙事流仍然是一个前沿挑战。

然而，这个领域存在一个主要的瓶颈: 评估。

你该如何给一个多模态故事打分？如果只使用标准的文本指标，就会忽略图像。如果只使用图像指标，就会忽略故事的连贯性。现有的基准测试通常过于简单，仅侧重于单张图片的输出或僵化的格式。

在这篇深度文章中，我们将探讨一篇名为 《图文交错生成的整体评估》 (Holistic Evaluation for Interleaved Text-and-Image Generation) 的新研究论文。研究人员引入了一个全面的基准测试( InterleavedBench )和一个使用 GPT-4o 作为复杂裁判的新颖评估框架( InterleavedEval )。他们的工作揭示了多模态 AI 的现状，并为构建能够真正做到“图文并茂”的模型提供了路线图。

InterleavedBench 和 InterleavedEval 概览。

当前多模态评估的问题

在深入解决方案之前，我们需要了解为什么评估这些模型如此困难。

“苹果与橘子”般的比较难题

在传统的自然语言处理 (NLP) 中，我们使用 BLEU 或 ROUGE 等指标来比较机器翻译与人类参考译文。在计算机视觉中，我们使用 FID (Fréchet Inception Distance) 来判断图像的逼真度。

但图文交错生成的情况非常混乱。输出可能是一段文字，然后是一张图片，接着是更多文字，然后是两张图片。模型需要根据叙事流程决定在哪里放置图片以及这些图片应该描绘什么。标准的指标是“单模态”的——它们只看硬币的一面。

现有基准测试的局限性

大多数现有的基准测试都集中在文生图 (Text-to-Image, T2I) 生成上。输入是一个提示词 (“一只猫坐在垫子上”) ，输出是一张单一的图像。

图文交错生成则不同。它要求:

任意序列: 输入和输出可以是文本和图像的任意混合。
上下文感知: 第 3 步生成的图像必须与第 1 步中引入的角色保持一致。
指令遵循: 模型必须遵守复杂的、多步骤的提示。

如下图所示，以前的基准测试 (左) 侧重于简单的组合。新的 InterleavedBench (右) 则要求具有凝聚力的多步骤工作流，例如烹饪教程，其中的视觉背景会逐步变化。

现有基准测试与 InterleavedBench 的比较。

隆重介绍 InterleavedBench

为了正确测试现代大型多模态模型 (LMMs) ，研究人员构建了 InterleavedBench 。这是第一个专门为评估任意文本和图像序列而设计的整体性基准测试。

数据集构成

该基准测试包含 815 个高质量实例，分为两个子集:

基于上下文的子集 (Context-Based Subset) : 给定模型一系列文本和图像 (“上下文”) ，模型必须继续该序列。这测试了模型保持一致性的能力。
无上下文子集 (Context-Free Subset) : 模型仅接收文本指令，必须从头开始生成整个交错文章 (文本 + 图像) 。这测试了创造力和规划能力。

多样化的用例

该基准测试的一大优势在于其多样性。它不仅仅关注单一类型的任务；它涵盖了10 种不同的用例 , 从教育内容到营销材料。

InterleavedBench 用例示例，包括脚本生成和故事讲述。

如上图所示，这些任务模拟了现实世界的应用:

多模态脚本生成: 创建“WikiHow”风格的指南。
视觉故事补全: 继续讲述关于家庭度假的故事。
营销材料生成: 制作混合了文案和产品照片的广告。
报告生成: 用文字和图表总结数据。

这些任务的分布确保了模型在从事实报告到创意故事讲述的各种领域都受到测试。

InterleavedBench 中用例的分布。

对比情况

下表突出了 InterleavedBench 所填补的空白。虽然像 MagicBrush 或 DreamBench 这样的其他基准测试专注于编辑或单张图像，但 InterleavedBench 的独特之处在于要求根据详细指令生成与文本交错的多张输出图像 。

对比 InterleavedBench 与现有基准测试的表格。

评估指标: InterleavedEval

拥有数据集只是成功了一半。你还需要一种方法来对结果进行评分。

人工评估是金标准，但它既缓慢又昂贵。传统的自动化指标 (如计算向量相似度) 通常无法捕捉诸如“这张图片对这段特定段落有帮助吗？”这样的细微差别。

研究人员提出了 InterleavedEval , 这是一种由 GPT-4o 驱动的无参考指标。其核心思想是使用最先进的 LMM 作为裁判。评估器接收输入指令、模型的输出以及具体标准，并被要求提供评分 (1-5 分) 和解释。

评估的五大支柱

为了使评估具有“整体性”，研究人员将质量细分为五个不同的维度。这可以防止文本出色但图像糟糕 (反之亦然) 的模型获得误导性的高分。

五个评估维度的定义: 文本质量、感知质量、图像连贯性、图文一致性和帮助性。

文本质量 (Text Quality) : 文本是否清晰、符合语法且无幻觉？
感知质量 (Perceptual Quality) : 图像看起来真实吗？是否存在伪影或扭曲？
图像连贯性 (Image Coherence) : 图像看起来是否属于同一系列？如果“爱丽丝”出现在图 1 中，图 3 中的人看起来像爱丽丝吗？ (这对 AI 来说是出了名的难) 。
图文一致性 (Text-Image Coherence, TIC) : 图像是否真正说明了它所附带的文本？
帮助性 (Helpfulness) : 整体内容是否真正解决了用户的问题或遵循了指令？

实验与结果

研究人员使用这个新框架测试了几种领先的模型。他们将模型分为两类:

集成模型 (Integrated Models) : 设计用于处理文本和图像的单一神经网络 (例如 GILL, EMU-2, MiniGPT-5) 。
流水线模型 (Pipeline Models) : 将强大的 LLM (如 GPT-4o 或 Gemini) 与独立的图像生成器 (如 DALL-E 3 或 SDXL) 串联起来的系统。

关键发现

结果发人深省。尽管“原生”多模态模型被大肆宣传，但流水线方法目前占据主导地位。

自动评估结果显示 GPT-4o + DALL-E 3 优于其他模型。

如上表所示:

GPT-4o + DALL-E 3 在几乎所有类别中都取得了最高分。
Gemini 1.5 + SDXL 紧随其后。
集成模型 (GILL, EMU-2) 表现非常挣扎，特别是在“帮助性”和“文本质量”方面。

为什么流水线模型会赢？

定性分析表明，流水线模型之所以成功，是因为它们将规划与绘制分离开来了。

LLM 生成文本叙述，并为应该放置图像的位置编写描述 (标题) 。
图像生成器根据这些特定的标题创建视觉效果。

集成模型往往试图同时做所有事情，结果变得“困惑”，导致出现不相关的文本或与故事不符的图像。

“图像连贯性”瓶颈

即使是最好的模型也在图像连贯性方面举步维艰。注意在结果表中，图像连贯性的得分普遍低于感知质量。

对于 DALL-E 3 来说，制作一张漂亮的图片 (感知质量) 很容易。但要确保生成的图 2 中的角色与生成的图 1 中的角色拥有完全相同的衣服和面部特征，这就非常难了。这种缺乏“视觉记忆”的问题仍然是该领域的一个主要未解难题。

视觉案例研究

让我们看看实际输出来理解这些分数。

模型输出的定性比较。

在上图中:

第 1 行 (GILL) : 提示词要求描述一只母鹿保护幼崽。GILL 生成了关于完全不同主题 (机器学习概念) 的文本，显示出指令遵循的彻底失败。
第 2 行 (EMU-2) : 提示词关于去除香蕉渍。EMU-2 重复“浸泡织物”，但提供的图像质量低劣。
第 4 行 (GPT-4o + DALL-E 3) : 模型生成了一个关于“隐藏的图书馆”的连贯故事。文本引人入胜，图像质量很高，尽管图像之间的艺术风格略有变化。

按任务分类的表现

研究人员还按具体用例细分了表现。

展示不同任务表现的雷达图。

雷达图显示, 顺序图像编辑 (Sequential Image Editing) (逐步更改图像) 对几乎所有模型来说都是最难的任务。这是因为它要求严格遵守上一张图像的结构，而流水线模型 (每次都从头开始生成图像) 很难做到这一点。

该指标可靠吗？ (元评估)

我们怎么知道 InterleavedEval (使用 GPT-4o) 是准确的呢？研究人员将自动评分与人工评分进行了比较。

自动指标与人工判断之间的相关性。

上表显示了与人工判断的斯皮尔曼相关系数 (Spearman correlation) 。

InterleavedEval-GPT-4o (加粗) : 在几乎所有类别中显示出最高的相关性，特别是文本质量 (0.72) 和帮助性 (0.57) 。
传统指标 (BERTScore, CLIPScore) : 与人类对质量的感知相关性非常低，甚至接近于零。

这证实了在评估这些复杂的、开放式的任务时，使用 LMM 作为裁判比依赖数学相似度评分要优越得多。

结论与未来启示

这篇题为《图文交错生成的整体评估》的论文对多模态 AI 领域做出了重要贡献。通过建立 InterleavedBench , 作者为社区提供了一个严谨的测试场，反映了现实世界的需求——教程、故事和报告——而不是简单的字幕生成任务。

此外, InterleavedEval 证明了我们可以利用先进的 LLM 自动为这些复杂的输出评分，并获得与人类直觉紧密一致的结果。

给学生的核心要点:

流水线目前是王道: 如果你需要今天就构建一个图文交错生成应用，将智能 LLM 与智能图像生成器串联起来，比使用单一的端到端模型效果更好。
连贯性是挑战: 下一个重大突破可能在于“图像连贯性”——赋予生成模型工作记忆，以便视觉元素在整个故事中保持一致。
指标至关重要: 你无法改进你无法衡量的东西。从 BLEU/FID 转向整体的、基于维度的评估对于生成式 AI 的进步至关重要。

这项研究强调，虽然 AI 现在可以同时“写和画”，但教它讲一个连贯、有帮助且视觉统一的故事，是一个才刚刚开始被解决的挑战。

引言#

当前多模态评估的问题#

“苹果与橘子”般的比较难题#

现有基准测试的局限性#

隆重介绍 InterleavedBench#

数据集构成#

多样化的用例#

对比情况#

评估指标: InterleavedEval#

评估的五大支柱#

实验与结果#

关键发现#

为什么流水线模型会赢？#

“图像连贯性”瓶颈#

视觉案例研究#

按任务分类的表现#

该指标可靠吗？ (元评估)#

结论与未来启示#

给学生的核心要点:#

引言