Type-R: AI 终于能在生成图像中正确拼写了

如果你玩过 Stable Diffusion、DALL-E 3 或 Flux 等文生图模型，那你一定对一种特定的挫败感不陌生。你在提示词中要求生成一张写着“FUTURE”的酷炫赛博朋克海报，结果模型生成了一张令人惊叹的图片……但上面的文字却是“FUTRE”、“FUTUUE”，或者是某种看起来依稀像英语的外星象形文字。

虽然生成式 AI 已经精通光照、纹理和构图，但在拼写方面却臭名昭著。这种现象通常被称为“意大利面条式文字” (spaghetti text) 问题，它导致许多生成的图像如果不经过大量人工编辑，就无法用于专业平面设计。

在本文中，我们将深入探讨一篇名为 “Type-R: Automatically Retouching Typos for Text-to-Image Generation” 的研究论文。研究人员提出了一种无需训练的新颖方法，可以自动修复这些排版噩梦。它就像是一个专门为你 AI 生成的艺术作品服务的拼写检查器和视觉编辑器。

图 1 展示了 Type-R 修正 CVPR 海报中的拼写错误。

如图 1 所示，系统接收一张包含乱码文字 (如“CVPPR”和“Orgalized”) 的图像，检测错误，并在不破坏精美背景的情况下无缝修正它们 (变为“CVPR”和“Organized”) 。

问题所在: 为什么 AI 不会拼写？

在看解决方案之前，了解问题本身很有帮助。大多数文生图模型将文本处理为 Token (字符块) ，而不是单个字母。当模型学习“apple”长什么样时，它将“apple”的 Token 嵌入与苹果的视觉特征联系起来。然而，它很少学习到在视觉上渲染这个单词所需的精确字形序列 (A-P-P-L-E) 。

以前解决这个问题的尝试包括:

扩大规模 : 向模型投喂更多数据 (成本高昂且不能保证结果无拼写错误) 。
专用架构 : 像 TextDiffuser 这样的模型是专门为文本布局训练的。然而，正如我们稍后将看到的，为了把字写对，这些模型往往会牺牲图像的艺术质量。

Type-R 背后的研究人员提出了一个不同的问题: 与其和图像生成器较劲，为什么不直接在图像生成后进行修复呢?

解决方案: Type-R 流水线

Type-R (代表 Typeography Retouching，排版修饰) 是一个后处理流水线。它是“模型无关”的，意味着你可以将其插入到 Stable Diffusion 3、Flux 或未来的任何模型中，而无需微调这些庞大的网络。

这个过程就像人类编辑修正草稿一样运作。它寻找错误，擦除它们，规划修正内容的位置，然后写入正确的文本。

图 2 展示了 Type-R 流水线的四个阶段: 错误检测、文本擦除、布局重新生成和拼写修正。

如图 2 所示，该流水线包含四个明显的阶段。让我们逐一分解。

阶段 1: 错误检测 (Error Detection)

首先，Type-R 需要知道哪里出了问题。系统获取生成的图像，并通过 OCR (光学字符识别) 模型来“阅读”画布上当前的内容。然后，它将检测到的文本与用户提示词中要求的文本进行对比。

这不像字符串比较 (if "CVPPR" != "CVPR") 那么简单。模型可能生成了多余的单词，完全遗漏了单词，或者把单词拆分了。

为了解决这个问题，研究人员利用最优传输 (Optimal Transport) 将其构建为一个匹配问题。他们计算将检测到的单词转换为提示词单词的“成本”。

定义使用 Levenshtein 距离的最优传输机制的方程。

这里的核心数学原理是最小化提示词单词集 (\(W\)) 与检测到的单词集 (\(\hat{W}\)) 之间的编辑距离 (Levenshtein 距离) 。

如果单词数量不匹配，他们会用“虚拟”Token (\(p\)) 填充集合。

展示单词集如何填充至等长的方程。

如果一个提示词单词匹配到一个虚拟 Token，意味着图像中缺失了一个单词。
如果一个检测到的单词匹配到一个虚拟 Token，意味着图像中有多余的文本。
如果一个提示词单词匹配到一个检测到的单词但距离非零 (例如 “Hamburger” 对比 “Humobbrer”) ，这就是一个拼写错误 。

阶段 2: 文本擦除 (Text Erasing)

一旦识别出错误，系统就会清理画布。

如果错误检测阶段发现了“意外”单词 (提示词中没有的幻觉文本) ，Type-R 会使用一个名为 LaMa 的修复 (inpainting) 模型。它会在错误的文本上创建一个遮罩，并要求 LaMa 用背景纹理填充它，从而有效地擦除错误。

阶段 3: 布局重新生成 (Layout Regeneration)

如果图像生成器完全忘记包含某个单词怎么办？或者如果我们因为单词位置错误而擦除了它怎么办？

Type-R 需要决定把缺失的文本放在哪里。研究人员没有使用启发式算法，而是利用了视觉语言模型 (VLM)，具体来说是 GPT-4o 。他们将图像和缺失单词列表输入给 GPT-4o，并要求它输出一个 JSON 文件，其中包含新文本的最佳边界框坐标。

这是对现代 LLM 的巧妙运用——利用它们关于设计的“常识”将文本放置在合乎逻辑且美观的位置。

阶段 4: 拼写修正 (Typo Correction)

现在进行实际的修复。我们有了正确的位置 (来自阶段 3) 和干净的画布 (来自阶段 2) 。Type-R 使用一个名为 AnyText 的文本编辑模型。

与只填充空洞的标准修复不同，AnyText 能够根据条件渲染特定的字形。然而，即使是 AnyText 也不完美；它可能把 “CVPPR” 修正为 “CVPR”，但意外地搞砸了字体风格。

为了处理这个问题，Type-R 在一个循环中运行。它尝试一次修正，用 OCR 读取结果，检查是否正确，如果不正确，就重试。

算法 1 展示了拼写修正的迭代循环。

如算法 1 所示，这个循环会一直持续，直到拼写完美或达到最大尝试次数。

实验: 真的有效吗？

研究人员使用 MARIO-Eval 基准测试了 Type-R，这是一个评估文生图模型的标准数据集。他们将 Type-R 与 Flux 和 Stable Diffusion 3 (SD3) 等最先进的模型结合，并与 TextDiffuser 等专门以文本为中心的模型进行了比较。

视觉对比

视觉上的差异是惊人的。专用模型通常为了把字写对而牺牲背景的复杂性。通用模型 (如 Flux) 能创造令人惊叹的背景，但在文本上会失败。Type-R 提供了两全其美的方案。

图 3 对比了 Flux、Type-R 和 TextDiffuser 生成的图像。

在图 3 中，看看 “Regis Philbin” 的例子 (第一行) 。

TextDiffuser (第 3 列) 创建了一张非常简单、甚至有些平淡的海报。文字可读，但设计很无聊。
Flux (Raw) (第 1 列) 创建了一张充满活力、复杂的图像，但文字是乱码 (".heioa.de") 。
Flux + Type-R (第 2 列) 保留了充满活力的 Flux 背景，但将文字修正为 “Regis Philbin” 和 “Mark Malkoff”。

权衡: 美观 vs. 准确

论文中最有趣的发现之一是平面设计质量 (图像看起来有多好) 与 OCR 准确率 (拼写有多正确) 之间的权衡。

图 5 绘制了 OCR 准确率与平面设计质量的关系图。

这张图表 (图 5) 说明了一切:

左上角 (Dall-E 3, Flux) : 高图形质量，但文本准确率较低。
右下角 (TextDiffuser, Simple Text) : 高文本准确率，但图形质量低。
最佳平衡点 (Type-R) : 连接到 “Flux” 和 “Dall-E 3” 的线条显示 Type-R 将这些模型向右移动 。它显著提高了 OCR 准确率 (在 X 轴上向右移动) ，同时保持了基础模型的高图形质量 (在 Y 轴上保持高位) 。

定量结果

数据支持了这一点。当使用 GPT-4o 作为平面设计的评判时，Type-R 与 Flux 的组合优于专门为排版设计的模型。

表 1 展示了 Type-R 与基线模型的评估指标对比。

在表 1 中，注意 OCR 列。Flux 搭配 Type-R 后准确率跃升至 62.0 , 击败了专用的 TextDiffuser-2 (56.2)，同时保持了高得多的图形评分 (7.67 vs 4.97)。

为什么这很重要

Type-R 的重要性在于它的模块化 。

在快速发展的 AI 世界中，新的图像生成器不断发布。如果我们依赖像 TextDiffuser 这样的架构，每当有一个更好的图像生成器 (比如假设的 Stable Diffusion 4) 问世时，我们就不得不重新训练一个庞大的新文本专用模型。

有了 Type-R，你只需替换“基础”生成器。如果 Flux 明天更新了，Type-R 能立即受益于提升的图像质量，同时继续处理拼写检查。

图 14 展示了 Type-R 解释粗略布局规范的能力。

此外，如图 14 所示，Type-R 允许精确控制。它可以接收粗略的布局指令 (例如，“文字在顶部”，“狮子在左边”) ，并确保文本准确落在预期位置，拼写正确，且不破坏视觉构图。

局限性与未来工作

虽然令人印象深刻，但 Type-R 并非魔法。它依赖于一连串其他模型 (OCR, LaMa, GPT-4o, AnyText) 。如果 OCR 未能检测到形状怪异的字母，错误检测就会失败。如果 GPT-4o 建议了一个糟糕的布局，文本就会显得格格不入。

作者还指出，由于它按顺序运行多个模型，该过程的计算量比单次生成要大。然而，对于试图生成可用海报的用户来说，多等几秒钟远比在 Photoshop 中花几个小时修复“意大利面条式文字”要好得多。

结论

Type-R 代表了我们对生成式 AI 思考方式的转变。它展示了复合 AI 系统的力量——将专用工具 (生成器、阅读器、规划器和编辑器) 链接在一起以解决复杂问题，而不是试图构建一个能完美做所有事情的巨大“上帝模型”。

对于学生和研究人员来说，Type-R 是一个很好的例子，说明了如何不通过重新训练，而是通过围绕模型局限性设计智能工作流来解决问题。通过将生成的图像视为草稿而不是最终产品，Type-R 终于教会了 AI 如何拼写。

原论文: Type-R: Automatically Retouching Typos for Text-to-Image Generation by Wataru Shimoda, Naoto Inoue, Daichi Haraguchi, Hayato Mitani, Seiichi Uchida, and Kota Yamaguchi. CVPR.

Type-R: AI 终于能在生成图像中正确拼写了#

问题所在: 为什么 AI 不会拼写？#

解决方案: Type-R 流水线#

阶段 1: 错误检测 (Error Detection)#

阶段 2: 文本擦除 (Text Erasing)#

阶段 3: 布局重新生成 (Layout Regeneration)#

阶段 4: 拼写修正 (Typo Correction)#

实验: 真的有效吗？#

视觉对比#

权衡: 美观 vs. 准确#

定量结果#

为什么这很重要#

局限性与未来工作#

结论#