Type-R: AI 终于能在生成图像中正确拼写了
如果你玩过 Stable Diffusion、DALL-E 3 或 Flux 等文生图模型,那你一定对一种特定的挫败感不陌生。你在提示词中要求生成一张写着“FUTURE”的酷炫赛博朋克海报,结果模型生成了一张令人惊叹的图片……但上面的文字却是“FUTRE”、“FUTUUE”,或者是某种看起来依稀像英语的外星象形文字。
虽然生成式 AI 已经精通光照、纹理和构图,但在拼写方面却臭名昭著。这种现象通常被称为“意大利面条式文字” (spaghetti text) 问题,它导致许多生成的图像如果不经过大量人工编辑,就无法用于专业平面设计。
在本文中,我们将深入探讨一篇名为 “Type-R: Automatically Retouching Typos for Text-to-Image Generation” 的研究论文。研究人员提出了一种无需训练的新颖方法,可以自动修复这些排版噩梦。它就像是一个专门为你 AI 生成的艺术作品服务的拼写检查器和视觉编辑器。

如图 1 所示,系统接收一张包含乱码文字 (如“CVPPR”和“Orgalized”) 的图像,检测错误,并在不破坏精美背景的情况下无缝修正它们 (变为“CVPR”和“Organized”) 。
问题所在: 为什么 AI 不会拼写?
在看解决方案之前,了解问题本身很有帮助。大多数文生图模型将文本处理为 Token (字符块) ,而不是单个字母。当模型学习“apple”长什么样时,它将“apple”的 Token 嵌入与苹果的视觉特征联系起来。然而,它很少学习到在视觉上渲染这个单词所需的精确字形序列 (A-P-P-L-E) 。
以前解决这个问题的尝试包括:
- 扩大规模 : 向模型投喂更多数据 (成本高昂且不能保证结果无拼写错误) 。
- 专用架构 : 像 TextDiffuser 这样的模型是专门为文本布局训练的。然而,正如我们稍后将看到的,为了把字写对,这些模型往往会牺牲图像的艺术质量。
Type-R 背后的研究人员提出了一个不同的问题: 与其和图像生成器较劲,为什么不直接在图像生成后进行修复呢?
解决方案: Type-R 流水线
Type-R (代表 Typeography Retouching,排版修饰) 是一个后处理流水线。它是“模型无关”的,意味着你可以将其插入到 Stable Diffusion 3、Flux 或未来的任何模型中,而无需微调这些庞大的网络。
这个过程就像人类编辑修正草稿一样运作。它寻找错误,擦除它们,规划修正内容的位置,然后写入正确的文本。

如图 2 所示,该流水线包含四个明显的阶段。让我们逐一分解。
阶段 1: 错误检测 (Error Detection)
首先,Type-R 需要知道哪里出了问题。系统获取生成的图像,并通过 OCR (光学字符识别) 模型来“阅读”画布上当前的内容。然后,它将检测到的文本与用户提示词中要求的文本进行对比。
这不像字符串比较 (if "CVPPR" != "CVPR") 那么简单。模型可能生成了多余的单词,完全遗漏了单词,或者把单词拆分了。
为了解决这个问题,研究人员利用最优传输 (Optimal Transport) 将其构建为一个匹配问题。他们计算将检测到的单词转换为提示词单词的“成本”。

这里的核心数学原理是最小化提示词单词集 (\(W\)) 与检测到的单词集 (\(\hat{W}\)) 之间的编辑距离 (Levenshtein 距离) 。
如果单词数量不匹配,他们会用“虚拟”Token (\(p\)) 填充集合。

- 如果一个提示词单词匹配到一个虚拟 Token,意味着图像中缺失了一个单词。
- 如果一个检测到的单词匹配到一个虚拟 Token,意味着图像中有多余的文本。
- 如果一个提示词单词匹配到一个检测到的单词但距离非零 (例如 “Hamburger” 对比 “Humobbrer”) ,这就是一个拼写错误 。
阶段 2: 文本擦除 (Text Erasing)
一旦识别出错误,系统就会清理画布。
如果错误检测阶段发现了“意外”单词 (提示词中没有的幻觉文本) ,Type-R 会使用一个名为 LaMa 的修复 (inpainting) 模型。它会在错误的文本上创建一个遮罩,并要求 LaMa 用背景纹理填充它,从而有效地擦除错误。
阶段 3: 布局重新生成 (Layout Regeneration)
如果图像生成器完全忘记包含某个单词怎么办?或者如果我们因为单词位置错误而擦除了它怎么办?
Type-R 需要决定把缺失的文本放在哪里。研究人员没有使用启发式算法,而是利用了视觉语言模型 (VLM),具体来说是 GPT-4o 。 他们将图像和缺失单词列表输入给 GPT-4o,并要求它输出一个 JSON 文件,其中包含新文本的最佳边界框坐标。
这是对现代 LLM 的巧妙运用——利用它们关于设计的“常识”将文本放置在合乎逻辑且美观的位置。
阶段 4: 拼写修正 (Typo Correction)
现在进行实际的修复。我们有了正确的位置 (来自阶段 3) 和干净的画布 (来自阶段 2) 。Type-R 使用一个名为 AnyText 的文本编辑模型。
与只填充空洞的标准修复不同,AnyText 能够根据条件渲染特定的字形。然而,即使是 AnyText 也不完美;它可能把 “CVPPR” 修正为 “CVPR”,但意外地搞砸了字体风格。
为了处理这个问题,Type-R 在一个循环中运行。它尝试一次修正,用 OCR 读取结果,检查是否正确,如果不正确,就重试。

如算法 1 所示,这个循环会一直持续,直到拼写完美或达到最大尝试次数。
实验: 真的有效吗?
研究人员使用 MARIO-Eval 基准测试了 Type-R,这是一个评估文生图模型的标准数据集。他们将 Type-R 与 Flux 和 Stable Diffusion 3 (SD3) 等最先进的模型结合,并与 TextDiffuser 等专门以文本为中心的模型进行了比较。
视觉对比
视觉上的差异是惊人的。专用模型通常为了把字写对而牺牲背景的复杂性。通用模型 (如 Flux) 能创造令人惊叹的背景,但在文本上会失败。Type-R 提供了两全其美的方案。

在图 3 中,看看 “Regis Philbin” 的例子 (第一行) 。
- TextDiffuser (第 3 列) 创建了一张非常简单、甚至有些平淡的海报。文字可读,但设计很无聊。
- Flux (Raw) (第 1 列) 创建了一张充满活力、复杂的图像,但文字是乱码 (".heioa.de") 。
- Flux + Type-R (第 2 列) 保留了充满活力的 Flux 背景,但将文字修正为 “Regis Philbin” 和 “Mark Malkoff”。
权衡: 美观 vs. 准确
论文中最有趣的发现之一是平面设计质量 (图像看起来有多好) 与 OCR 准确率 (拼写有多正确) 之间的权衡。

这张图表 (图 5) 说明了一切:
- 左上角 (Dall-E 3, Flux) : 高图形质量,但文本准确率较低。
- 右下角 (TextDiffuser, Simple Text) : 高文本准确率,但图形质量低。
- 最佳平衡点 (Type-R) : 连接到 “Flux” 和 “Dall-E 3” 的线条显示 Type-R 将这些模型向右移动 。 它显著提高了 OCR 准确率 (在 X 轴上向右移动) ,同时保持了基础模型的高图形质量 (在 Y 轴上保持高位) 。
定量结果
数据支持了这一点。当使用 GPT-4o 作为平面设计的评判时,Type-R 与 Flux 的组合优于专门为排版设计的模型。

在表 1 中,注意 OCR 列。Flux 搭配 Type-R 后准确率跃升至 62.0 , 击败了专用的 TextDiffuser-2 (56.2),同时保持了高得多的图形评分 (7.67 vs 4.97)。
为什么这很重要
Type-R 的重要性在于它的模块化 。
在快速发展的 AI 世界中,新的图像生成器不断发布。如果我们依赖像 TextDiffuser 这样的架构,每当有一个更好的图像生成器 (比如假设的 Stable Diffusion 4) 问世时,我们就不得不重新训练一个庞大的新文本专用模型。
有了 Type-R,你只需替换“基础”生成器。如果 Flux 明天更新了,Type-R 能立即受益于提升的图像质量,同时继续处理拼写检查。

此外,如图 14 所示,Type-R 允许精确控制。它可以接收粗略的布局指令 (例如,“文字在顶部”,“狮子在左边”) ,并确保文本准确落在预期位置,拼写正确,且不破坏视觉构图。
局限性与未来工作
虽然令人印象深刻,但 Type-R 并非魔法。它依赖于一连串其他模型 (OCR, LaMa, GPT-4o, AnyText) 。如果 OCR 未能检测到形状怪异的字母,错误检测就会失败。如果 GPT-4o 建议了一个糟糕的布局,文本就会显得格格不入。
作者还指出,由于它按顺序运行多个模型,该过程的计算量比单次生成要大。然而,对于试图生成可用海报的用户来说,多等几秒钟远比在 Photoshop 中花几个小时修复“意大利面条式文字”要好得多。
结论
Type-R 代表了我们对生成式 AI 思考方式的转变。它展示了复合 AI 系统的力量——将专用工具 (生成器、阅读器、规划器和编辑器) 链接在一起以解决复杂问题,而不是试图构建一个能完美做所有事情的巨大“上帝模型”。
对于学生和研究人员来说,Type-R 是一个很好的例子,说明了如何不通过重新训练,而是通过围绕模型局限性设计智能工作流来解决问题。通过将生成的图像视为草稿而不是最终产品,Type-R 终于教会了 AI 如何拼写。
原论文: Type-R: Automatically Retouching Typos for Text-to-Image Generation by Wataru Shimoda, Naoto Inoue, Daichi Haraguchi, Hayato Mitani, Seiichi Uchida, and Kota Yamaguchi. CVPR.
](https://deep-paper.org/en/paper/2411.18159/images/cover.png)