引言
如果你尝试过 Stable Diffusion 或 Midjourney 等文本到图像扩散模型,你很可能遇到过“乱码现象”。你要求生成一个写着“Welcome Home” (欢迎回家) 的牌子,模型却生成了一个漂亮的客厅,里面的牌子上写着“Wleom Hmeo”。
虽然扩散模型在光照、纹理和构图方面已经达到了大师级水平,但它们在视觉文本生成方面却因困难而臭名昭著。生成的字母经常扭曲变形,单词拼写错误,或者干脆忽略了文本内容。虽然像 DALL-E 3 这样的商业模型正在改进,但开源骨干模型仍然落后,特别是在涉及英语以外的语言 (如中文) 时。
为什么这对 AI 来说如此困难?问题在于模型“看”文本的方式,还是它“画”文本的方式?
在论文 “Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training” (通过输入粒度控制和字形感知训练增强骨干模型的视觉文本生成能力) 中,研究人员调查了这些根本原因并提出了一个全面的解决方案。他们介绍了一种方法,可以在不牺牲图像艺术质量的前提下,显著提高视觉文本的拼写准确性和美学质量。

如图 1 所示,差异是惊人的。标准骨干模型产生的是乱码字符,而改进后的模型则渲染出了清晰、易读的文本——即使是对于复杂的艺术风格和中文字符也是如此。
问题的根源: 初步研究
在解决问题之前,研究人员首先必须进行诊断。他们确定了限制当前骨干模型 (特别是 SD-XL) 性能的两个主要罪魁祸首: 分词 (Tokenization) 和交叉注意力 (Cross-Attention) 。
1. 分词陷阱
大多数大型语言模型 (LLM) 和文本编码器使用字节对编码 (BPE) 。 这种方法将单词分解为子词单元 (Tokens) 以控制词汇表的大小。
例如,单词“diffusion”可能会被拆分为“dif”和“fusion”。虽然这对 NLP 中的语义理解很有效,但对视觉生成却是有害的。当模型试图画出“diffusion”这个词时,它需要知道整个词的视觉结构。如果输入被切碎成“dif”和“fusion”,模型就很难将这些脱节的概念组合成一个单一、连贯的视觉单词。
研究人员通过比较 BPE 拆分的单词与保持完整的单词的生成准确性来测试这一点。他们发现, BPE 分词显著增加了生成视觉文本的难度。
2. 游离的视线 (交叉注意力)
在扩散模型中,交叉注意力图决定了图像的哪个部分与提示中的哪个词相关联。如果你输入“一个红苹果”,在处理 Token “苹果”时,模型应该关注苹果所在的位置。
研究人员对需要书写的文本 (字形文本) 的交叉注意力图进行了可视化。

如图 3 所示:
- 情况 (a): 当“University”拼写正确时,模型的注意力 (热力图) 紧紧集中在招牌区域。
- 情况 (b): 当“University”拼写错误时,注意力是分散的或微弱的。
- 情况 (c): 这里,“Heart”被正确渲染,因为注意力很集中。然而,“Flower”被忽略了,因为注意力图高亮了一个不相关的区域。
结论: 要生成准确的文本,模型必须有效地将文本 Token 绑定到该文本应该出现的特定像素上。目前的模型往往无法建立这种连接。
解决方案: 双管齐下的方法
基于这些发现,作者提出了一个同时解决输入表示和训练过程的框架。

第一部分: 混合粒度输入
由于 BPE 切分损害了视觉文本生成,研究人员引入了混合粒度输入策略 。 核心思想简单而有效: 将需要绘制的词 (字形词) 视为整体单元,而不是将其分解。

如图 5 所示,模型不再分别接收“dif”和“fusion”的 Token,而是应该将“diffusion”视为一个单一实体。
但是,我们如何获得标准词汇表中没有的整个单词的嵌入 (Embedding) 呢?作者利用了 OCR (光学字符识别) 模型。他们将字形词渲染成简单的图像,并将其输入 OCR 编码器以提取特征向量。这个向量本质上包含了关于单词形状和结构的丰富信息。
改进后的文本嵌入 \(c\) 通过将标准文本编码器输出与这些新的 OCR 特征相结合来计算:

这里,\(T\) 是 CLIP 文本编码器,而第二项代表从渲染的字形图像 \(I_g\) 中提取的特征。这使得扩散模型在开始生成图像之前就对文本有了“视觉”上的理解。
第二部分: 字形感知训练
改进输入是不够的;还需要教模型如何使用这些信息。作者在标准扩散训练目标的基础上增加了三个特定的“字形感知”损失函数。
总损失函数定义为:

让我们分解添加到标准 MSE 损失 (\(\mathcal{L}_{mse}\)) 中的这三个特定部分。
1. 注意力对齐损失 (\(\mathcal{L}_{attn}\))
回想一下,糟糕的交叉注意力会导致单词拼写错误。这个损失函数强制模型将注意力集中在正确的区域。
模型计算噪声潜像 (\(z_t\)) 和字形 Token (\(c_g\)) 之间的交叉注意力图:

系统实际上是在告诉模型: “当你思考单词‘University’时,你的注意力图必须与文本所在的实际掩码相匹配。”

通过最小化注意力图 (\(CA\)) 与真实分割掩码 (\(M_k\)) 之间的差异,模型学会了将视觉文本绑定到正确的图像坐标上。
2. 局部 MSE 损失 (\(\mathcal{L}_{loc}\))
标准扩散模型使用全局均方误差 (MSE) 损失,平等地对待图像中的每个像素。然而,文本通常只占图像的一小部分。模型可能会生成完美的背景,但招牌却是乱糟糟的,而全局损失不会对此进行足够严厉的惩罚。
为了解决这个问题,作者引入了局部 MSE 损失,对文本所在的特定区域施加更高的权重。

这里,\(M_k\) 充当过滤器,确保此损失仅计算文本边界框内的误差。这迫使模型优先考虑字母的细粒度细节。
3. OCR 识别损失 (\(\mathcal{L}_{ocr}\))
最后,为了确保生成的文本实际上是可读的,训练过程包括一个 OCR 检查。
在训练期间,模型预测去噪后的图像 (\(x'_0\)) 。这个预测结果被输入到一个冻结的 OCR 模型 (与输入 OCR 编码器不同) 。OCR 模型尝试读取生成图像中的文本。如果文本难以辨认或不正确,损失就会增加。

这充当了高级语义检查,鼓励模型生成的文本不仅在视觉上清晰 (局部 MSE) ,而且在语言上正确。
实验与结果
为了验证这些方法,作者构建了一个包含 240,000 个英语图像-标题对的高质量数据集以及一个用于中文文本的合成数据集。他们将自己的方法与 SD-XL、DeepFloyd 和 SDXL-Turbo 等领先的骨干模型进行了比较。
定量分析
如下表 1 汇总的结果显示,本文提出的方法 (Ours) 在 OCR 指标 (精确率、召回率、F1 分数) 上显著优于基线模型。

- CLIP Score: 衡量图像与提示词的匹配程度。
- OCR Metrics (OCR 指标) : 衡量拼写准确性。
- User Study (用户研究) : 人类评分员在文本准确性和美学方面压倒性地偏好本文提出的模型。
视觉对比
定性结果可能最具说服力。在图 6 中,我们可以看到针对各种具有挑战性的提示词的对比。

- 第 1 行 (汽车) : 提示词要求在汽车上写“Speed”。SD-XL 将文本放在背景中或使其扭曲,而本文提出的模型将其正确地放置在车辆上。
- 第 3 行 (瓶子) : 瓶子上的“Do not litter”。DeepFloyd 和 SD-Cascade 在瓶子几何形状或拼写方面很吃力。本文提出的模型将文本自然地包裹在物体周围。
解决常见失败案例
即使是像 SDXL-Turbo 这样强大的模型也会遇到特定的问题,比如单词重复。

在图 7 (下半部分) 中,SDXL-Turbo 生成了“Safeety Fircort Safey Fist”而不是“Safety First”,以及“No Littic Literng”而不是“No Littering”。本文提出的模型 (上半部分) 解决了这些重复和拼写错误问题,这主要归功于特定的输入粒度控制,防止了模型将“Safety”视为多个子 Token。
中文文本生成
这项工作最令人印象深刻的成就之一是其对中文的迁移能力,中文具有复杂的字形结构,大多数扩散模型都无法渲染。

如图 9 所示,基线模型 (在相同数据上训练) 经常产生看起来像乱码笔画的伪中文字符。本文提出的模型生成了准确、清晰的中文字符 (“中国”、“地图”) ,并融入了复杂的场景中。
注: 对于中文,作者发现字符级和 BPE 分词的混合比全词分词效果更好,这是由于中文字符的复杂性和数量所致。
保持图像质量
微调模型执行特定任务时的一个常见担忧是“灾难性遗忘”——即丧失模型原本的能力。学会拼写会让模型画日落的能力变差吗?

图 8 证实了美学质量保持在较高水平。无论是水彩画风格的马里奥还是日落海滩,模型都保留了其艺术能力。FID 分数 (衡量图像质量的指标) 与基础模型相当。
结论与启示
论文“Empowering Backbone Models for Visual Text Generation”为修复生成式 AI 最持久的缺陷之一提供了清晰的路线图。
主要结论如下:
- 粒度至关重要: 将单词分解为 BPE 子 Token 会混淆视觉生成器。通过 OCR 嵌入提供全词 (字形) 信息有助于模型“看到”单词结构。
- 注意力是关键: 你无法拼写你无法专注的东西。强制交叉注意力图与文本区域对齐至关重要。
- 专用损失: 标准的像素级损失是不够的。我们需要在训练期间对文本区域进行局部关注,并进行高级 OCR 验证。
这项工作不仅改进了英语文本生成,还为可靠的多语言视觉文本生成打开了大门,这一能力对于下一代 AI 设计工具至关重要。通过教模型“阅读”它所画的内容,我们离真正全面的图像合成又近了一步。
](https://deep-paper.org/en/paper/2410.04439/images/cover.png)