引言

俗话说“一图胜千言”,这意味着复杂的图像比简短的描述更能有效地传达意义。然而,在人工智能领域——特别是基于矢量量化 (Vector Quantization, VQ) 的图像建模中——我们历来给模型提供的仅仅相当于含糊不清的只言片语,却期望它们能理解一幅杰作。

目前最先进的图像生成模型通常依赖于“码本 (codebook) ”——一个从图像中学习到的离散特征库。为了改进这些码本,研究人员最近开始尝试将其与文本标题进行对齐。这背后的逻辑很合理: 如果码本能理解视觉上的“猫”与文字“猫”之间的语义联系,生成质量就会提高。

但数据中存在一个缺陷。大多数图像-文本数据集提供的标题都非常简短。一张处于复杂稀树草原环境中的斑马照片可能仅仅被标记为“一只斑马在吃草”。这种简洁性造成了“语义鸿沟”。文本无法描述背景、光照、纹理或空间关系,使得模型无法学习到视觉代码与语言之间真正的细粒度对齐。

在这篇文章中,我们将深入探讨 TA-VQ (文本增强矢量量化) , 这是由 Liang 等人提出的一个新颖框架。这篇论文通过提出一个问题反转了局面: 如果我们人为地为图像生成海量、详细的描述,并强制模型从中学习,会发生什么?

对比原始短标题与生成的长文本。

如图 1 所示,差异是巨大的。TA-VQ 利用现代视觉-语言模型 (VLMs) 的强大功能,将简单的标题扩展为丰富的故事,为稳健的码本学习提供了必要的信号。

背景: VQ-VAE 范式

要理解 TA-VQ 为何如此重要,我们需要先了解它所建立的基础: 矢量量化变分自编码器 (VQ-VAE) 。

VQ 模型是如何工作的

在标准的 VQ-GAN 或 VQ-VAE 中,目标是将图像压缩成离散的标记 (代码) 序列,然后对其进行重建。该过程涉及三个主要组件:

  1. 编码器 (\(E\)): 将图像 \(x\) 压缩成特征向量网格。
  2. 量化器 (\(Q\)): 用可学习的“码本” (\(Z\)) 中最近的条目替换每个特征向量。
  3. 解码器 (\(D\)): 接收码本条目序列并重建图像 \(\tilde{x}\)。

量化步骤在数学上定义为在码本中寻找最近邻:

寻找最近码本条目的量化方程。

模型的训练使用一个损失函数,该函数结合了重建误差 (输出与输入的相似程度) 和码本承诺损失 (保持编码器输出接近所选代码) :

包含重建损失和码本损失的 VQ-VAE 损失函数。

对齐问题

虽然标准 VQ 模型很有效,但它们是“单模态”的——它们只看像素。像 LG-VQ 这样的近期工作试图引入文本语义来指导码本。然而,它们遇到了短标题瓶颈

如果你试图将复杂的视觉特征图与一个只有 5 个单词的句子对齐,你就迫使模型忽略大量的视觉信息,因为没有相应的文本可以映射。TA-VQ 通过生成长文本解决了这个问题,但这引入了一个新的工程挑战: 特定的单词对应微小的视觉细节,而整个句子对应整体的图像结构。你如何将一个段落映射到像素网格上?

TA-VQ 方法

研究人员提出了一个复杂的框架,将长文本和图像分解成不同的层级,并逐步对齐它们。

提出的 TA-VQ 框架架构。

如图 2 所示,该框架包含三个不同的阶段:

  1. 文本生成: 创建长文本。
  2. 多粒度文本编码: 将文本分解为有意义的块。
  3. 语义对齐: 分层映射过程。

第一步: 文本生成

作者采用 VLM (具体为 ShareGPT4V) 为训练图像生成全面的描述。模型不再生成“树枝上的一只鸟”,而是生成一段描述鸟的羽毛颜色、树枝纹理、背景模糊和光照条件的段落。这创造了一个丰富的语义目标。

第二步: 多粒度编码

一个长段落太复杂了,无法作为一个单一的数据“团块”来处理。为了有效地捕捉语义,作者将文本分为三个粒度:

  • 单词 (\(t_w\)): 描述特定对象或属性的名词、形容词和量词。
  • 短语 (\(t_p\)): 描述交互或局部语境的单词短组合。
  • 句子 (\(t_s\)): 捕捉全局语义信息的完整思想。

他们使用 BERT 对这些分割进行编码,从而得到三组文本嵌入。

第三步: 分层码本-文本对齐

这是核心创新所在。图像天然具有层级结构: 低层特征 (边缘、纹理) 构成中层特征 (形状、部件) ,进而构成高层语义 (对象、场景) 。

TA-VQ 引入了一个分层编码器 , 它输出三个不同尺度的图像特征 (\(Z_{f1}, Z_{f2}, Z_{f3}\))。然后,模型将这些视觉尺度与相应的文本粒度进行对齐:

  • 单词语义 (\(t_w\)) \(\leftrightarrow\) 低层视觉特征 (\(Z_{f1}\))
  • 短语语义 (\(t_p\)) \(\leftrightarrow\) 中层视觉特征 (\(Z_{f2}\))
  • 句子语义 (\(t_s\)) \(\leftrightarrow\) 高层视觉特征 (\(Z_{f3}\))

第四步: 基于采样的对齐策略

这里存在一个数学挑战。我们有一组视觉代码和一组文本嵌入,但它们不是一一对应的。没有预先定义的规则说“第 5 个视觉代码对应第 3 个单词”。

为了解决这个问题,作者将对齐视为一个最优传输 (Optimal Transport) 问题。他们的目标是最小化图像代码分布与文本特征分布之间的“传输成本” (Wasserstein 距离) 。

最优传输问题的一般公式。

然而,计算精确的最优传输在计算上极其昂贵 (\(O(N^3)\)) 。为了使其可训练,作者设计了一种基于采样的对齐策略

基于采样的对齐策略示意图。

他们不是直接对齐整个集合,而是将图像代码建模为高斯分布 。 他们使用前馈网络 (FNNs) 从图像特征中预测该分布的均值 (\(m\)) 和方差 (\(\Sigma\)):

将图像代码建模为高斯分布的方程。

通过从该分布中采样并将样本与文本目标 (\(y^{tar}\)) 对齐,他们在显著降低复杂度的同时保持了准确的对齐。句子对齐 (单词和短语同理) 的损失函数变成了预测样本与目标文本样本之间的 Wasserstein 距离:

用于句子对齐的 Wasserstein 损失函数。

总目标

最终的训练目标将标准的 VQ 重建损失与新的单词、短语和句子对齐损失相结合,并由超参数 (\(\alpha, \beta, \gamma\)) 控制:

结合 VQ 损失和语义对齐损失的总损失函数。

实验与结果

研究人员在 CelebA-HQ (人脸) 、CUB-200 (鸟类) 和 MS-COCO (通用对象) 等数据集上,将 TA-VQ 与多个基线模型 (包括 VQ-GAN、VQCT 和 LG-VQ) 进行了测试。

图像重建质量

图像生成的主要指标是 Fréchet Inception 距离 (FID),数值越低越好。

显示图像重建 FID 结果的表格。

如表 1 所示,TA-VQ 始终优于基线模型。在 CUB-200 数据集上,它的 FID 达到了 4.60 , 而 VQ-GAN 为 5.31,LG-VQ 为 4.74。这表明长文本对齐有助于码本捕捉重建所需的更多视觉细节。

我们可以从下方的图 12 中定性地看到这一点。请注意红色方框突出显示的区域,其他模型在这些区域会出现伪影或模糊,而 TA-VQ 则保持了更清晰的细节。

不同模型的重建结果,突出了细节差异。

为什么它有效? (消融实验)

多粒度 (单词/短语/句子) 的复杂性真的是必要的吗?作者进行了消融实验来找出答案。

三个损失函数的消融研究。

表 2 显示,移除层级中的任何一层都会损害性能。仅使用句子对齐 (第 ii 行) 比什么都不用要好,但结合单词、短语和句子对齐 (第 vi 行) 能产生最佳结果。这证实了模型受益于同时将纹理与单词对齐,将场景与句子对齐。

此外,采样策略真的高效吗?

计算开销的消融研究。

表 5 证实,如果没有采样策略,训练时间会显著增加。带有采样的 TA-VQ 在速度上与 LG-VQ 相当,但提供了更优越的性能。

下游任务

理论上,更好的码本应该能改善任何依赖于理解图像内容的任务。作者将他们预训练的 TA-VQ 码本应用于多个下游应用。

1. 无条件图像生成

在这里,模型从零开始 (噪声) 生成图像。TA-VQ 生成了具有逼真纹理和背景的高保真人脸。

CelebA-HQ 上无条件生成的可是化。

2. 视觉定位

此任务涉及根据文本描述定位图像中的特定对象。因为 TA-VQ 是针对低层视觉特征进行“单词级”对齐训练的,所以它在这里表现出色。

视觉定位的可视化。

在图 17 中,我们可以看到模型定位对象 (蓝色框为真实值,红色框为预测值) 。与 VQ-GAN 或 VQCT 相比,TA-VQ (最右侧) 显示的边界框更紧密、更准确。

3. 视觉问答 (VQA)

模型能回答关于图像的问题吗?这需要高层的语义理解。

视觉问答的可视化。

在图 18 中,TA-VQ 展示了卓越的推理能力。例如,在左下角的面板中,当被问及有多少人在准备食物时,TA-VQ 正确识别了数量,而其他模型则很吃力。这表明“句子级”对齐成功地将高层语义逻辑赋予了视觉码本。

结论

论文“Towards Improved Text-Aligned Codebook Learning”提出了一个令人信服的观点: 数据的丰富性至关重要 。 通过超越简洁的标题并拥抱由 VLM 生成的长篇详细描述,TA-VQ 弥合了限制以往 VQ 模型的语义鸿沟。

该方法的天才之处不仅在于使用更长的文本,还在于结构化学习过程。通过模仿视觉 (像素到场景) 和语言 (单词到句子) 的层级本质,并通过高效的最优传输解决对齐问题,TA-VQ 为文本对齐图像建模树立了新标准。

对于生成式 AI 的学生和研究人员来说,这项工作凸显了跨模态对齐日益增长的重要性。仅仅在图像上进行训练已经不够了;理解我们所见与我们如何描述它之间的深层语义联系,是下一代 AI 创造力的关键。