引言

在过去的几年里,生成式 AI 领域一直被一种强大的叙事所主导: 扩散 (Diffusion) 。 无论你使用的是 DALL-E、Midjourney 还是 Stable Diffusion,其底层过程在概念上都是相似的。模型从一块纯粹的静态噪点 (高斯噪声) 开始,并在文本提示词的引导下,迭代地对其进行去噪,直到清晰的图像浮现出来。这有点像是从一块大理石中雕刻出一尊雕像,其中大理石是随机噪声,而凿子则是文本提示词。

但是,如果我们挑战这一基本假设会怎样?如果我们不是从随机噪声开始,而是直接从文本本身开始呢?

在一篇引人入胜的新论文 “Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution” (从文字流向像素: 一种用于跨模态演化的无噪声框架) 中,来自 Meta 和约翰霍普金斯大学的研究人员提出了一个范式转变。他们提出了一个简单而深刻的问题: 既然文本和图像通常描述的是同一个底层现实,为什么我们不能直接将文本分布变形为图像分布呢?

图 1. CrossFlow 框架。第一行显示了文本直接演化为图像的过程。下面的行显示了该框架应用于图像描述生成、深度估计和超分辨率任务。

这一探究的成果便是 CrossFlow , 这是一个消除了对高斯噪声和标准扩散模型中复杂的“条件 (conditioning) ”机制需求的框架。正如我们将要探讨的,这种方法不仅简化了架构——允许使用不带交叉注意力的原生 Transformer——而且还解锁了诸如在潜空间中对概念进行算术运算等新能力。

背景: 现状与新思路

要欣赏 CrossFlow 的优雅之处,我们首先需要了解它所取代的复杂性。

标准方法: 噪声与条件

最先进的生成模型,特别是 流匹配 (Flow Matching)扩散模型 (Diffusion models) , 通常将生成过程构建为一个“最优传输”问题。其目标是将一个简单的源分布 (通常是高斯噪声,\(\mathcal{N}(0, 1)\)) 映射到一个复杂的目标分布 (自然图像) 。

由于随机噪声不包含任何信息,模型需要指导。在文本到图像 (T2I) 任务中,这种指导通过条件 (conditioning) 来提供。文本由语言模型处理,其嵌入向量通过交叉注意力 (cross-attention) 等机制注入到图像生成过程中。本质上,模型是在说: “我看着的是噪声,但我会将这个噪声推向‘猫’的样子,因为交叉注意力层是这样告诉我的。”

CrossFlow 范式

这篇论文的作者观察到,流匹配理论实际上并要求源分布必须是噪声。源可以是任何东西,只要我们能定义一条从它到目标的路径。

如果我们正在构建一个文本到图像模型,我们已经拥有了一个与目标图像高度相关的源信息: 文本提示词!句子“戴帽子的狗”和戴帽子的狗的图像之间存在显著的信息冗余。

CrossFlow 提议训练一个模型,以找到从文本分布图像分布的直接概率路径。这移除了标准技术栈中的两个主要组件:

  1. 无噪声: 我们不从随机静态噪点开始。
  2. 无条件: 我们不需要交叉注意力层来“注入”文本信息。输入就是文本信息。

核心方法: CrossFlow 如何工作

虽然其动机在理论上是合理的,但在实践中使其行之有效却面临着巨大的挑战。文本和图像是根本不同的数据类型,具有不同的形状和统计属性。你不能简单地将文本向量输入卷积网络并期望在不做任何重要桥接的情况下就输出图像。

CrossFlow 架构使用两个主要组件解决了这个问题: 一个变分编码器 (Variational Encoder, VE) 和一个流匹配 Transformer (Flow Matching Transformer)

图 2. CrossFlow 架构。文本被编码为潜在分布,然后使用不带交叉注意力的 Transformer 直接演化为图像潜变量。

1. 变分编码器: 塑造源头

第一个障碍是“形状”不匹配。来自像 CLIP 这样的模型的文本嵌入可能具有 \(N \times D\) 的维度 (序列长度 \(\times\) 维度) ,而图像的潜在表示可能是 \(H \times W \times C\) (高度 \(\times\) 宽度 \(\times\) 通道) 。

此外,为了使流匹配有效工作,源不能仅仅是一个确定性的点;它需要是一个分布

为了解决这个问题,研究人员采用了文本变分编码器 (Text Variational Encoder, VE)

  1. 它接受文本嵌入作为输入。
  2. 它将此嵌入压缩并重塑为目标图像潜变量的形状 (\(z_0\)) 。
  3. 至关重要的是,它预测均值和方差,以便从以文本语义为中心的高斯分布中采样 \(z_0\)。

这将输入文本转化为潜空间中的一团概率“云”,它具有与图像相同的空间维度。

该系统的训练目标是流匹配损失和编码器损失的组合。总损失函数如下所示:

总损失函数公式,结合了流匹配 MSE、编码损失 (CLIP) 和 KL 散度。

以下是上式中各术语的细分:

  • \(L_{FM}\) (MSE): 标准的流匹配损失。它训练模型预测从文本潜变量移动到图像潜变量所需的“速度”。
  • \(L_{Enc}\) (CLIP): 一种对比损失,确保起始潜变量 \(z_0\) 在语义上与文本对齐。
  • \(L_{KL}\): 一个正则化项,用于保持分布的良好表现。

2. 流匹配: 演化路径

一旦文本被编码为源潜变量 \(z_0\),模型就需要将其演化为目标图像潜变量 \(z_1\)。

在标准扩散中,从噪声到图像的路径通常是复杂且弯曲的。然而,流匹配允许直线轨迹。模型将任何时间 \(t\) 的路径 \(z_t\) 定义为源和目标之间的线性插值:

描述流匹配前向过程为线性插值的公式。

神经网络 \(v_{\theta}\) 充当驱动者。它学习速度场——即数据点需要移动的方向和速度,以便从文本表示转变为图像表示。

3. 带指示器的无分类器引导 (CFG)

这也许是论文中最巧妙的工程技巧。

在现代生成式 AI 中, 无分类器引导 (Classifier-Free Guidance, CFG) 对于高质量结果至关重要。CFG 的工作原理是将“条件”预测 (由文本引导) 与“无条件”预测 (无引导/空引导) 混合。这突出了信号并抑制了噪声。

但 CrossFlow 有一个问题: 它没有可以关闭的“条件”机制。文本就是起点!

为了启用 CFG,作者引入了一个 CFG 指示器 (CFG Indicator) 。 他们在模型输入中添加了一个微小的二进制标记:

  • 指示器 = 1: “将此特定文本潜变量演化为其对应的图像。”
  • 指示器 = 0: “将此文本潜变量演化为任何有效的图像 (无条件生成) 。”

在训练期间,他们随机翻转这个指示器。这教会了模型两项任务: 特定映射和一般映射。在推理 (生成) 期间,他们可以在这两种模式之间进行外推,从而重新获得 CFG 提供的清晰度和一致性提升。

图 9. 关于带指示器的 CFG 的消融研究。视觉对比显示了指示器如何实现无条件生成,并在应用缩放时提高质量。

如上图所示,使用指示器允许 CrossFlow 执行无条件生成 (第 1 列) ,尽管它是从文本开始的;而应用引导比例 (第 3-7 列) 极大地提高了图像的保真度,就像在标准扩散模型中一样。

实验结果

研究人员将 CrossFlow 与标准基线进行了测试,特别是将其与使用交叉注意力并从噪声开始的标准流匹配模型进行了比较。

1. 扩展性: 规模越大,性能越好

最有希望的发现之一是 CrossFlow 随着模型变大时的表现。

图 3. 性能 vs. 模型参数和迭代次数。图表显示随着模型规模增加,CrossFlow 的扩展性优于基线。

观察图 3 中的左图 , 我们可以看到 Fréchet Inception Distance (FID),这是一种图像质量的衡量标准 (越低越好) 。

  • 小模型: CrossFlow 与基线相比略显挣扎。这是合理的;直接将文本映射到像素是一项比在有提示的情况下将噪声映射到像素更难、更受约束的任务。
  • 大模型: 当参数数量接近 10 亿 (1 Billion) 时,CrossFlow 实现了超越,开始优于基于噪声的标准基线。

右图显示了训练步数。CrossFlow 需要更长的时间收敛 (绿线最初较高) ,但最终下降到比基线更低的位置。这表明虽然学习直接映射最初较难,但在长远来看,它创造了一条更高效的生成路径。

2. 潜空间算术: 语义空间的“魔法”

因为 CrossFlow 在演化之前将文本映射到一个连续的、结构化的潜空间,它继承了词嵌入的一些著名的向量算术属性 (就像 Word2Vec 中经典的 国王 - 男人 + 女人 = 女王 的例子) 。

作者证明,你可以对输入执行算术运算,并在生成的图像中获得相应的变化。

图 13. 文本潜空间中的算术。示例显示通过加法给狗加上“自行车”,或通过减法和加法将汽车的“红色”换成“黄色”。

在图 13 (上图) 中,我们看到:

  • 第一行: 一只柯基犬在读书。该提示词是通过取“戴红帽子的柯基”的向量,加上“书”,并减去“帽子”得出的。
  • 中间行: 通过减去“红色”向量并加上“黄色”向量进行颜色交换。
  • 最后行: 物体操纵。减去“汽车”并加上“自行车”,让狗骑上了自行车。

这种能力在标准扩散模型中通常不存在或很难实现,因为输入条件 (文本) 与起点 (噪声) 是解耦的。在 CrossFlow 中,起点就是含义。

我们也可以在潜空间插值中看到这种平滑性。通过取一个提示词的潜向量并将其线性滑动向另一个提示词,模型在概念之间生成了平滑的过渡。

图 11. 潜空间中的线性插值。从机器人做饭到熊猫吃东西的平滑过渡。

3. 超越文本到图像: 一个通用框架

该论文断言 CrossFlow 不仅仅是一个 T2I 模型;它是一个用于跨模态演化的通用框架。为了证明这一点,他们将完全相同的架构应用于其他几个困难的计算机视觉任务。

零样本深度估计

在这里,源模态是 RGB 图像,目标是深度图 (Depth Map) 。CrossFlow 在零样本深度估计基准测试中取得了最先进的结果,且没有任何特定于任务的架构更改。

图 7. 零样本深度估计的定性示例。该模型准确地预测了室内和室外场景的深度。

图像超分辨率

该模型还可以从低分辨率图像分布映射到高分辨率图像分布。与将低分辨率图像作为条件输入的标准放大器不同,CrossFlow 将上采样的低分辨率图像视为潜变量,并将其演化为高分辨率图像的高频细节。

图 8. 图像超分辨率的定性示例。对比显示“Ours” (我们的方法) 一栏中的细节更清晰。

结论

CrossFlow 代表了生成式 AI 向前迈出的引人注目的一步。通过抛弃生成模型必须从高斯噪声开始的惯例,研究人员简化了架构 (移除了交叉注意力) 并统一了不同模态间的生成过程。

这项工作的主要收获是:

  1. 直接演化: 我们可以成功地训练模型,使其直接从一种数据分布 (文本、低分辨率图像) 流向另一种数据分布 (图像、深度图) 。
  2. 变分编码器是关键: 你不能简单地将文本投影为像素;你必须将其编码为正则化的概率分布,以允许流匹配 ODE 正确运行。
  3. 可扩展性: 虽然最初更难训练,但该方法的扩展性优于标准基线,这表明它可能是下一代大规模基础模型的有力候选者。
  4. 语义控制: 对输入潜变量执行向量算术的能力为艺术家和开发者提供了一种新的、直观的方式来编辑和控制生成的内容。

当我们展望媒体生成的未来时,CrossFlow 表明,从一个想法到一幅图像的最有效路径可能不是穿过噪声的随机漫步,而是从文字到像素的直接演化路径。