当直线失效：梯度方差如何揭露整流流中的记忆化

引言

生成建模取得了令人瞩目的进展，基于评分 (score-based) 的方法和神经常微分方程 (ODE) 流已能将简单噪声转化为极其清晰的图像、音频或复杂的分子结构。其中一个特别吸引人的概念是“直流” (straight flows) ——学习一个向量场，使得从已知源分布 (例如标准高斯) 到目标数据分布的轨迹几乎是直线。这种直线性使得从噪声到数据的生成变得非常快速，往往可以一步完成。Rectified Flows (整流流，ReFlow) 就是为实现这一目标而设计的，旨在通过迭代地“拉直”运输路径来实现更快、更高效的采样。

然而，从确定性的训练配对 (每个源点 $X_0$ 对应到单一目标 $X_1$) 中学习一个直向量场可能掩盖一个重要缺陷: 记忆化 (memorization) 。模型可能并非发现了有意义、可泛化的运输机制 (例如最优传输) ，而只是学会精确复现训练配对。我们要讨论的这篇论文《Gradient Variance Reveals Failure Modes in Flow-Based Generative Models》揭示了训练过程中梯度方差——一个可量化的度量——如何作为诊断记忆化的工具。更令人惊讶的是，作者在理论上证明了: 在插值无噪声的情况下，确定性的 Rectified Flows 可以收敛到完美记忆训练配对的向量场，在推理时精确重现这些配对。

在这篇博客中，我们将剖析这些关键发现，内容包括:

基本背景 : 回顾最优传输、流匹配与整流流的概念。
梯度方差的诊断能力 : 为什么监测梯度方差对于检测记忆化至关重要。
核心理论 : 高斯到高斯的分析，揭示记忆化机制的可解析结果。
有限数据集的通用理论 : 证明在确定性训练下记忆化如何成为稳定解。
经验验证 : 在合成 (高斯混合) 与真实数据 (CelebA) 上的实验证实理论预测。
实践建议 : 对开发或训练基于流的生成模型的可操作建议。

为了给你一个直观印象，图 1 展示了核心思想: 确定性的直路径目标可能存在多种解，一些是期望的 (近似最优传输) ，另一些只是记住具体的训练配对。

Intuition behind the main results.

图 1: 主要结果的直观示意。该示意图强调确定性训练如何导致对任意配对的记忆化，即使插值线相交也会如此。

背景 — 你需要知道的组成部分

最优传输 (OT)

最优传输是一个关于如何以最小代价将质量从一个分布移动到另一个分布的数学框架。

Monge 问题 : 寻找一个传输映射 $T$，将源分布 $\pi_0$ 移动到目标分布 $\pi_1$，并使总的平方欧氏代价最小化: \[ \inf_T \int \|T(x) - x\|^2 \, d\pi_0(x) \quad \text{s.t.} \quad T_\# \pi_0 = \pi_1. \] 这里，$T_\# \pi_0$ 表示 $\pi_0$ 在映射 $T$ 下的推前 (pushforward) 。
Kantorovich 放松 : 引入耦合 $\pi(X_0, X_1)$，即具有边缘分布为 $\pi_0$ 和 $\pi_1$ 的联合分布。这个放松定义了 Wasserstein-2 距离: \[ \mathcal{W}_2^2(\pi_0, \pi_1) = \inf_{\pi \in \Pi(\pi_0, \pi_1)} \mathbb{E}_{(X_0,X_1)\sim\pi}[\|X_1-X_0\|^2]. \] 这里，$\Pi(\pi_0, \pi_1)$ 是所有具有给定边缘的联合分布集合。熵正则化的最优传输 (eOT) 加入了 Kullback-Leibler 惩罚: $W_2^\epsilon(\pi_0, \pi_1) = \inf_{\pi \in \Pi(\pi_0, \pi_1)} \mathbb{E}_{(X_0,X_1) \sim \pi}[\|X_1-X_0\|^2] + \epsilon D_{KL}(\pi \| \pi_0 \otimes \pi_1)$。对于凸代价，最优路径通常是直线插值 $X_t = (1-t)X_0 + tX_1$。

流匹配与条件流匹配 (CFM)

流匹配方法学习一个与时间相关的向量场 $v(X_t,t)$，通过积分该向量场可以平滑地将样本从源分布 $\pi_0$ 运输到目标分布 $\pi_1$。

CFM 损失 : 由 Lipman 等人 (2022) 提出，条件流匹配 (CFM) 目标为: \[ \mathcal{L}_{CFM}(v) = \mathbb{E}_{t \sim \mathcal{U}(0,1), (X_0,X_1)\sim\pi, \epsilon} \big[ \| (X_1-X_0) - v(X_t,t)\|^2 \big], \] 其中 $X_t$ 是 $X_0$ 与 $X_1$ 之间的插值 (可为确定性或随机) ，若使用带噪插值则 $\epsilon \sim \mathcal{N}(0, I)$。学习到的向量场 $\mathbf{v}$ 随后通过 ODE 生成流: \[ \frac{d}{dt} X_t = v(X_t, t). \] 图 2 以视觉方式展示了该目标及其损失景观如何出现多个极小值。

$Schematic representing a hypothetical loss ( $L_{MC}$ ) landscape. The gradient variance of the loss acts as an indicator of solution quality.$

图 2: 表示假设损失 ($L_{MC}$) 景观的示意图。损失的梯度方差作为解的质量指示器。该示意图说明了在不同插值类型下，损失梯度的方差如何揭示关于向量场最优性的相关信息。

整流流 (Rectified Flows，ReFlow)

整流流 (Liu 等人，2022) 提出了一种迭代程序来“拉直”传输路径。在每次迭代 $k$ 中，使用当前耦合 $(X_0^{(k)}, X_1^{(k)})$ 的 CFM 损失训练一个向量场 $v^{(k)}$。然后通过从 $X_0^{(k)}$ 积分 $v^{(k)}$ 来生成更新后的耦合 $X_1^{(k+1)}$，该过程重复直到收敛。如果对于确定性配对 $(X_0, X_1)$ 来说，映射 $(X_t, t) \mapsto (X_0, X_1)$ 是单射 (injective) ，则认为耦合是“直”的，这意味着插值上的每一点唯一地对应它的起点和终点。

该论文的一个关键点是: 如果训练集由确定性配对构成且插值无噪声，那么在任意可能出现多个插值线相交的特定时间点精确采样到该点的概率为零。这个技术细节在理解记忆化时变得至关重要。

为什么要关注梯度方差？

训练基于流的模型通常涉及优化 CFM 损失的蒙特卡洛近似，这自然会产生随机梯度。这些梯度的方差——$\text{Var}[\nabla_\theta L_{MC}]$，其中 $L_{MC}$ 是蒙特卡洛损失，$\theta$ 是模型参数——是一个关键的诊断量。该方差在很大程度上依赖于训练时使用的具体配对 $T$ 以及插值是否包含噪声。

作者的核心观察有两点:

确定性/无噪声情形 : 在这些设置中，对于仅仅记忆训练配对的向量场 (论文称为“pair-optimal”) ，梯度方差可能很小。较低的方差可能会令优化算法偏好这些记忆性解，而不是更具泛化性的解。
随机/有噪插值情形 : 当在插值中引入噪声时，记忆化解的梯度方差往往更高，而更接近最优传输的向量场的方差更低。这有效地将优化过程引导远离记忆化，向更稳健的解靠拢。

其实践意义重大: 通过监测梯度方差，实践者可以检测模型何时正在收敛到记忆化解，而不是学习有意义且可泛化的传输映射。

核心方法与理论 — 高斯到高斯分析 (核心部分)

论文以高斯到高斯的传输开始理论分析。为什么？因为高斯分布间的最优传输在解析上是可处理的。这使得作者能够导出闭式的向量场并精确计算梯度方差，提供一个透明且受控的分析环境以理解底层机制。

非正式引理 1 : 在 $X_0 \sim \mathcal{N}(0, I_d)$ 与 $X_1 \sim \mathcal{N}(\mu, M_d)$ 之间的最优传输 (OT) 向量场可写成闭式:

\[ \hat{v}_{OT}(X_t,t) = \hat{\theta} + \hat{\Theta} [I_d + t\hat{\Theta}]^{-1} (X_t - t\hat{\theta}), \]

其中特定选取为 $\hat{\Theta} = M_d^{1/2} - I_d$ 且 $\hat{\theta} = \mu$。类似地，一个“旋转的 OT” (rOT) 向量场可以使用 $\hat{\Theta}_{rOT} = M_d^{1/2} R - I_d$ 来定义，其中 $R$ 是旋转矩阵。

这种参数化揭示了一个对常见神经网络 (MLP、CNN、Transformer) 而言的基本挑战: 该公式包含矩阵逆 $[I_d + t\hat{\Theta}]^{-1}$，一般的有限神经网络无法精确表示该逆。这种近似误差会显著影响优化景观。

关键洞见 : 论文证明，梯度方差主要取决于“学习到的向量场”与“配对结构”之间的不匹配——而不仅仅是插值直线的几何相交。例如，即便完美直的耦合且不相交，如果参数化的向量场与配对在旋转等方面不一致 (例如旋转不匹配) ，也会产生非零的梯度方差。反之，仅有高密度插值或相交区域本身并不会自动导致方差升高。

非正式命题 1 : 对于高斯源和目标分布，在不同配对与向量场参数化下评估 $\nabla_\theta L_{MC}$ 的方差时:

如果向量场类与配对完全匹配 (例如，二者编码相同的旋转或 OT 映射) ，则损失与梯度方差均为零。
若存在不匹配 (例如配对施加了某种旋转，但向量场类编码了不同的旋转或真实的 OT 映射) ，即便所有插值都是直线，梯度方差也为非零。

关键结论是: 低梯度方差并不保证 OT 最优性。相反，它可能表明模型找到了恰好匹配 (可能任意或次优的) 训练配对的向量场，从而导致记忆化。

示范: 有噪与无噪插值下的梯度方差行为

图 3 (来自论文) 可视化了一个向量场在不同配对类型下随时间的梯度方差 (该向量场实现了 120° 的旋转) 。图中显示最优配对可以表现出最高的方差，而随机配对未必产生最大方差。

$Gradient variance over time for a vector field rotating by $120^{\\circ}$ , under various pairing types including rotated and random couplings. In the top right, the two Gaussians are shown along with sample trajectories, color-coded by integration time. Optimal pairings exhibit the highest variance, while random pairings do not yield the maximum variance.$

图 3: 一个旋转 120° 的向量场在多种配对类型下随时间的梯度方差。在右上角展示了两个高斯及样本轨迹，颜色按积分时间编码。最优配对表现出最高的方差，而随机配对并不产生最大方差。

图 4 总结了另一项关键发现: 在插值中加入噪声会显著影响梯度方差景观。具体而言，噪声倾向于降低真实 OT 向量场的梯度方差，同时增加记忆化场的方差。这有效地将训练过程引导远离记忆化，向更稳健的解靠拢。

$Gradient variance (with $95%$ confidence intervals) for Gaussian transport paired $(X_0, R_{30^\\circ} X_0 + \\mu)$ under different noise levels.$

图 4: 对高斯传输配对 $(X_0, R_{30^\circ} X_0 + \mu)$ 在不同噪声水平下的梯度方差 (含 95% 置信区间) 。我们比较了产生 $0^\circ$ (OT，蓝色) 、$30^\circ$ (pair-optimal，橙色) 和 $60^\circ$ (非 OT、非 pair-optimal，绿色) 旋转的向量场。阴影区域为基于 100 次自助法 (bootstrap) 样本计算的置信区间。随着噪声增加 ($\sigma = 0 \to 4$) ，最优传输 (OT) 场的方差显著下降 ($p < 0.01$，配对 t 检验) ，同时保持较低的传输误差。

一个戏剧性的失效模式: 当所有插值相交时

一个特别引人注目的实验突显了一个关键失效模式。考虑一个确定性配对，其中目标分布为源分布的 180° 旋转并平移，例如 $X_0 \sim \mathcal{N}(0, \mathbf{I}_2)$ 且 $X_1 = R_{180^\circ} X_0 + [5, 5]^\top$。在这种情形中，成对的源与目标点之间的所有直线插值都在相同的中点 $t = 1/2$ 相交。

有人可能认为训练会被迫在相交点处解决这个二义性。然而，因为训练时对时间 $t$ 的采样来自连续分布 (例如在 $[0,1]$ 上均匀采样) ，在训练中精确采样到 $t = 1/2$ 的概率为零。因此，在确定性训练期间，向量场在这个奇异相交点处没有任何约束。在推理时，数值 ODE 积分通过离散时间步进行，可能从未在 $t = 1/2$ 精确评估到向量场。这实际上“绕过”了该未受约束的相交点，使模型得以简单地复现训练数据中记忆的 180° 旋转和平移。图 6 有力地演示了这一现象: 尽管所有轨迹相交，确定性积分仍能在推理时恢复完全相同的记忆映射。

$Integration over a vector field performing a $180^\\circ$ rotation. Although all interpolation paths intersect at $t = 1/2$, we still recover the 180°-rotated couplings because numerical integration bypasses the singular point.$

图 6: 对执行 180° 旋转的向量场进行积分。尽管所有插值路径在 $t = 1/2$ 相交，并且 $\mathbb{E}[X_1 - X_0 \mid X_t = x_{1/2}] \neq X_1 - X_0$，我们仍然恢复了 180° 旋转的耦合。这是因为数值积分过程将时间离散化，并没有在相交点精确评估向量场，从而有效绕过了该点。

有限数据集的一般理论 — 记忆化是可能且稳定的

高斯分析在特定设置中提供了启发性见解。作者将这些发现扩展，证明了一个针对确定性插值的一般数据集级别结果，表明记忆化并非边缘情形，而在某些条件下是一种稳定的结果。

非正式引理 2 (ReFlow 的幂等性) : 如果当前耦合 $(Z_0, Z_1)$ 已经“直” (即给定插值点 $Z_t$ 时的位移条件期望 $\mathbb{E}[Z_1 - Z_0 \mid Z_t]$ 等于真实位移 $Z_1 - Z_0$)，那么对该耦合使用确定性 (无噪) 插值的后续 ReFlow 迭代将保持耦合不变。本质上，一旦在无噪声条件下达到直性，ReFlow 就变为幂等的。

非正式命题 2 (极小化器记忆化 — 主定理) : 给定任意有限数据集，由 $N$ 个确定性训练对 $\{(Z_0^{(i)}, Z_1^{(i)})\}_{i=1}^N$ 组成，其中 $Z_1^{(i)} = T(Z_0^{(i)})$，并且对每个配对采样了有限个时间点 $\{t^{(i,j)}\}$，存在一个确定性向量场 $v$ 能在恰好那些采样的插值点上实现零经验 CFM 损失。具体地，可以定义这样的向量场为:

\[ v(z,t) := \mathbb{E}_{\hat P}[Z_1 - Z_0 \mid Z_t=z, t], \]

其中 $\hat P$ 是基于有限训练集的经验分布。该 $v$ 在每个训练插值点 $(Z_t^{(i,j)}, t^{(i,j)})$ 上完全匹配真实位移 $Z_1^{(i)} - Z_0^{(i)}$，把经验损失降低到零。这意味着训练目标本身内在地允许记忆化解。

关于该命题有两个关键备注:

恢复相同配对的条件 : 要在推理时重现精确的训练配对，数值积分过程必须有效地“经过”训练时使用的那些离散时间步。尽管这看起来有些局限，但在实践中常常会发生，使得记忆化成为现实问题，而非仅是理论现象。
噪声打破证明假设 : 使用带噪插值的一个关键优点是它打破了 $(X_t, t)$ 与 $(X_0, T(X_0))$ 之间的双射关系。这一破坏使得引理 2 和命题 2 的构造不再成立，从而阻止模型轻易收敛到平凡的记忆解。正如图 4 所示，这可以促使学习到更接近最优的向量场。

图 7 在视觉上对比了无噪与有噪插值，展示了噪声如何移除使得记忆化成为可能的可注入性 (injectivity) 。

Schematic showing noiseless vs noisy interpolants. Noiseless training leaves intersection points measure-zero and enables injective mapping from interpolant to pair; noise destroys that injectivity.

图 7: 展示两种插值类型的示意图。当以确定性配对训练时，在交点处采样的概率质量为零。因此，映射 $(Z_t,t) \to (Z_0,T(Z_0),t)$ 变为单射，使得可以通过 $v(Z_t,t)=Z_0-T(Z_0)$ 在这些点定义向量场。相反，对于带噪插值，这种单射性不再成立。

实验 — 合成与真实数据

论文通过一系列实验在不同数据集上验证了其理论发现: 高斯混合与 CelebA 图像。下面我们挑选最具代表性的结果展示。

高斯混合的记忆化

为测试 CFM 在确定性配对下的记忆化倾向，作者训练了两种变体: 一种使用无噪插值 ($\sigma=0$) ，另一种在插值中加入少量噪声 ($\sigma=0.05$) 。模型将源高斯分布 $\pi_0 = \mathcal{N}(0, I_d)$ 映射到目标高斯混合分布 $\pi_1$。在低维 ($d=3$) 和高维 ($d=50$) 下分别评估了三种指标: 对数概率 (log-likelihood) 、最大均值差异 (MMD) 和 Sinkhorn 距离。这些指标分别针对生成样本 (Gen) 与真实样本、生成样本与训练配对积分 (Mem) 、以及真实与真实参考和训练数据与真实样本进行了计算，从而能够隔离无噪 CFM 是否仅仅记忆了有限数据集，以及随机插值是否改善了泛化。

表 1 汇总的结果显示: 无噪插值的 CFM 倾向于记忆其训练的确定性配对，表现为非常低的记忆化距离但较差的泛化。相比之下，$\text{CFM}(\sigma = 0.05)$ 在两个维度上均表现出与真实分布距离更低的结果，表明其泛化能力更强且较少依赖记忆配对。

Table 1: Comparison of CFM and CFM with stochastic interpolants ( σ = 0.05 ) across low and high dimensions.

表 1: 在低维与高维上比较 CFM 与带随机插值的 CFM ($\sigma = 0.05$) 。$\text{CFM}(\sigma = 0.05)$ 生成的样本更符合目标分布 (以更低的 MMD 和 Sinkhorn 距离为证) ，且不依赖记忆化，其在生成与真实数据指标上均有良好表现，显示出比标准 CFM 更好的泛化与样本质量。实验在 10 个随机种子下进行；表中为均值。完整表格参见论文附录 F。

如何读取表 1 : 在 Gen (生成) 列中，我们希望对数概率值更接近 True 值而非 Data 值。如果生成值更接近 Data，则表明模型在记忆而非真正泛化。例如，在 $d=3$ 的无噪 CFM 行中，“Gen LogProb” (4.0150) 非常接近“Data LogProb” (4.0155) ，但离“True LogProb” (4.1330) 更远，这表明发生了记忆化。这经常出现的原因是对数似然倾向于青睐在训练数据热点附近采样的模型。类似地，在 Mem (记忆化) 列中，一个非常接近 Data 列的值再次表明对训练点的过拟合。对于 MMD 和 Sinkhorn 指标 (衡量距离) ，我们观察到 $\text{CFM}(\sigma = 0.05)$ 通常比标准 CFM 的记忆化程度低约十倍，表明更好的泛化。

论文还对 10 维高斯混合的梯度方差进行了深入分析。论文附录中的图 10 和图 11 展示了在不同源与目标模态数下梯度方差的行为。图 11 (使用随机插值) 相较于图 10 (无噪插值) 展现了在不同配置下更稳定的梯度方差。

CFM in 10 dimensions: several source×target mode configurations.

图 10: 10 维下的 CFM。每个标题表示源分布的高斯分量数量乘以目标分布的数量 (例如 $4 \times 16$ 意味源有 4 个模态，目标有 16 个模态) 。

CFM with stochastic interpolants (10D mixtures) — variance looks more stable.

图 11: 在 10 维混合间传输中，结合随机插值的 CFM。各面板标记为“源模态 × 目标模态”。

CelebA 上的记忆化

为在真实世界数据上实证命题 2，作者在 CelebA 数据集上进行了实验。参考了 Korotin 等人 (2021) 的真实最优传输 (OT) 配对。比较了两种 CFM: $\text{CFM}(\sigma=0)$ (确定性插值) 与 $\text{CFM}(\sigma=0.05)$ (稍有噪声的插值) 。小噪声参数 $\sigma$ 被专门选为破坏数据与插值轨迹之间的单射性，从而禁用记忆化路径。

对抗性配对 : 为了直接探测记忆化，构造了一个对抗性数据集——通过打乱 OT 配对的目标来故意破坏正确的传输结构。模型按两项标准评估: 泛化 (到真实 OT 目标的 $L_2$ 误差) 和记忆化 (到被打乱的训练目标的 $L_2$ 误差) 。

表 2 显示: $\text{CFM}(\sigma=0)$ 强烈地记忆了被打乱的非最优目标，在这些错误目标上取得了很低的 $L_2$ 误差。相比之下，加入微小噪声 ($\sigma=0.05$) 打破了这种记忆，使模型不易过拟合，并更好地向真实 OT 映射泛化。

Table 2: Adversarial Pairings Results — deterministic CFM memorizes shuffled (bad) targets; small noise breaks memorization.

表 2: 对抗性配对结果: 这些结果表明使用确定性插值的 CFM ($\sigma = 0$) 强烈记忆非最优的打乱目标，在任意配对上最小化训练损失。加入少量噪声 ($\sigma = 0.05$) 可以打破这种记忆，使模型更倾向于泛化并逼近真实 OT 映射。

模拟 1-ReFlow : 为了检验迭代流模型是否会强化记忆化，模拟了一个 1 步 ReFlow 情形。首先在随机 (非 OT) 配对上训练一个基础 CFM 模型，利用该模型通过 ODE 积分生成新的端点，然后在这些生成的端点上重新训练 CFM。

表 3 证实了先前的一致发现: 确定性插值 ($\sigma=0$) 促进了对生成训练配对的记忆化，而少量噪声显著提升了对记忆化的抵抗并恢复了泛化能力。

Table 3: Simulated 1-Reflow results — deterministic interpolants facilitate memorization, noise reduces it.

表 3: 模拟 1-Reflow: 结果一致: 确定性插值 ($\sigma = 0$) 促使对训练配对的记忆化，而少量噪声显著降低了记忆化并恢复了泛化能力。

作者指出，随着数据集规模增大，记忆化效应会减弱，因为固定的模型容量很难实现完美记忆。然而，当可能时，优化仍倾向于记忆化，这一点与命题 2 的预测一致。

梯度方差的不对称性 (CIFAR / 正向与反向)

除了具体数据集，论文还研究了在 CIFAR 类数据上训练的 CFM 模型的梯度方差模式。他们分别训练了正向 (高斯 $\to$ 图像) 与反向 (图像 $\to$ 高斯) 的 CFM 模型，并比较了无噪 CFM 与 $\text{CFM}(\sigma=0.05)$。

图 9 显示正向与反向模型的梯度方差模式存在显著差别。特别地，随机插值使得反向梯度更稳定，这进一步表明噪声可以稳定学习过程。

Comparison of gradient variance for the forward and backward passes in CFM and CFM(σ = 0.05).

图 9: 比较 CFM 与 $\text{CFM}(\sigma = 0.05)$ 在正向与反向过程中的梯度方差 (SBM 的第一步) 。右侧的示意图说明了梯度方差如何影响积分过程中的样本方差。值得注意的是，反向传递的梯度方差在 CIFAR-10 端点附近达到峰值，但结果的样本方差比正向传递更低。这可能发生于例如当正向场线性增大而反向场线性减小时。这些效应在表 1 中有定量反映。

综合分析 — 为什么这些很重要

研究细致地展示了: 在基于流的方法及类似确定性训练机制中，存在本质上对记忆化的脆弱性。当在有限数据集上使用确定性且无噪的插值训练时，CFM 损失函数允许向量场完美记忆采样到的位移。优化算法可能无意中偏向这些解，因为它们产生很低的经验损失，并且重要的是产生低梯度方差，从而给人一种错误的成功假象。

梯度方差成为一个关键且实用的诊断工具。如果在训练过程中观察到梯度方差趋近于零但模型泛化性能差，这是模型可能在记忆训练配对而不是学习稳健可泛化传输的一项强烈指示。

作者提出并验证的解决方法非常简单却有效: 在插值中注入哪怕很小的噪声 (随机插值) 。这一看似微小的改变打破了 $(X_t,t)$ 与 $(X_0,X_1)$ 之间的双射关系，从根本上使得记忆化路径失效。在实践中，这会将训练引导向类似熵正则化 OT 的解，这类解以更好的泛化性著称。

给实践者的建议

基于这些发现，下面是对任何使用基于流的生成模型的从业者的可操作建议:

监测梯度方差 : 如果你的流程使用确定性配对与无噪插值 (许多 ReFlow 设置中常见) ，请养成在批次与训练过程中监测 $\text{Var}[\nabla_\theta L_{MC}]$ 的习惯。记住，低方差并不总是表示好的、可泛化的解。
采用小幅随机插值噪声 : 在插值中加入适度的高斯扰动，例如使用 $X_t = (1-t)X_0 + tX_1 + \sigma\sqrt{t(1-t)}Z$ (其中小的 $\sigma$ 和 $Z \sim \mathcal{N}(0, I)$) ，是一种轻量且高效的防止记忆化的方法。
对迭代整流持谨慎态度 : 对那些声称一两次 Rectified Flow 迭代就能保证直性或最优耦合的断言要保持警惕。正如本文所示，在确定性耦合下，迭代整流反而可能强化记忆化，从而阻碍真实泛化。
考虑参数化的限制 : 如果你的神经网络架构无法精确表示矩阵逆之类的结构 (多数标准 MLP、CNN、Transformer 都如此) ，则应预期存在近似误差。这些误差会与梯度方差相互作用，并影响优化过程偏向哪些局部极小值。

局限性与未解问题

作者承认在评估上存在某些局限性:

评估范围 : 经验验证主要集中在高斯、高斯混合以及 CelebA 上。更广的数据模态和更高分辨率的数据可能揭示出在此未覆盖的额外行为或细微差别。
随机性的性质 : 尽管引入噪声有助于防止记忆化，但须认识到这会微妙地改变目标。随机插值趋向于将学习偏向熵正则化 OT (entropic OT) ，而非纯粹的 Monge OT。尽管这在实践中常常带来更好的泛化，但本质上改变了所要解决的问题。
与架构的交互 : 关于特定神经网络参数化、梯度方差与传输配对几何性质在大规模下的复杂相互作用仍有待深入理解。

结论

这篇论文为基于流的生成建模中的一个微妙但极具实践意义的问题提供了清晰而严谨的视角。尽管 Rectified Flows 承诺通过拉直传输路径实现快速采样，作者们却严格地证明了: 在确定性训练和无噪插值条件下，目标函数很容易允许记忆化的向量场存在。

核心贡献是识别出“梯度方差”作为这种失效模式的可靠指示器。低梯度方差可能具有欺骗性，它并不意味着发现了最优传输，而可能表明模型学习到了精确拟合采样位移的记忆化解。一种原则性且有效的对策是: 在插值中注入随机性，这从根本上破坏了记忆化途径，并将模型引导到更好的泛化和更稳健的传输解。

对于任何训练基于流模型的人来说，主要结论简单且可操作: 持续监测梯度方差，并认真考虑在插值中加入少量随机性。这些做法可以避免一种看似“成功” (低训练损失与低梯度方差) 但实际上是把模型教会复现训练数据而非理解数据生成过程的意外失效模式。

引言#

背景 — 你需要知道的组成部分#

最优传输 (OT)#

流匹配与条件流匹配 (CFM)#

整流流 (Rectified Flows，ReFlow)#

为什么要关注梯度方差？#

核心方法与理论 — 高斯到高斯分析 (核心部分)#

示范: 有噪与无噪插值下的梯度方差行为#

一个戏剧性的失效模式: 当所有插值相交时#

有限数据集的一般理论 — 记忆化是可能且稳定的#

实验 — 合成与真实数据#

高斯混合的记忆化#

CelebA 上的记忆化#

梯度方差的不对称性 (CIFAR / 正向与反向)#

综合分析 — 为什么这些很重要#

给实践者的建议#

局限性与未解问题#

结论#

引言