引言
在计算病理学领域,一张图片胜过千言万语——它甚至可能抵得上成千上万个基因表达谱。
几十年来,病理学家一直通过苏木精-伊红 (H&E) 染色切片来诊断疾病。这些图像揭示了组织形态学——即细胞的形状和结构。然而,形态学只是故事的一半。疾病的分子驱动因素,特别是基因表达,是肉眼无法看见的。空间转录组学 (Spatial Transcriptomics, ST) 是一项革命性的技术,它弥补了这一差距,使科学家能够将基因表达映射到组织切片上的特定物理位置。这就好比从仅有视觉特征的卫星地图,进化到了包含人口统计数据的街景视图。
但问题在于,ST 技术既昂贵又缓慢,且需要专门的设备。这就对 AI 模型产生了巨大的需求,人们希望 AI 能直接从标准、廉价的 H&E 图像中“幻视”或预测出空间转录组数据。
虽然最近的深度学习尝试前景广阔,但它们面临两个主要障碍:
- 孤立性: 它们通常孤立地处理组织的小块 (patch) ,忽略了细胞与其邻居进行交流和互动的生物学现实。
- 可扩展性: 那些试图观察整个玻片的“基于玻片”的方法往往会导致计算机内存崩溃,因为单张玻片可能包含数万个斑点 (spots) 。
STFlow 应运而生,这是 ICML 2025 上发表的一项新模型。这项研究提出了一种使用 流匹配 (Flow Matching) 来预测基因表达的生成式方法。STFlow 不像以前的方法那样一次性猜测数值,而是将问题视为一个迭代生成过程,对整个玻片上的基因联合分布进行建模。
在这篇文章中,我们将拆解 STFlow 的架构,解释为什么“流匹配”完美契合这一生物学问题,并探讨它是如何在准确性和效率上双双超越前人的。
背景: 从组织学到 ST 的挑战
要理解 STFlow,我们首先需要了解数据结构。一张 H&E 全玻片图像 (WSI) 通常被分割成一个由小方块组成的网格,这些小方块被称为 斑点 (spots) 。
- 输入: 特定斑点的图像块及其 \((x, y)\) 坐标。
- 输出: 该斑点处数千个基因的基因表达水平 (RNA 转录本的计数) 。
回归方法的局限性
大多数先前的工作将其构建为一个简单的回归问题。它们提取一个图像块,通过卷积神经网络 (CNN) 或 Transformer 运行它,并要求模型输出一个数字。
这种方法的问题在于 独立性 。 通过分别预测斑点 A 和斑点 B,模型忽略了 细胞间的相互作用 。 在生物学中,位于斑点 A 的肿瘤细胞可能正在分泌抑制位于斑点 B 的免疫细胞的信号。如果模型不将 A 和 B 结合起来看,它就会失去做出准确预测所需的上下文。
一些“基于玻片”的方法试图使用全局注意力机制来解决这个问题,但它们撞上了计算墙。计算 10,000 多个斑点之间的注意力需要巨大的内存 (\(O(N^2)\) 复杂度) ,这使得它在临床工作流中不切实际。
核心方法: STFlow
STFlow 将范式从 回归 转变为了 生成 。 它不再问“这里的确切基因计数是多少?”,而是问“给定图像,这张整个玻片上最可能的基因计数分布是什么?”

如图 1 所示,该过程分为三个阶段:
- 视觉编码 (a): 每个斑点图像都由病理学基础模型 (如 UNI 或 Gigapath) 处理,以提取高级视觉特征 (\(Z\)) 。
- 上下文编码 (b): 模型观察邻居以理解空间依赖性。
- 流匹配 (c): 模型从随机噪声开始,迭代地将其细化为清晰的基因表达图谱。
让我们分解它的两个主要技术创新: 生成框架和去噪器架构。
1. 通过流匹配进行学习
流匹配 (Flow Matching) 是一种训练连续归一化流 (Continuous Normalizing Flows) 的技术。简单来说,它学习一个“向量场”,将概率分布从简单的形状 (噪声) 推向复杂的形状 (数据) 。
在 STFlow 中,研究人员将基因预测重新表述为一个条件生成任务。
\[ \operatorname* { m i n } _ { \theta } \operatorname { M S E } \left( Y , f _ { \theta } \left( Y _ { t } , I , C , t \right) \right) \]
在这里,模型 \(f_\theta\) (去噪器) 试图在给定噪声版本 \(Y_t\)、图像 \(I\)、坐标 \(C\) 和时间步长 \(t\) 的情况下预测清晰的基因表达 \(Y\)。
先验的选择: ZINB
在像扩散模型这样的生成模型中,我们通常从高斯 (正态) 噪声开始。然而,基因表达数据是独特的。它是 稀疏的 (许多零) 且 过度离散的 (方差高于均值) 。
作者分析了标准数据集,发现高斯先验并不符合生物学现实。

如图 2 所示,数据严重向零倾斜。为了解决这个问题,STFlow 使用 零膨胀负二项分布 (Zero-Inflated Negative Binomial, ZINB) 分布作为其先验。
\[ \begin{array} { r l } & { p ( y \mid \mu , \phi , \pi ) = } \\ & { \left\{ \begin{array} { l l } { \pi + \left( 1 - \pi \right) \left( \frac { \Gamma ( y + \phi ) } { \Gamma ( \phi ) y ! } \right) \left( \frac { \phi } { \phi + \mu } \right) ^ { \phi } \left( \frac { \mu } { \phi + \mu } \right) ^ { y } } & { \mathrm { i f ~ } y = 0 , } \\ { \left( 1 - \pi \right) \left( \frac { \Gamma ( y + \phi ) } { \Gamma ( \phi ) y ! } \right) \left( \frac { \phi } { \phi + \mu } \right) ^ { \phi } \left( \frac { \mu } { \phi + \mu } \right) ^ { y } } & { \mathrm { i f ~ } y > 0 , } \end{array} \right. } \end{array} \]
这个复杂的公式本质上是说: “基因计数正好为零 (丢失/稀疏) 的概率为 \(\pi\)。如果它不为零,则遵循由均值 \(\mu\) 和离散度 \(\phi\) 定义的负二项分布。” 通过从 这个 分布而不是高斯分布中采样起始噪声,模型一开始就更接近“真相”,从而使生成过程更容易、更准确。
2. 架构: E(2)-不变性去噪器
第二个主要创新是模型处理空间数据的方式。组织玻片可以旋转 90 度、翻转或平移,其生物学意义不应改变。无论肿瘤位于图像的左侧还是右侧,它仍然是肿瘤。这种性质称为 E(2)-不变性 (二维欧几里得群) 。
标准的 Transformer 不是 E(2)-不变的;它们对具体的坐标值很敏感。STFlow 使用 帧平均 (Frame Averaging, FA) 解决了这个问题。

帧平均如何工作
模型不是将原始坐标输入网络,而是:
- 计算斑点与其邻居之间的方向向量。
- 使用主成分分析 (PCA) 找到局部点云的“帧” (主轴) 。
- 将数据投影到这些帧中。
- 对结果进行平均。
这确保了无论你如何旋转输入玻片,神经网络内部的特征表示都保持一致。
具有交互作用的空间注意力
STFlow 中的注意力机制被设计为显式地模拟细胞间的相互作用。
\[ \begin{array} { r l } & { A _ { i j } = } \\ & { \mathrm { S o f t m a x } _ { i } ( \mathbf { M L P } ( \boldsymbol { Z } _ { Q , i } \mid \mid \boldsymbol { Z } _ { K , j } \mid \mid \boldsymbol { C } _ { i j } ^ { \prime } \mid \mid ( \boldsymbol { Y } _ { t , i } - \boldsymbol { Y } _ { t , j } ) ) ) } \end{array} \]
仔细看上面方程中 MLP 的输入。它使用了视觉特征 (\(Z\))、空间关系 (\(C'\)),以及至关重要的 基因表达的差异 (\(Y_{t,i} - Y_{t,j}\))。因为这是一个迭代过程,模型可以利用 当前估计 的基因表达来告知注意力权重。这使得模型能够学习像“如果邻居 J 的基因 X 表达量高,斑点 I 应该更多地关注它”这样的关系。
实验与结果
研究人员在两个大型基准上评估了 STFlow: HEST-1k 和 STImage-1K4M , 包括跨越各种器官 (乳腺、前列腺、肺等) 的 17 个不同数据集。
基因表达预测
主要指标是预测基因计数与真实值 (Ground Truth) 之间的皮尔逊相关系数 (PCC) 。

如表 1 所示,STFlow (最右列) 始终优于基于斑点的方法 (如 UNI 和 Ciga) 以及复杂的基于玻片的方法 (如 Gigapath-slide 和 TRIPLEX) 。
- 平均提升: 相比病理学基础模型,相对提升超过 18%。
- 一致性: 它在几乎所有器官类型中都取得了最佳结果。
生物标志物发现
临床价值在于识别特定的生物标志物——即指示疾病预后或治疗反应的基因。作者测试了关键癌症标志物的预测准确性: GATA3, ERBB2, UBE2C, 和 VWF。

可视化预测结果 (图 7) 显示,STFlow (最右列) 生成的热图与真实值 (最左列) 惊人地接近。像 BLEEP 或 STNet 这样的竞争对手通常会产生嘈杂或模糊的图谱,丢失了肿瘤区域的结构定义。

表 2 定量地证实了这一点。STFlow 在所有四种生物标志物上都取得了最高的相关性。值得注意的是,该表包含一个消融实验“STFlow w/o FM” (无流匹配) 。那里的性能下降证明了生成式迭代方法比简单的回归方法提供了显著的提升。
细化过程
流匹配最迷人的方面之一是观察模型“思考”。因为它是随时间步长 (\(t\)) 生成数据的,我们可以可视化从噪声到信号的转变。

在图 6 中,你可以看到基因表达图谱变得越来越清晰。在步骤 1,它是一个模糊的团块。到了步骤 5,与底层组织架构相匹配的独特形态结构出现了。这种迭代细化允许模型纠正错误并锐化边界,而一步回归模型本质上会将这些边界“模糊化”。
效率与可扩展性
高精度通常以高计算量为代价。然而,STFlow 利用了一种 局部空间注意力 机制 (将注意力限制在 \(k\) 个最近邻居) ,而不是全局注意力。

图 5 显示了运行时间 (y 轴) 与斑点数量 (x 轴) 的关系。
- 蓝/橙线 (竞争对手) : 随着斑点数量的增加,它们的运行时间飙升或在很高水平趋于平稳。
- 紫线 (STFlow) : 即使玻片规模扩大到 30,000 个斑点,仍然保持令人难以置信的快速和平稳。
通过使用局部注意力结合高效的帧平均技术,STFlow 避免了二次复杂度的陷阱,使其在标准 GPU 上运行成为可能,而不会耗尽内存。
结论
STFlow 代表了数字病理学向前迈出的复杂一步。通过摆脱简单的回归并拥抱 生成式流匹配框架 , 它捕获了组织切片上基因表达的复杂联合分布。
它的成功依赖于三大支柱:
- 生物学直觉: 使用 ZINB 先验来匹配基因数据的稀疏性。
- 几何严谨性: 使用帧平均来确保模型理解组织结构,无论其方向如何。
- 上下文建模: 使用迭代细化,允许相邻细胞告知彼此的预测状态。
对于该领域的学生和研究人员来说,STFlow 证明了“如何”预测 (生成式 vs 回归) 与使用“什么”来预测 (基础模型) 同样重要。随着空间转录组学的不断成熟,像这样轻量级、可扩展的模型对于将这些见解从实验室带入临床工作流将至关重要。
](https://deep-paper.org/en/paper/2506.05361/images/cover.png)