破解细胞密码: 深入探讨单细胞基因组学的自监督学习

想象一下,试图通过一张覆盖整个大都会区的卫星照片来了解一座复杂的城市。你能看到整体布局、高速公路和建筑密度,但却看不到让这座城市运转的每一个个体。很长一段时间以来,基因组学就处于这种状态。“批量测序 (Bulk sequencing) ”为我们提供了数百万个细胞混合后的平均视图——就像一杯生物“冰沙”。

单细胞 RNA 测序 (scRNA-seq) 的出现改变了这一切。这项技术相当于把镜头拉近,去追踪城市中的每一个人。它允许科学家以单个细胞的分辨率来分析分子数据,揭示了巨大的异质性。我们现在可以识别稀有的细胞类型,追踪疾病进展,并观察单个细胞如何对药物产生反应。

然而,高分辨率伴随着高噪声。单细胞数据是高维的、稀疏的 (包含大量零值) ,并且极易受到“批次效应”的影响——这是由不同实验、不同日期或不同实验室技术人员引入的技术差异。

为了解决这个问题,计算生物学家正在转向自监督学习 (SSL) , 这正是 ChatGPT 等模型和计算机视觉系统成功背后的机器学习范式。但生物学不是文本或图像。哪种 SSL 方法最适合细胞数据?我们是使用为图像构建的模型 (如 SimCLR) ,还是使用专门的生物学模型 (如 scVI) ?

在这篇文章中,我们将详细拆解 scSSL-Bench , 这是一项综合性研究,它在九个数据集上对十九种 SSL 方法进行了基准测试,旨在找出学习细胞数据表示的最佳方法。

问题: 单细胞数据中的信号与噪声

在深入研究算法之前,我们需要先了解数据。单细胞数据集通常是一个矩阵,其中行是细胞,列是基因 (通常超过 20,000 个) 。数值代表基因的活跃程度。

分析这些数据的最大障碍是批次效应 (Batch Effect) 。 如果你在周一处理病人 A 的血液,在周二处理病人 B 的血液,细胞可能会因为时间、化学试剂或机器校准的不同而表现出差异。如果你将这些数据可视化,细胞通常会按实验批次聚类,而不是按细胞类型聚类。

批次校正。未校正 (红色) 的图显示,在批次校正之前,细胞倾向于按批次 (技术噪声) 而不是细胞类型 (真实的生物信号) 聚类。在训练模型并学习校正后的表示 (绿色) 之后,细胞按细胞类型分组,不同批次混合在一起。

如上方的 图 G2 所示,未校正的数据 (红色) 显示了不同批次 (P1-P8) 的明显聚类。这很糟糕;这意味着技术噪声淹没了生物信号。在这种情况下,SSL 的目标是学习一个“批次校正”的嵌入 (绿色) ,使细胞按其实际类型 (例如 T 细胞与 T 细胞聚在一起) 聚类,而不管它们是何时被测序的。

竞争者: 通用 SSL 与专用 SSL

scSSL-Bench 的作者将这些方法主要分为两大阵营:

  1. 通用 SSL 方法 (Generic SSL Methods) : 这些是从计算机视觉领域改编而来的著名架构。它们主要依赖于对比学习 (Contrastive Learning) , 即模型学习将同一图像 (或细胞) 的两个增强视图拉近,同时推开不同的图像。例子包括 SimCLR、MoCo、BYOL 和 VICReg
  2. 专用单细胞方法 (Specialized Single-Cell Methods) : 这些是专门为基因组学设计的。
  • *专用对比方法: * 如 CLEARCLAIRE , 它们使用特定的生物学数据增强技术。
  • *专用生成方法: * 如 scVI (一种变分自编码器) 以及像 scGPTGeneformer 这样的基础模型 (在海量细胞图谱上训练的 Transformer) 。

所考虑方法的概览。编码器和投影器块之间的虚线表示权重共享。指数移动平均 (EMA) 表示使用动量更新权重。

图 G1 展示了通用方法的架构。虽然它们的损失函数各不相同 (例如,SimCLR 使用对比损失,BYOL 使用预测一致性) ,但它们都有一个共同的目标: 在不需要人工标签的情况下学习输入数据的鲁棒表示。

scSSL-Bench 框架

我们如何公平地比较像 SimCLR 这样的计算机视觉模型和像 scGPT 这样的生物学基础模型?研究人员构建了一个标准化的流程,称为 scSSL-Bench

图 1. scSSL-Bench 概览: 作为输入,scSSL-Bench 接收 scRNA-seq 数据… scSSL-Bench 训练十九种方法之一… 使用增强技术生成细胞的两个视图。学习到的嵌入在三个下游任务上进行评估。

该工作流程如 图 1 所示,分四个步骤进行:

  1. 输入: 原始的细胞-基因计数矩阵。
  2. 增强: 对于对比方法,我们需要创建细胞的“视图”。由于我们不能像处理图像那样旋转或裁剪基因矩阵,研究人员使用了 掩码 (Masking) (隐藏某些基因计数) 或 高斯噪声 (Gaussian Noise) 等技术。
  3. 训练: 训练模型 (通用、生物对比或生物生成) 以学习细胞的低维嵌入。
  4. 评估: 学习到的嵌入在三个关键的下游任务上进行测试:
  • 批次校正: 模型能否在保持细胞类型区分的同时混合批次?
  • 细胞类型注释: 我们能否利用嵌入基于参考数据标记未知细胞?
  • 缺失模态预测: 在多组学数据 (例如 RNA + 蛋白质) 中,我们能否仅根据 RNA 预测蛋白质水平?

理解任务

批次校正是为了清理数据,而细胞类型注释则是为了实用性。它模拟了“查询到参考 (Query-to-Reference) ”的场景。想象一下,医生对肿瘤进行了测序 (查询) ,并希望将这些细胞映射到健康的图谱 (参考) 上以识别它们。

查询到参考的映射。模型接收带注释的训练数据集 (参考,粉色输入) 作为输入,并学习相应的潜在空间。在推理过程中… 分类器被用来预测留出数据 (查询) 的细胞类型。

图 G3 所示,模型必须将查询数据和参考数据对齐在同一个潜在空间中,以便分类器可以准确地将标签从参考数据转移到查询数据。

关键实验与结果

基准测试产生了一些令人惊讶的结果,挑战了“专用总是更好”的假设。

1. 单模态数据 (仅 RNA) : 专用方法获胜

在处理标准的 scRNA-seq 数据时,专门为生物学设计的模型占据了统治地位。

表 1. 批次校正基准测试… 对于单模态数据 (PBMC、Pancreas 和 Immune Cell Atlas) ,专用编码器-解码器方法 scVI、特定领域 SSL 方法 CLAIRE 和基础模型 scGPT 优于其他方法。

表 1 显示了多个数据集的性能。“Total (总分) ”指标结合了生物信号保留程度 (“Bio”) 和批次效应去除程度 (“Batch”) 。

  • 获胜者: scVI (一种生成模型) 始终在两者之间取得了最佳平衡。它显式地建模了基因计数的统计分布 (负二项分布) ,这赋予了它巨大的优势。
  • 亚军: CLAIRE , 一种专用的对比方法,也表现得非常好,特别是在批次校正方面。
  • 基础模型: scGPT (经过微调) 在像 Immune Cell Atlas 这样的大型数据集上表现出了潜力,但在较小的数据集上,与 scVI 相比,其批次校正能力较为挣扎。

通用方法 如 SimCLR 和 MoCo 表现尚可,但往往为了实现批次混合而牺牲了生物学细节 (过度校正) 。

2. 多模态数据: 通用方法的反击

当我们观察多组学 (Multi-Omics) 数据,特别是 CITE-seq (同时测量 RNA 和蛋白质) 时,情况完全变了。

在这个更复杂的设置中, 通用 SSL 方法 (SimCLR, VICReg) 优于专用的生物学模型。

请看下面的缺失模态预测任务。目标是在只知道 RNA 表达的情况下预测蛋白质水平。

在多模态数据集 PBMC 和 BMMC 上训练的模型的缺失模态预测。我们展示了原始缺失模态与推断缺失模态之间的平均皮尔逊相关系数… 方法在组内 (专用对比、生成和通用) 按从最差 (左) 到最好 (右) 排序。

图 3 显示了预测的蛋白质水平与实际蛋白质水平之间的皮尔逊相关系数。通用方法 (右侧,粉色/紫色/绿色) 始终比 scCLIPConcerto 等专用多模态方法获得更高的相关性。

为什么? 作者认为,当前的专用方法可能没有有效地捕捉不同模态 (RNA 和蛋白质) 之间复杂的非线性关系,而通用对比学习在寻找数据的不同“视图” (在本例中为模态) 之间的共享信息方面非常鲁棒。

3. 细胞类型分类性能

在为细胞分配类型方面,竞争非常激烈。

以 Immune Cell Atlas 的一种测序技术 (10X 5’ v2) 作为留出集的单模态细胞类型分类。我们训练编码器和分类器。微调后的 scGPT 和 Geneformer 表现最好,而通用 VICReg 方法紧随其后。

图 2 所示,虽然微调后的基础模型( scGPT, Geneformer )在细胞类型分类准确率上占据前列,但通用模型 VICReg 紧随其后,位列第三,优于许多其他专用方法。这表明,如果你没有足够的计算能力来运行像 scGPT 这样的大型 Transformer 模型,像 VICReg 这样轻量级的通用 SSL 模型是一个极好的替代方案。

消融实验: 微调机器

对于学生和从业者来说,这篇论文最有价值的部分是“消融实验 (Ablation Study) ”——对为什么起作用的系统性分析。

温度很关键

在对比学习 (如 SimCLR) 中,有一个称为“温度” (\(\tau\)) 的超参数,它控制正样本对和负样本对之间区别的锐度。

温度对四个数据集 (列) 上三种对比方法损失的影响。生物保留、批次校正和总分显示在 y 轴上… 总的来说,较小的温度导致更好的数据整合。

图 4 展示了一个清晰的趋势: 较低的温度 (0.1 - 0.5) 通常会导致更好的整合效果。 随着温度升高 (在 x 轴上向右移动) ,性能指标 (Bio, Batch, Total) 往往会下降。较低的温度迫使模型更具辨别力,学习关于细胞状态的更精细细节。

最佳的数据增强策略

对比学习需要“增强”——修改样本以创建新视图。在图像中,我们要裁剪和旋转。在细胞中,我们要不同的选择:

  • 高斯噪声 (Gaussian Noise) : 向数值添加随机噪声。
  • 掩码 (Masking) : 随机将基因计数设为零。
  • 内部交换 (InnerSwap) : 在细胞内交换基因值。
  • BBKNN/MNN: 使用最近邻来模拟相关细胞。

基于批次校正总分的 VICReg 方法的单独和组合数据增强评估… 基于批次校正总分的 SimCLR 和 MoCo 方法的单独和组合数据增强评估…

图 5 (以及补充图 G7) 中的热图揭示了一个冠军: 随机掩码 (Random Masking)

观察热图中的红色/暖色区域 (表示高性能) ,涉及 掩码 的策略得分始终很高。这模仿了 NLP 中 BERT 的“掩码语言建模”目标。通过隐藏基因,模型被迫学习上下文和基因之间的关系 (例如,“如果基因 A 和基因 B 很高,基因 C 也必须很高”) 。令人惊讶的是,像 MNN 这样复杂的生物学特定增强并没有始终优于简单的掩码。

结论与建议

scSSL-Bench 论文为在基因组学中使用自监督学习提供了路线图。以下是给学生和研究人员的关键要点:

  1. 工欲善其事,必先利其器:
  • 如果你有 单模态 (RNA) 数据并且需要校正批次效应: 使用 scVI 。 它仍然是黄金标准。
  • 如果你有 多模态 数据或需要预测缺失模态: 使用像 VICRegSimCLR 这样的通用 SSL 方法。它们目前击败了专用模型。
  • 如果你有海量的计算资源并且需要 细胞类型分类 : 像 scGPT 这样的微调基础模型很强大,但 VICReg 是一个计算成本更低且具有竞争力的替代方案。
  1. 保持简单:
  • 掩码 (Masking) 作为你的主要增强手段。
  • 使用 中等的嵌入维度 (64 到 128) 。更大并不总是更好,而且消耗更多内存。
  • 对于对比损失,坚持使用 较低的温度
  1. 未来方向: 通用计算机视觉模型在多组学数据上优于专用生物学模型的事实是一个“警钟”。它凸显了一个巨大的机会,研究人员可以开发更好的、专用的架构来处理多模态生物数据的细微差别。

随着深度学习和生物学的不断融合,像这样的基准测试至关重要。它们阻止我们盲目应用最新的炒作,并帮助我们确切地了解哪些算法能解开隐藏在我们细胞中的秘密。