在深度学习的世界里,尤其是在计算机视觉和自然语言处理 (NLP) 领域,从头开始训练几乎是“大忌”。当你可以微调 BERT 或 GPT 时,你不会在空白状态下训练语言模型;当你可以使用 ImageNet 的权重时,你也不会在像素级别上训练图像分类器。这种被称为迁移学习的概念,正是推动现代 AI 发展的引擎。
然而,在计算病理学 (Computational Pathology, CPath) ——致力于分析数字化组织切片以进行癌症诊断的领域——这一标准做法尚未完全普及。当研究人员构建多示例学习 (MIL) 模型来分析十亿像素级的全切片图像 (WSIs) 时,他们几乎完全使用随机权重来初始化聚合网络。
为什么这会成为现状?更重要的是,忽视迁移学习是否意味着我们在白白浪费性能?
一项名为*“Do Multiple Instance Learning Models Transfer?” (多示例学习模型能否迁移?) *的综合研究直面这些问题。研究人员系统地评估了 11 种不同的 MIL 架构和 21 个任务,以确定预训练 MIL 模型是否能提升性能、提高数据效率,甚至超越巨大的“基础模型”。
病理学的独特挑战
要理解这就论文的重要性,我们首先需要了解病理学流程的架构。
数字化的组织切片 (WSIs) 非常巨大——通常超过 100,000 \(\times\) 100,000 像素。你无法将这种尺寸的图像输入到标准的神经网络中;内存需求将是无法满足的。因此,该领域使用一种称为多示例学习 (MIL) 的两步框架:
- 切块与编码 (Patching & Encoding) : 切片被切割成数千个小方块 (patches) 。一个预训练的图像编码器 (如 ResNet 或病理学专用的编码器如 UNI) 将每个小方块转换为特征向量。
- 聚合 (Aggregation) : 这是 MIL 的核心部分。一个可训练的“聚合器”网络接收这袋特征向量 (bag of feature vectors) ,并将它们池化在一起,对整个切片做出单一预测 (例如,“癌症”或“无癌症”) 。
虽然编码器 (步骤 1) 通常经过了大量预训练,但聚合器 (步骤 2) 通常是针对每个新任务从头开始训练的。研究人员认为这是一个错失的良机。如果一个聚合器学会了如何识别肺活检中的癌症,这种知识难道不应该有助于它分析乳腺活检吗?
实验: 对迁移性的大规模评估
作者设计了一套严谨的实验装置来测试 MIL 模型的“可迁移性”。
- 11 种架构: 他们测试了从简单的注意力机制 (ABMIL) 到基于 Transformer 的复杂聚合器 (TransMIL) 的各种架构。
- 21 个预训练任务: 模型在不同的数据集上进行了预训练,包括特定器官 (如肺或乳腺) 和巨大的泛癌 (pancancer) 数据集 (同时涵盖多种癌症类型) 。
- 19 个目标任务: 预训练后的模型随后在它们从未见过的下游任务上进行测试,范围从肿瘤亚型分类到基因突变预测。
“泛癌”假设
这项研究的一个关键组成部分是创建了两个特定的预训练基准: PC-43 和 PC-108 。 这些是源自不同器官的 3900 多张切片的层级分类任务。
- PC-43: 将切片分类为 43 种粗粒度癌症类型之一。
- PC-108: 一个细粒度任务,分类 108 种特定亚型。
假设是,一个被迫区分 108 种不同癌症亚型的模型将学会一种组织架构的“通用语法”,这种语法可以迁移到任何地方。
关键结果 1: 预训练总是胜出
最直观的发现具有强烈的视觉冲击力。当研究人员比较随机初始化的模型与使用 PC-108 泛癌任务权重初始化的模型时,差异是不可否认的。

如上方的图 1 所示,对于每一个测试的架构——从 ABMIL 到 TransMIL——预训练版本 (红点) 都优于随机初始化版本 (黑点) 。平均而言,预训练带来了 3.3% 的性能提升 。
这打破了 MIL 聚合器因任务特异性太强而无法迁移的观念。无论模型是简单还是复杂,以已有的知识为起点总比从零开始要好。
关键结果 2: 你可以跨器官迁移
人们可能会假设,在肺癌上训练的模型只对其他肺部任务有用。研究发现事实并非如此。
研究人员使用了“冻结特征”评估 (使用 K-近邻算法) ,来观察预训练模型的原始表示在完全不同的目标任务中对数据的聚类效果如何。

图 2 展示了这些结果的热力图。红色表示相对于随机权重的提升。红色的全面主导告诉我们要点:
- 泛癌模型称王: PC-43 和 PC-108 (泛癌任务) 所在的列显示出最强且一致的提升 (深红色) 。
- 跨器官迁移是有效的: 在肺癌 (NSCLC) 上训练的模型可以有效地迁移到乳腺癌任务 (BCNB) 。这表明不同的癌症具有共同的基本形态学特征——如肿瘤密度或免疫细胞浸润——MIL 模型学会了识别这些特征。
关键结果 3: 预训练让模型“数据高效”
在临床环境中,为罕见病收集数千张带标签的切片是不可能的。这就是少样本学习 (few-shot learning) ——即从极少量样本中学习的能力——变得至关重要的地方。
作者测试了当每个类别仅给出一小部分训练样本 (4、16 或 32 张切片) 时,这些模型的表现如何。

图 3 说明了数据效率方面的差距。红线和蓝线 (泛癌预训练) 显著高于黑线 (随机初始化) ,尤其是在数据最稀缺时 (\(K=4\)) 。对于 DFTD 架构,预训练在 4-shot 设置下将性能提升了 171% 。 这意味着拥有小型数据集的机构可以通过利用预训练权重来实现高性能 AI。
关键结果 4: 病理学中的规模法则
在一般的深度学习中,模型通常越大越好——如果你有足够的数据。如果你从头开始在小数据集上训练一个巨大的模型,它通常会过拟合并不再有效。
研究人员通过将 ABMIL 架构的参数量从 20 万扩展到 900 万,调查了这一点是否适用于 MIL。

图 4 揭示了一个有趣的趋势:
- 随机初始化 (黑色) : 随着模型变大,性能波动甚至变差。大模型很可能正在过拟合。
- 预训练 (红色) : 性能呈正向缩放。随着模型增大,它能更好地利用预训练,在 500 万参数左右达到峰值。
这表明预训练“解锁”了使用更大、表达能力更强的 MIL 架构的能力,而这些架构原本是不稳定的。
关键结果 5: 大卫对战歌利亚
也许最令人振奋的结果是将这种监督预训练方法与切片级基础模型进行比较。
最近,科技巨头和大型实验室发布了诸如 GigaPath 和 CHIEF 等海量模型。这些模型是在数十万张切片上使用自监督学习训练的。作者将他们的 ABMIL 模型 (仅通过 PC-108 在约 4,000 张切片上预训练) 与这些巨头进行了比较。

表 2 显示了结果。令人惊讶的是,PC-108 模型 (监督学习) 经常优于基础模型。
- KNN 评估: PC-108 表示在 12/15 个任务上击败了 CHIEF,在 13/15 个任务上击败了 GigaPath。
- 数据效率: PC-108 实现这一成绩所用的预训练数据不到基础模型所需数据的 10% 。
这挑战了主流的“规模即一切”的说法。它表明,在多样化、高质量的层级数据集 (如 PC-108) 上进行监督预训练蕴含着极高的信息密度,可能比在海量无标签数据集上进行的自监督学习更有效。
机制: 究竟迁移了什么?
为什么这行得通?模型仅仅是学会了更好的特征处理,还是学会了如何观察切片?
为了回答这个问题,研究人员检查了注意力权重 。 在 MIL 模型中,注意力权重决定了模型关注哪些小方块 (patch) 。

图 6 完美地展示了这一点。
- 冻结 (随机初始化) : 模型的注意力是分散和弥漫的。它不知道什么是重要的。
- 冻结 (PC-108 初始化) : 甚至在针对特定任务进行微调之前,模型就已经关注肿瘤区域 (红色区域) 。
- 微调后: 经过训练,焦点进一步清晰。
这证实了预训练迁移了聚合策略 。 模型在面对新任务时,已经知道肿瘤细胞和组织结构比空白区域或背景噪声更重要。
此外,切片级嵌入的 t-SNE 可视化显示,预训练模型比随机模型能更好地聚类不同的疾病亚型,即使没有经过特定任务的训练。

结论: 病理学 AI 的新标准?
这篇论文提出了一个令人信服的理由,即淘汰计算病理学中随机初始化的做法。作者表明, 监督 MIL 迁移具有以下特点:
- 鲁棒性: 在各种架构和任务中都能提升性能。
- 高效性: 在数据有限 (少样本) 的情况下表现良好。
- 可及性: 仅需一小部分数据和计算资源即可达到基础模型级别的性能。
其影响是深远的。通过采用迁移学习,研究人员可以为数据稀缺的罕见疾病开发诊断工具。这也表明,CPath 的未来可能不仅仅在于更大的自监督模型,还在于更智能、层级化的监督数据集,以此教会模型组织学的基本“语言”。
对于社区,作者发布了 FEATHER , 这是他们预训练的 PC-108 ABMIL 模型。它可以作为随机初始化的直接替代方案,为从事癌症亚型分类到突变预测等各种研究的人员提供即时的性能升级。
](https://deep-paper.org/en/paper/8644_do_multiple_instance_lear-1723/images/cover.png)