BrainMVP：利用多模态预训练掌握医学图像分析

在医学人工智能飞速发展的世界里，标注数据的稀缺一直是一个持续存在的瓶颈。虽然深度学习模型在海量数据上表现出色，但获取医学扫描的完美像素级标注——例如逐层勾勒脑肿瘤——需要受过高度训练的放射科医生付出数小时的手工劳动。

为了解决这个问题，研究人员转向了自监督学习 (Self-Supervised Learning, SSL) 。这个想法简单而强大: 让 AI 在看到人工标注之前，先利用未标注的数据自学解剖结构。

然而，现有的 SSL 方法在面对医学成像的复杂现实时往往会碰壁。大多数方法将图像视为单一、孤立的输入 (单模态) ，或者要求每位患者都有一套严格完整的扫描数据。这忽略了临床实践中的一个基本事实: 患者通常会接受多参数磁共振成像 (Multi-Parametric MRI, mpMRI) 检查，从而产生分组的扫描 (模态) ，通过不同的“镜头”展示相同的解剖结构。此外，在现实世界中，数据往往是杂乱和不完整的——有些患者可能会缺少某种特定的扫描类型。

在这篇文章中，我们将深入探讨 BrainMVP , 这是论文*《Multi-modal Vision Pre-training for Medical Image Analysis》 (医学图像分析的多模态视觉预训练) *中提出的一个新颖框架。这项研究介绍了一种利用不同 MRI 模态之间丰富相关性的方法，能够优雅地处理缺失数据，并在肿瘤分割和疾病分类等下游任务中实现最先进的性能。

问题所在: 单模态陷阱

要理解为什么 BrainMVP 是必要的，我们首先需要了解医学成像是如何工作的。当患者进行脑部 MRI 检查时，他们得到的不仅仅是一张照片。他们通常会得到由多种模态组成的“研究 (study) ”，例如:

T1 加权 (T1-weighted) : 擅长显示结构细节。
T2 加权 (T2-weighted) : 擅长检测水肿 (肿胀) 。
FLAIR: 抑制流体信号以突出病变。
T1CE: 使用造影剂观察肿瘤中的血流。

大多数当前的 SSL 方法 (如 MAE 或 SimMIM) 借鉴自自然计算机视觉。它们将 T1 扫描和 T2 扫描视为完全不相关的图像。它们忽略了一个事实: 这些扫描描绘的是完全相同的大脑，在完全相同的时刻，只是物理对比度不同。

由于未能对这些模态之间的关系进行建模，标准模型错过了关键的解剖线索。此外，如果一个模型期望一组固定的四个输入 (T1, T2, FLAIR, T1CE) ，而患者缺少其中一个，模型往往会失效。

BrainMVP 通过将多模态数据视为一组天然分组的视图来解决这个问题，如下图所示。

图 1. (a) 临床研究中天然分组的多模态数据。(b) 提出的三个代理任务: 跨模态重建、模态级数据蒸馏和模态感知对比学习。(c) 应用于下游任务。

研究人员提出了一种方法，不仅仅孤立地观察图像，而是主动学习它们之间的相关性 。让我们探索他们是如何实现这一点的。

BrainMVP 架构

BrainMVP 的核心理念是构建一个脑部 MRI 的“基础模型”，该模型对缺失模态具有鲁棒性，并且具有高度的泛化能力。作者收集了一个庞大的预训练数据集，包含来自 3,755 名患者的 16,022 次扫描 , 涵盖超过 240 万张 2D 切片。

该框架建立在三个新颖的“代理任务 (proxy tasks) ”之上——这是 AI 在训练期间必须解决的挑战，以便学习有用的特征。

跨模态重建 (Cross-Modal Reconstruction, CMR)
模态级数据蒸馏 (Modality-Wise Data Distillation, MD)
模态感知对比学习 (Modality-Aware Contrastive Learning, CL)

在深入了解每个任务的机制之前，让我们先直观地拆解一下架构。

图 2. BrainMVP 概览。包括 (a) 跨模态重建模块，(b) 模态级数据蒸馏模块，以及 (c) 模态感知对比学习模块。

1. 跨模态重建 (CMR)

BrainMVP 的第一个支柱是跨模态重建 。传统的掩码图像建模 (Masked Image Modeling, MIM) 通过隐藏图像的一部分 (掩码) ，并要求 AI 根据可见像素猜测缺失的内容来工作。

BrainMVP 对此进行了改良。由于我们拥有同一患者的多种模态 (例如，T1 和 T2 扫描) ，我们可以掩盖输入图像 (比如 T1) 中的一个区域，并用来自不同模态 (比如 T2) 的对应图块填充该空洞。

为什么这行得通？T1 和 T2 扫描共享相同的解剖结构 (脑室的形状、肿瘤的位置) ，但在纹理上看起来不同。通过强制模型使用来自 T2 图块的信息重建原始 T1 像素，模型必须学习解耦 (disentanglement) 。它必须理解: “我在 T2 图块中看到了肿瘤的形状，所以我需要用 T1 的风格画出那个形状。”

这迫使网络学习深层的解剖结构，而不仅仅是表层的纹理。

该任务的损失函数定义为:

跨模态重建损失的方程。它使用跨模态掩码策略计算解码后的重建图像与原始图像之间的差异。

这里，\(\Phi_{modal}(X_{im}, X_{in})\) 表示取图像 \(m\)，对其进行掩码，并用来自图像 \(n\) 的图块填充空缺的操作。

2. 模态级数据蒸馏 (MD)

第二个支柱解决了泛化问题。研究人员引入了一个名为模态级数据蒸馏的概念。

受数据集蒸馏 (即尝试将整个数据集压缩为几张代表性图像) 的启发，BrainMVP 学习了一组模态模板 (Modality Templates) 。可以将这些模板视为 T1 扫描或 FLAIR 扫描的“柏拉图式理想形态”——这是该模态通常样子的浓缩表示，剥离了具体的患者细节。

在预训练期间，模型维护这些可学习的模板 (初始化为零并通过反向传播更新) 。这里的代理任务涉及掩盖输入图像，但不是用另一位患者的扫描来填充空洞，而是用来自这些可学习模板的图块来填充。

这有两个目的:

它教导模型每种模态的一般统计属性。
它为下游任务创建了一座“桥梁”。由于这些模板被学习并存储下来，它们以后可以用来帮助模型适应可能缺少某些模态的新数据集。

学习这些模板的过程在视觉上非常迷人。你可以看到它们是如何随着训练周期的推进，从噪声演变成可识别的大脑结构的:

图 4. 蒸馏模态模板在预训练轨迹中从初始化到第 1500 个周期的可视化演变。

蒸馏的损失函数与重建类似，但使用的是模板 \(T_m\):

模态级数据蒸馏损失的方程。它衡量当输入被掩码并用可学习模态模板填充时的重建误差。

3. 模态感知对比学习 (CL)

最后一块拼图确保了一致性。我们现在有两种处理图像的方式:

用另一种模态掩盖它 (CMR) 。
用模板掩盖它 (MD) 。

理论上，这两个过程应该产生相同底层解剖结构的表示。 模态感知对比学习强制神经网络的内部特征 (嵌入) 对于这两种变体保持相似。

这至关重要，因为它使模型的理解具有不变性 。无论信息是来自 T2 扫描还是蒸馏模板，模型都能识别出“这是左心室”。这将特征在高维空间中对齐。

对比损失函数将这些正样本对拉近，同时推开不相关的样本:

对比学习损失的方程。它使用 log-sum-exp 公式来最大化正样本对 (模态掩码与模板掩码) 之间的相似度，并最小化与负样本对的相似度。总对比损失的方程。它通过交换两个视图的顺序创建一个对称的损失。

统一的目标

BrainMVP 将所有三个任务结合成一个强大的训练目标。总损失函数平衡了图像重建 (来自跨模态输入) 、来自模板的重建以及特征的对比对齐。

总自监督学习损失的方程。它是跨模态重建、数据蒸馏和对比学习损失的总和。

通过最小化这个组合损失，模型学习到了大脑的鲁棒且灵活的表示，既理解不同扫描的具体纹理，也理解底层的解剖几何结构。

下游应用

基础模型的魅力在于其应用于具体医学问题的能力。一旦 BrainMVP 完成预训练，它就可以针对特定任务进行微调，如分割脑肿瘤或分类阿尔茨海默病。

BrainMVP 的一个独特优势在于它在此阶段如何使用蒸馏模态模板 。

图 5. 面向下游任务的模态级数据蒸馏。输入扫描在微调期间被随机替换为模板，以确保特征一致性并处理缺失数据。

在下游任务中，研究人员使用了一种巧妙的数据增强策略。他们随机用蒸馏模板 (现在已冻结) 替换真实的输入模态。这充当了一种正则化器，防止模型过度依赖特定的患者细节，并确保即使输入数据质量变化，模型也能保持鲁棒性。

微调损失包括一个一致性项 (\(\mathcal{L}_{cons}\)) ，确保无论输入是真实数据还是模板增强版本，特征都保持稳定:

微调期间的一致性损失方程。它最小化输入的两个不同增强副本的特征之间的 L2 距离。

实验与结果

作者在 10 个不同的基准上测试了 BrainMVP，涵盖了分割 (勾勒病变边界) 和分类 (诊断疾病) 。

分割性能

分割是医学成像中最困难的任务之一。研究人员将 BrainMVP 与从头开始训练、通用计算机视觉 SSL 方法 (如 MAE3D 和 SimMIM) 以及医学专用 SSL 方法 (如 Swin-UNETR 和 M³AE) 进行了比较。

结果是决定性的。在肿瘤分割任务 (BraTS) 中，BrainMVP 始终优于竞争对手。

表 2. 六个下游分割数据集的实验结果显示 BrainMVP 在多个基准测试中取得了最高的 Dice 分数。

例如，在 BraTS2023-PED 数据集 (儿科肿瘤) 上，BrainMVP 达到了 76.80% 的 Dice 分数，显著高于通用 SSL 方法 MAE3D (67.65%)。这一巨大差距突显了简单移植计算机视觉技术对于医学数据是不够的；BrainMVP 特有的多模态处理至关重要。

分割的结构准确性也更优越。 HD95 指标 (豪斯多夫距离) ，用于衡量分割边界的最坏情况误差 (越低越好) ，显示 BrainMVP 产生了更紧密、更准确的轮廓。

表 5. 分割任务的 HD95 结果。与其他方法相比，BrainMVP 始终能实现更低的距离误差。

定性可视化证实了这些数字。在下图中，请看绿色箭头。你可以看到 BrainMVP (第二列) 捕捉到了其他方法遗漏或过度分割的肿瘤边界。

图 6. 分割结果的视觉对比。BrainMVP 产生的分割结果最接近真实值 (GT) ，避免了其他方法中出现的欠分割现象。

分类与泛化

BrainMVP 不仅仅是一个“分割机器人”。它在分类任务上也表现出色，例如区分高级别和低级别胶质瘤 (BraTS2018) 或检测阿尔茨海默病 (ADNI) 。

表 3. 分类结果显示 BrainMVP 在 BraTS2018 和 ADNI 等数据集上取得了优异的准确率和 AUC。

在 ADNI 数据集 (阿尔茨海默病检测) 上，BrainMVP 达到了 67.65% 的准确率，击败了之前最好的 60.92%。这证明预训练期间学习到的特征具有丰富的语义，不仅能用于画线，还能用于诊断病理。

标签效率: 事半功倍

对于现实世界的应用来说，最令人印象深刻的结果可能是标签效率 。在临床环境中，我们很少有成千上万个标注好的病例。

研究人员测试了当只有一小部分训练数据被标注 (20%、40% 等) 时，BrainMVP 的表现如何。

图 3. 标签效率图表。与其他方法相比，BrainMVP (红线) 在较少标注数据的情况下始终能获得更高的性能。

上面的图表揭示了一个惊人的能力: BrainMVP 通常仅使用 40% 的标注数据就能达到全监督方法的性能。 对于缺乏标注资源的医院来说，这是一个游戏规则的改变者。

结论与启示

BrainMVP 代表了医学图像分析向前迈出的重要一步。通过尊重医学扫描的多模态本质，并设计专门利用这些相关性的代理任务，作者创建了一个模型，它是:

可扩展的: 通过单通道处理，它可以处理任意数量的模态。
鲁棒的: 利用跨模态重建和蒸馏有效地管理缺失数据。
可泛化的: 从儿科肿瘤到阿尔茨海默病分类，在各种任务中都取得了最先进的结果。

模态级数据蒸馏的引入——为 MRI 序列创建“通用模板”——尤其具有创新性。它提供了一种巧妙的方法来弥合大规模预训练数据与特定的、通常较小的临床数据集之间的差距。

随着我们迈向通用的医学基础模型，像 BrainMVP 这样的框架为 AI 如何以现实世界医疗所需的复杂性和灵活性来“观察”人体内部提供了蓝图。

问题所在: 单模态陷阱#

BrainMVP 架构#

1. 跨模态重建 (CMR)#

2. 模态级数据蒸馏 (MD)#

3. 模态感知对比学习 (CL)#

统一的目标#

下游应用#

实验与结果#

分割性能#

分类与泛化#

标签效率: 事半功倍#

结论与启示#