引言

在医学诊断的世界里,很少有单一的、无可争议的真理。当三位不同的放射科医生观察同一个肺结节的 CT 扫描或肿瘤的 MRI 时,他们很可能会画出三个略有不同的病变边界。这并不是错误;这是医学成像固有的模糊性,由边缘模糊、对比度低和解剖结构复杂所致。

然而,传统的深度学习模型将分割视为一种确定性任务。它们被训练为输出单一的“正确”掩膜 (mask) 。这在 AI 输出与临床现实之间造成了脱节。此外,训练这些模型需要海量的、像素级精确的标注数据集,获取这些数据的成本极高且耗时。

目前,我们在研究中面临着一种二分局面:

  1. 半监督学习 (SSL): 擅长利用有限的标记数据和大量的未标记数据,但通常强制输出单一结果。
  2. 歧义感知学习 (Ambiguity-Aware Learning): 擅长生成多种合理的分割结果 (模仿不同的人类专家) ,但通常需要每个图像都有多个标注的全标记数据集。

如果我们能结合这两种优势呢?

本文将详细解读 AmbiSSL (Annotation Ambiguity Aware Semi-Supervised Medical Image Segmentation,标注歧义感知的半监督医学图像分割) , 这是由印度理工学院鲁尔基分校 (Indian Institute of Technology Roorkee) 的研究人员提出的一种新颖框架。AmbiSSL 旨在从有限的数据中学习,同时捕捉医学诊断中自然存在的不确定性。

半监督、歧义感知和 AmbiSSL 方法的比较。

如图 1 所示,AmbiSSL 架起了一座桥梁。与产生单一图谱的标准半监督方法 (上图) 或忽略未标记数据的现有歧义感知方法 (中图) 不同,AmbiSSL (下图) 利用了两者的优势,生成多样化的概率分割结果。

背景: 不确定性的挑战

要理解 AmbiSSL,我们需要掌握两个核心概念: 标注者间差异 (Inter-rater Variability)潜分布学习 (Latent Distribution Learning)

标注者间差异

在医学数据集中,“真值” (Ground Truth) 通常是多位专家标注的集合 (\(Y_{set}\)) 。对于单张图像 \(x\),我们可能拥有标注 \(\{y_1, y_2, y_3\}\)。一个好的模型不应该只是对这些标注取平均值;它应该能够从这个集合中产生任何有效的变体。

潜空间

我们如何教神经网络对同一输入产生不同的输出?我们使用 潜空间 (Latent Space) 。 如果不将图像直接映射到标签,我们将图像映射到一个概率分布 (通常是高斯分布) 。然后,我们从该分布中采样一个“代码” (\(z\)) 。

  • 先验分布 (Prior Distribution) : 网络仅根据输入图像猜测分布。
  • 后验分布 (Posterior Distribution) : 网络利用输入图像 地面实况标签来塑造分布。

在训练期间,我们尝试使先验分布看起来像后验分布 (使用 KL 散度损失) 。在测试期间,我们只有图像,因此我们从先验分布中采样以获得多样化的结果。

AmbiSSL 方法

AmbiSSL 框架非常复杂,涉及多个协同工作的模块。它旨在回答一个难题: 当我们没有人类标注来告诉我们变异是什么样子时,我们如何从未标记的数据中学习不确定性?

该解决方案包含三个关键组件:

  1. 多样化伪标签生成 (DPG)
  2. 半监督潜分布学习 (SSLDL)
  3. 跨解码器监督 (CDS)

让我们一步步进行分解。

1. 多样化伪标签生成 (DPG)

对于标记数据,模型从多位专家的标注中学习多样性。然而,对于未标记数据,模型是盲目的。为了解决这个问题,AmbiSSL 使用一种称为 随机剪枝 (Randomized Pruning) 的技术来创建自己的“人工专家”。

该架构使用一个骨干编码器-解码器 (\(E^b_\theta, D^b_\theta\))。为了创造多样性,研究人员引入了两个额外的解码器,\(\phi\) 和 \(\xi\)。这些不仅仅是副本;它们是通过剪枝进行变换的。

多样化伪标签生成模块架构。

如上图 2 所示,系统获取未标记图像并将其通过骨干网络。同时,它使用剪枝后的解码器生成分割的不同“视图”。

剪枝机制: 剪枝涉及关闭神经网络层中的特定权重。通过移除解码器末端层中的不同权重,网络被迫依赖不同的特征,从而有效地模拟不同的人类标注者。

权重的变换 \(\tilde{W}_k\) 定义为:

权重剪枝变换公式。

这里,\(M_k\) 是一个二进制掩码。函数 \(\lambda(W_k)\) 根据概率 \(q_k\) 决定保留哪些权重。它本质上保留“Top \(a\%\)”的权重并将剩余的置零:

剪枝中的 Top-a 选择公式。

生成标签: 一旦解码器被剪枝,模型就会从先验分布中采样一个潜码 \(z\),并将其与来自剪枝解码器的特征拼接。这为未标记图像生成了一组多样化的伪标签 (\(\hat{P}\)) :

从三个解码器生成多样化伪标签的公式。

为了确保这些伪标签的鲁棒性,研究人员使用了一种集成方法,将骨干解码器 (\(\theta\)) 的预测与剪枝解码器 (\(\phi\) 和 \(\xi\)) 的预测相加:

伪标签集成公式。

这个过程为未标记数据创建了一个合成的“真值集”,使得模型即使在没有人类参与的情况下也能学习歧义性。

2. 半监督潜分布学习 (SSLDL)

现在我们有了标签 (标记数据的真实标签,未标记数据的伪标签) ,我们需要训练概率机制。这由 SSLDL 模块处理。

SSLDL (上) 和跨解码器监督 (下) 的详细架构。

图 3 的上半部分展示了 SSLDL。其目标是学习一个共享的潜空间。

对于标记数据: 模型使用标准的概率 U-Net 方法。

  1. 先验网络 (\(E^{prior}\)): 观察图像 \(x^l\) 并预测一个正态分布 (\(\mu_{prior}, \sigma_{prior}\))。
  2. 后验网络 (\(E^{post}\)): 观察图像 \(x^l\) 专家标注 \(Y_{set}\),以预测一个更准确的分布 (\(\mu_{post}, \sigma_{post}\))。

标记数据的先验和后验分布公式。

对于未标记数据: 这是 AmbiSSL 创新的地方。研究人员没有使用正态分布 (它可能过于自信且对异常值敏感) ,而是将未标记分布建模为 拉普拉斯分布 (Laplace distribution) 。 这对于我们在上一步中生成的伪标签中可能存在的噪声具有更强的鲁棒性。

未标记数据的后验是利用图像 \(x^u\) 和我们之前生成的伪标签集 (\(\hat{P}\)) 计算得出的:

未标记数据的先验和后验分布公式。

损失函数: 为了训练网络,我们最小化先验分布和后验分布之间的 Kullback–Leibler (KL) 散度。这迫使先验分布 (我们在测试时使用) 尽可能像后验分布 (见过答案的分布) 一样提供信息。

标记流和未标记流的 KL 散度损失公式。

3. 跨解码器监督 (CDS)

拼图的最后一块是确保剪枝后的解码器学习到有用的特征。如果我们只是让它们自由运行,它们可能会产生垃圾数据。我们需要监督。

AmbiSSL 使用一种 跨解码器 (Cross-Decoder) 策略 (如图 3 下半部分所示) 。这个想法简单但强大: 解码器 \(\phi\) 应该帮助训练解码器 \(\xi\),反之亦然。

  1. 增强: 我们获取未标记图像并应用弱增强 (\(x^u\)) 和强增强 (\(x^{\hat{u}}\))。
  2. 预测: 我们使用采样的潜码生成分割结果。

跨解码器监督的分割预测公式。

  1. 交叉训练: 将解码器 \(\phi\) 的输出与从解码器 \(\xi\) 的集合中随机选择的伪标签进行比较,反之亦然。这强制了不同视图和增强之间的一致性,防止模型坍塌到单一模式。

跨解码器 Dice 损失公式。

完整的训练目标

模型是端到端训练的。 监督损失使用标准的 Dice 损失和标记样本的 KL 散度来处理标记数据。

监督损失公式。

无监督损失结合了未标记数据的 KL 散度和跨解码器分割损失。

无监督损失公式。

最后,这些被组合成总损失函数,其中 \(\mu\) 是一个爬坡因子 (ramp-up factor) ,随着训练的进行逐渐增加无监督损失的重要性。

最终总损失公式。

实验与结果

研究人员在两个具有挑战性的医学数据集上评估了 AmbiSSL:

  1. LIDC-IDRI: 用于肺结节分割的胸部 CT 扫描 (4 位专家标注者) 。
  2. ISIC 2018: 用于皮肤病变分割的皮肤镜图像 (3 位专家标注者) 。

评估指标

为了衡量成功,仅看准确性是不够的。我们需要衡量多样性。

  • 广义能量距离 (GED): 衡量预测分布与真值分布之间的距离。GED 越低 意味着模型越好地捕捉到了多样性。 GED 公式。
  • 软 Dice 分数 (Dice Soft): 衡量重叠准确性。 越高 越好。 软 Dice 公式。

定量结果

下表 1 展示了结果,将 AmbiSSL 与概率 U-Net 等最先进的方法以及各种半监督基线进行了比较。

表 1: LIDC-IDRI 数据集上的性能比较。

关键结论:

  • 卓越的多样性: 在 LIDC-IDRI 数据集上 (仅使用 10% 的标记数据) ,AmbiSSL 实现了 0.1620 的 GED。相比之下,“概率 U-Net” (需要完全监督) 的 GED 为 0.2679。这表明 AmbiSSL 产生的变体更接近真值分布。
  • 高准确性: 软 Dice 分数达到 89.86% , 优于基线。
  • 效率: 该模型在使用极少标记数据的情况下接近“上界” (Upper Bound,使用 100% 标记数据训练) ,证明了未标记学习组件的有效性。

在 ISIC 皮肤病变数据集上也观察到了类似的趋势:

表 2: ISIC 数据集上的性能比较。

在这里,使用 20% 的标记数据,AmbiSSL 实现了 0.2444 的 GED,明显低于基线方法,展示了其在不同医学模态下的鲁棒性。

定性分析

数字固然重要,但在医学成像中,视觉确认至关重要。

图 4 和表 4: 视觉比较和消融研究。

图 4 (上图左侧) 显示了分割结果。顶部几行显示的是“人类标注者”,展示了专家如何定义结节边界的自然差异。底部几行显示的是“AmbiSSL 预测”。

请注意,AmbiSSL 并没有输出三个相同的形状。它生成了独特、合理的变体,模仿了在人类行中看到的细微差异。这证实了随机剪枝和潜空间学习成功捕捉到了任务的“歧义性”。

消融实验

研究人员还调查了模型对超参数的敏感程度。

  • 权重 (\(\alpha_u\)): 表 3 (下图) 显示,无监督损失的权重为 0.5 时能达到最佳平衡。 表 3: 权重的消融研究。
  • 剪枝参数: 回到 images/025.jpg 中的表格 (表 4) ,测试了剪枝的深度 (\(L\)) 和百分比 (\(a\%\))。对较深层进行剪枝 (L=2) 并采用 50% 的剪枝率提供了最佳的多样性 (最低的 GED) 。这表明,扰动高层语义特征比扰动低层特征更能有效地生成多样化视图。

结论与启示

AmbiSSL 论文代表了医学 AI 向前迈出的重要一步。通过承认医学成像中没有单一的“正确”分割,并释放海量未标记数据的潜力,作者为临床医生创造了一种更实用、更现实的工具。

关键创新总结:

  1. 剪枝解码器: 一种从未标记数据生成多样化伪标签的巧妙方法。
  2. 拉普拉斯分布: 处理潜空间中噪声伪标签的稳健统计选择。
  3. 跨解码器监督: 确保训练期间自我修正和稳定性的机制。

意义所在: 在临床环境中,一个能告诉你“这里是肿瘤”的模型是有用的。但一个能告诉你“这里是肿瘤,这是其边界可能的变化范围”的模型,则是手术规划和放射治疗的强大辅助工具。AmbiSSL 使我们更接近于像医生团队一样思考的 AI,而不是一台单一、过度自信的机器。