引言
在医学影像领域,配准 (alignment) 至关重要。无论是临床医生追踪肿瘤随时间的生长情况,还是将患者的大脑解剖结构与标准图谱进行对比,图像都必须完美重叠。这一过程被称为可变形图像配准 (Deformable Image Registration, DIR) 。
多年来,深度学习彻底改变了这一领域。像 VoxelMorph 这样的网络取代了计算昂贵的迭代算法,转而使用快速的、基于学习的模型。这些模型大多数依赖于卷积神经网络 (CNN) 。然而,标准 CNN 有一个基本特性,它既是优势也是劣势: 空间不变性 (spatial invariance) 。
在标准卷积中,同一个滤波器 (卷积核) 会在整幅图像上滑动。这意味着无论特征 (如边缘或纹理) 出现在左上角还是中心,其处理方式都是完全相同的。虽然这对于目标检测非常出色 (无论猫在哪,它都是猫) ,但对于医学配准来说却是次优的。为什么?因为生物组织并非均一的。
试想一下脑部扫描: 坚硬的头骨、柔软的灰质和充满液体的脑室都具有不同的物理属性。它们的变形方式各不相同。针对头骨优化的卷积滤波器可能难以捕捉软组织的细微扭曲。
在这篇文章中,我们将深入探讨 SACB-Net , 这是由伯明翰大学和曼彻斯特大学的研究人员提出的一种新颖架构。该论文引入了 空间感知卷积块 (Spatial-Awareness Convolution Block, SACB) , 这是一种允许网络“感知”其正在处理的组织类型并即时生成自适应卷积核的机制。我们将探索这种方法如何打破共享权重的限制,并在大脑和腹部配准任务中取得最先进的结果。
“普通”卷积的问题
要理解 SACB-Net 的创新之处,我们必须首先直观地了解传统方法的局限性。
在普通 (“vanilla”) 卷积层中,学习到的卷积核 \(W\) 被应用于输入特征图 \(F\)。\(F\) 中的每个体素都以完全相同的方式与 \(W\) 交互。网络假设特征提取的规则在空间上是通用的。
然而,医学配准本质上是一个局部变化的问题。变形场——即告诉我们如何移动图像 A 中的像素以匹配图像 B 的映射图——高度依赖于底层的解剖结构。

如图 1 所示,普通卷积对所有区域给予“同等关注”。相比之下, 空间感知卷积 (SAC) 认识到不同的聚类 (代表不同的组织类型) 需要独特的处理权重。通过根据空间上下文调整卷积核,网络可以更准确地建模复杂的、非均匀的变形。
架构: SACB-Net
研究人员提出了 SACB-Net , 这是一种基于金字塔的网络,旨在从粗到细地估计变形场。
高层概览
该网络处理一对图像: 移动图像 (Moving Image, \(I_m\)) 和 固定图像 (Fixed Image, \(I_f\)) 。 目标是找到一个变形场 \(\phi\),使得经 \(\phi\) 扭曲后的 \(I_m\) 能与 \(I_f\) 对齐。
如下所示,该架构包含两个主要组件:
- 共享编码器 (Shared Encoder) : 从两幅图像中提取特征金字塔。
- 金字塔流估计器 (Pyramid Flow Estimators) : 一系列模块,用于在不同分辨率下估计变形,逐步细化配准。

共享编码器 (详见下图 5) 使用标准卷积块对图像进行下采样,创建特征层级 (\(F^1\) 到 \(F^5\)) 。

然而,真正的创新在于金字塔流估计器内部,特别是它们如何使用 空间感知卷积块 (SACB) 来处理这些特征。
深度解析: 空间感知卷积块 (SACB)
SACB 旨在通过应用自适应卷积核来细化特征图。它不使用固定的卷积核,而是将图像特征聚类到不同的“区域” (例如: 骨骼、组织、背景) ,并为每个区域生成特定的卷积核权重。
让我们逐步分解 SACB 的数学原理和机制。
第一步: 通过聚类进行空间上下文估计
第一个挑战是在不使用显式标签的情况下 (因为我们进行的是无监督配准) ,确定哪些部分的特征图属于相似区域。作者在特征图本身上使用了 K-Means 聚类 。
首先,输入特征图 \(\mathbf{F}\) 被“展开 (unfolded) ”成局部块。对于位于 \((d, h, w)\) 的体素,系统会查看一个局部窗口 (大小为 \(k \times k \times k\)) 。

为了降低计算复杂度,这些局部块被平均化,以获得该邻域的代表向量:

接下来, K-Means 聚类被应用于这些空间均值。这将具有相似局部特征的体素分为 \(N\) 个簇。对于每个簇 \(n\),算法计算一个 质心 (centroid) (\(S_n^c\)),它代表该组织类型的“平均”特征。

这一过程产生了一个映射图,其中每个体素都被分配了一个聚类索引,实际上是基于特征相似性将图像分割成潜在的“组织类型”。
第二步: 自适应卷积核生成
一旦知道了质心 (\(S_n^c\)),网络就会为每个簇生成特定的卷积核。
网络学习一个全局基础卷积核 \(\mathbf{W}\)。同时,一个多层感知机 (MLP) ,记为 \(\mathcal{F}_w\),以聚类质心为输入并预测特定的权重调整。
簇 \(n\) 的自适应卷积核 \(\mathbf{W}_n\) 计算为基础卷积核与 MLP 输出的逐元素乘积:

这是一个强有力的概念。网络本质上是在说: “我有一个处理特征的大致想法 (全局 \(\mathbf{W}\)) ,但对于这种特定的组织类型 (质心 \(S_n^c\)) ,我需要按这个量来调整我的滤波器。”
第三步: 执行卷积
由于为每个区域生成了特定的卷积核,卷积操作变得具有空间适应性。对于属于簇 \(n\) 的体素,其输出使用 \(\mathbf{W}_n\) 和类似生成的偏置项来计算:

最后,为了确保梯度的流动和稳定性,这种自适应卷积作为残差块应用 (加回到原始输入中) :

SACB 的整个流程在下方的 图 3 中可视化。注意两条并行路径: 上面的路径确定“上下文” (聚类) ,而下面的路径准备特征。当生成的卷积核应用于特征时,它们合并在一起。

金字塔流估计器
SACB-Net 并不试图一次性预测复杂的变形场。相反,它使用了一种由粗到细的金字塔方法 。
- 最粗糙层级 (\(i=5\)): 网络查看最低分辨率的特征。它使用 SACB 对其进行细化。
- 相似度匹配: 它计算固定特征和移动特征之间的相似度。作者使用基于点积的匹配分数 (内积的 Softmax) 来寻找对应关系。

- 流估计: 基于这些匹配分数,计算局部子变形 (流) 。

- 上采样与合成: 这个粗糙的流被上采样,并用于扭曲下一层级 (\(i=4\)) 的移动特征。该过程重复进行,网络在每个更精细的尺度上估计残差运动 (差异) 。
递归过程的数学定义如下:

这确保了大的变形在低分辨率下处理 (此时结构看起来靠得更近) ,而细节在高分辨率下对齐。
损失函数
SACB-Net 以无监督的方式进行训练。这意味着它不需要“真实值 (ground truth) ”变形场 (这在医学中很少见) 。相反,它优化两个目标:
- 相似性损失 (\(\mathcal{L}_{sim}\)): 确保扭曲后的移动图像看起来像固定图像。
- 正则化损失 (\(\mathcal{L}_{reg}\)): 确保变形场是平滑且物理上合理的 (没有空间的撕裂或折叠) 。

使用的具体相似性度量是 归一化互相关 (Normalized Cross-Correlation, NCC) , 它对强度变化具有鲁棒性。

实验结果
作者在三个不同的任务上评估了 SACB-Net: 基于图谱的脑部配准 (IXI 数据集) 、受试者间脑部配准 (LPBA 数据集) 和受试者间腹部 CT 配准。
定量性能
结果使用 Dice 分数 (解剖结构的重叠度,越高越好) 和 雅可比行列式 (折叠百分比,越低越好) 来衡量。
脑部配准 (IXI 和 LPBA) : 在下表中,SACB-Net (“Ours”) 表现优于基于 U-Net 的方法 (如 VoxelMorph/VM) 和基于 Transformer 的方法 (TransMorph) 。值得注意的是,在 LPBA 数据集上,它取得了最高的 Dice 分数 (0.731) ,且参数量极低 (1.11M) ,相比之下 TransMorph 有 46.77M 参数。

腹部 CT 配准: 由于器官位置的高度变异性和大变形 (呼吸、消化) ,腹部配准是出了名的困难。在这里,SACB-Net 与竞争对手之间的差距拉大了。SACB-Net 取得了 0.588 的 Dice 分数,显著优于第二名的方法。

定性可视化
视觉检查证实了这些数字。在 图 4 (下方) 中,对比各列,我们可以看到 SACB-Net 提供了更清晰的对齐。
仔细观察 腹部 CT 行 (底部两行) 。许多方法难以保留器官的边界。TransMorph 和 RDN 未能配准部分肾脏 (扭曲的掩膜中有缺失块) 。然而,SACB-Net 保持了肾脏和肝脏的结构完整性。

我们还可以查看位移场 (彩色网格) 。SACB-Net 生成平滑、连贯的场,而一些竞争对手则显示出不稳定或嘈杂的变形。
以下是 LPBA 和 IXI 数据集的额外视觉对比,进一步突显了位移场的精确性。


应对失败
没有一种方法是完美的。作者在 图 7 中坦诚地展示了一个失败案例,其中一个小器官 (胆囊) 导致了较低的 Dice 分数 (<0.5) 。对于依赖全局强度匹配的无监督方法来说,微小的、多变的结构仍然是一个挑战。

消融实验: 空间感知真的重要吗?
为了证明性能的提升确实来自于 SACB 而不仅仅是金字塔结构,作者进行了消融实验。
他们测试了网络在不同尺度下应用 SACB 的效果,以及使用不同数量的聚类 (\(N\)) 的效果。
- 尺度的影响: 在多个尺度 (从 Scale 5 到 Scale 2) 应用 SACB 持续改善了结果。
- 聚类的影响: 增加 \(N\) (识别出的组织类型数量) 可以提高准确性,直到某一点。最佳点似乎在 \(N=7\) 左右。
- 上下文方法: 使用“空间”均值 (平均空间局部块) 比跨通道平均效果更好。

结论
SACB-Net 代表了医学图像配准向前迈出的重要一步。通过挑战“卷积核应该在图像上普遍共享”这一假设,作者创建了一个能够适应其所见解剖结构的网络。
关键要点:
- 空间上下文至关重要: 医学图像是异质的。同等对待头骨、大脑和液体会导致次优的配准。
- 聚类即注意力: 使用无监督 K-Means 对特征进行聚类,为生成自适应卷积核提供了强有力的信号。
- 效率: 尽管拥有复杂的自适应机制,SACB-Net 仍然保持计算高效,以一小部分的参数量超越了庞大的 Transformer 模型。
对于该领域的学生和研究人员来说,SACB-Net 证明了创新往往不来自于简单地堆叠更多层,而来自于重新思考基本操作——如卷积——以更好地适应数据的特定特征。
](https://deep-paper.org/en/paper/2503.19592/images/cover.png)