引言

Segment Anything Model (SAM) 的发布标志着计算机视觉领域的一个转折点。SAM 经过超过 10 亿个掩码 (masks) 的训练,展现出了令人难以置信的“零样本”分割能力——即无需专门训练就能识别它从未见过的物体。它看起来就像是图像分析领域的“全能选手”。

然而,正如许多研究人员和学生很快发现的那样,作为“全能选手”往往意味着在特定领域无法做到极致。当应用于高度专业化的领域——如在医学影像中识别息肉、检测伪装动物或识别特定作物病害时——SAM 的性能往往会下降。它难以捕捉这些任务所需的细微的、特定于领域的特征。

标准的解决方案是参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 。 这种方法不是从头开始重新训练庞大的模型 (这在计算上令人望而却步) ,而是冻结模型的大部分参数,只调整一小部分参数 (使用 Adapter 或 LoRA 等方法) 。

但这存在一个冲突: 标准的微调方法通常将模型的各个组件孤立对待。它们调整权重,却未能保留 SAM 在大规模预训练期间学到的图像编码器和掩码解码器之间复杂的关系 。 如果过于关注新数据,我们就有可能覆盖掉让 SAM 如此出色的“通用视觉逻辑”。

在这篇文章中,我们将深入探讨 InfoSAM , 这是 ICML 2025 上提出的一种新颖方法。该方法利用信息论在预训练的基础模型 (教师) 和微调后的模型 (学生) 之间架起桥梁。InfoSAM 不仅仅是复制特征;它提炼并保留了域不变关系 (domain-invariant relationships) ——即结构上的“本质”——确保微调后的模型在适应新任务的同时,不会忘记如何“看”世界。

图 1: 传统 PEFT 和蒸馏范式与我们提出的 InfoSAM 的比较。

如上图 1 所示,传统的微调方法通常单独调整模块 (a) 或对齐简单的特征 (b),而 InfoSAM (c) 则利用信息论原理专注于“关系迁移 (Relation Transfer) ”。

背景: 适应性调整的挑战

在剖析 InfoSAM 之前,让我们先明确问题的背景。

编码器与解码器的断层

SAM 遵循标准的编码器-解码器架构:

  1. 图像编码器 (Image Encoder) : 一个处理原始图像并将其转化为嵌入 (embeddings) 的重型 Vision Transformer (ViT)。
  2. 掩码解码器 (Mask Decoder) : 一个较轻量的模块,接收这些嵌入 (以及提示词) 以生成最终的分割掩码。

当我们使用 LoRA (低秩自适应)Adapter 等 PEFT 方法时,我们通常会在编码器或解码器中注入小的可训练层。问题在于,这些修改可能会破坏编码器和解码器之间隐含的协调性。SAM 广泛的预训练建立了连接这两个模块的微妙特征分布。朴素的微调倾向于抑制这些通用的视觉特征,转而过拟合新数据集特定的纹理或颜色。

解决方案: 知识蒸馏?

让模型“保持正轨”的一种常见方法是知识蒸馏 (Knowledge Distillation, KD) 。 你将原始的、冻结的 SAM 视为“教师”,将新的、正在微调的模型视为“学生”。你强迫学生去模仿教师。

然而,在这种情况下,标准的 KD 存在缺陷。它通常对齐的是特征 (例如,“让学生的 X 层看起来像教师的 X 层”) 。但我们并不一定希望学生完全复制教师的特征——毕竟,教师在这个特定的医学或农业任务上表现并不好!

我们需要学生学习关系——即对物体 (边缘、形状、几何结构) 的结构性理解——同时忽略教师对自然图像的偏见 (纹理、颜色) 。这就是域不变信息 (Domain-Invariant Information) 发挥作用的地方。我们希望迁移那些在所有领域都成立的知识 (结构) ,同时过滤掉噪声。

核心方法: InfoSAM

研究人员提出了 InfoSAM 来解决这个问题,他们将微调过程构建为一个信息论问题 。 其目标是最大化有益关系知识的迁移,同时最小化无用或有害信息的迁移。

架构概览

让我们看看 InfoSAM 的整体流程。

图 2: InfoSAM 的流程图。

该框架在两条并行的轨道上运行:

  1. 教师 (蓝色) : 冻结的、预训练的 SAM。
  2. 学生 (橙色) : 正在进行微调的 SAM (带有 Adapter 或 LoRA) 。

神奇之处在于关系模块 (Relation Module, \(f^T\) 和 \(f^S\)) 。 InfoSAM 不是孤立地看待图像嵌入 (\(z_i\)) 或掩码令牌 (\(z_m\)),而是提取它们之间的交互

第一步: 提取关系

第一个挑战是量化编码器和解码器之间的关系。作者引入了一个基于注意力的关系模块 (Attention-Based Relation Module)

图 3: 基于注意力的关系模块架构。

如图 3 所示,该模块将图像特征 (\(z_i\)) 和掩码令牌 (\(z_m\)) 作为输入。它使用注意力机制来计算关系表示 (Relation Representation, \(r\))

  1. 它将掩码令牌投影为查询 (Query, \(Q\)) 。
  2. 它将图像特征投影为键 (Key, \(K\)) 。
  3. 它计算一个注意力图,表示掩码解码器是如何“看待”图像编码器的特征的。

在数学上,注意力分数 \(S_\alpha\) 结合了 \(Q\) 和 \(K\) 的点积以及原始输入的残差:

公式 11

这产生了一个压缩张量 \(r^T\) (用于教师) 和 \(r^S\) (用于学生) ,封装了模型的结构依赖性。

第二步: 信息瓶颈 (压缩)

这里有一个关键的洞察: 并非教师中的所有关系都值得保留。 有些是“伪不变”的——例如,依赖于颜色分布,这可能适用于公园里的狗,但在 X 光片中的肿瘤上就会失效。

为了过滤掉这些信息,InfoSAM 应用了信息瓶颈原则 (Information Bottleneck Principle) 。 目标是压缩关系表示 \(r^T\),使其保留必要的域不变信息。

作者使用 Rényi \(\alpha\)-熵来度量信息。与需要估计完整概率分布 (对于高维图像来说非常困难) 的标准香农熵不同,Rényi 熵可以直接利用矩阵运算从数据样本中估计。

目标是最小化原始输入 (\(z_i^T, z_m^T\)) 与提取的关系 (\(r^T\)) 之间的互信息。这迫使关系模块丢弃冗余和噪声,只保留最显著的结构链接。

这种压缩的损失函数 (\(\mathcal{L}_r\)) 是使用基于矩阵的熵推导出来的。为了使其计算高效,作者设定 \(\alpha=2\)。这允许他们使用 Gram 矩阵的 Frobenius 范数来计算熵,避免了昂贵的特征值分解。

公式 14

在这个公式中:

  • 第一项 (\(-\log...\)) 最大化关系 \(r\) 的熵,鼓励丰富的特征。
  • 第二项 (\(\log...\)) 最小化联合熵,过滤掉编码器/解码器与关系模块之间的虚假相关性。

第三步: 关系蒸馏 (迁移)

一旦我们拥有了教师结构知识的干净、压缩的表示 (\(r^T\)),我们就想把它迁移给学生。

我们通过最大化教师关系 (\(r^T\)) 和学生关系 (\(r^S\)) 之间的互信息来实现这一点。

公式 16

这个蒸馏损失 (\(\mathcal{L}_d\)) 将学生对“结构”的理解与教师对齐,确保微调后的模型不会“忘记”如何定义物体边界。

最终目标

总损失函数结合了标准的分割损失 (交叉熵 + IoU) 与新的信息论损失。

公式 17

公式 18

通过调节 \(\lambda_1\) 和 \(\lambda_2\),模型在压缩教师知识 (清理知识) 和将其迁移给学生之间取得平衡。

实验与结果

研究人员在四个高度多样化的领域测试了 InfoSAM: 自然图像 (伪装物体) 、医学影像 (息肉、皮肤病变) 、农业 (叶片病害) 和遥感 (道路) 。他们将 InfoSAM 应用于原始 SAM 和较新的 SAM2。

定量性能

结果表明,InfoSAM 始终优于其他最先进的 PEFT 方法。

1. 与 PEFT 方法的比较 在下表 1 中,你可以看到 InfoSAM (底部几行) 与 Adapter、LoRA 以及专门的 SAM 微调器 (如 SAM-Adapter) 的比较。请注意“遥感 (Remote Sensing) ”一栏 (Road IoU) 的显著提升,教师模型最初完全失败 (7.2% IoU) ,但 InfoSAM 将学生的表现提升到了 61% 以上。

表 1: SAM 在各种下游分割任务上的 PEFT 方法比较。

2. 与蒸馏方法的比较 表 2 将 InfoSAM 与 MobileSAM 和 TinySAM 等其他蒸馏技术进行了比较。标准的蒸馏方法通常会降低性能,因为它们强迫学生过于紧密地模仿教师——即使教师是错的!InfoSAM 通过关注关系而非原始特征,避免了这个陷阱。

表 2: SAM 在各个领域的微调蒸馏方法比较。

扩展教师模型

一个有趣的问题是: 更大的教师模型有帮助吗?作者测试了使用 ViT-Large 和 ViT-Huge 作为 ViT-Base 学生的教师。

图 4: 使用更大教师模型的 InfoSAM 性能表现

如图 4 所示,InfoSAM 具有很好的扩展性。随着教师变得更聪明 (从 ViT-B 到 ViT-H) ,学生的表现也随之提高,在复杂场景中优于 MobileSAM 等其他蒸馏方法。

定性可视化

数字固然重要,但在计算机视觉中,眼见为实。

伪装物体检测: 在图 10 中,观察“GT” (真实值) 列与模型输出的对比。标准 SAM (第 3 列) 生成的斑块几乎不像鸟。InfoSAM (最后一列) 生成了清晰、准确的掩码,紧密贴合鸟的轮廓。

图 10: 伪装物体分割的可视化结果。

叶片病害分割: 在农业中,发现病害的确切范围至关重要。与基线 Adapter 方法相比,InfoSAM 能更好地捕捉叶枯病破碎、不规则的形状。

图 11: 叶片病害分割的可视化结果。

道路分割 (遥感) : 这对于 SAM 来说可能是最难的任务,因为道路是细长、连续的结构,看起来一点也不像传统意义上的“物体”。InfoSAM 在保持道路网络连通性方面远胜于竞争对手。

图 12: 遥感道路分割的可视化结果。

关系模块有什么特别之处?

作者进行了一项消融实验 (下图 9) ,以观察关系模块实际上学到了什么。

  • 上排 (无正则化) : 关系图充满了噪声且分散。
  • 下排 (有 InfoSAM 正则化) : 随着时间的推移,关系图变得聚焦且有结构。

这直观地展示了信息瓶颈的作用。模型正在积极抑制噪声 (白色、分散的区域) 并专注于域不变结构 (深色、聚焦的区域) 。

图 9: 关系图及其统计分布随 epoch 的演变

此外,作者发现,在一个基于叶片训练的关系模块可以迁移到正在对医学图像进行微调的模型上,并且仍然能提供增益。这有力地表明,该模块成功捕捉到了通用的、域不变的分割概念 (如“什么是边缘”) ,而不是特定于数据集的记忆。

结论与启示

InfoSAM 代表了基础模型领域向前迈出的成熟一步。它超越了“仅仅增加更多可训练参数”的暴力方法,引入了一个有原则的、数学化的知识迁移框架。

主要收获:

  1. 关系至关重要: 保留编码器和解码器之间的交互比保留单个模块的特征更有价值。
  2. 少即是多: 通过使用信息瓶颈,InfoSAM 过滤掉了预训练模型的“噪声”,确保学生只学习结构和泛化所需的内容。
  3. 通过数学实现高效: 使用 \(\alpha=2\) 的 Rényi \(\alpha\)-熵允许进行复杂的信息论优化,而无需通常与这些方法相关的沉重计算成本。

对于使用大型视觉模型的学生和研究人员来说,InfoSAM 提供了一个如何使这些巨型模型适应特定任务的蓝图。它证明了只要有正确的理论视角,我们可以构建出小型的学生模型,它们不仅仅是模仿老师——而是有效地向老师学习,从而成为自己新领域的大师。