想象一下,你在阳光明媚的加利福尼亚训练了一辆自动驾驶汽车。这辆车表现完美,能高精度地检测行人、其他车辆和交通标志。然后,你把这辆车运到了阴雨连绵、大雾弥漫的伦敦夜头。突然间,系统失灵了。“域偏移 (Domain shift) ”——即阳光明媚的训练数据与阴雨连绵的真实世界环境之间的差异——导致了模型的失败。

这就是 域泛化 (Domain Generalization, DG) 的核心挑战: 我们如何构建一个在特定域 (源域) 上学习,却能在未见过的、不可预测的域 (目标域) 上表现鲁棒的模型?

传统上,我们试图通过大量的数据增强或强制模型忽略风格差异来解决这个问题。但最近,随着 DINOv2 或 EVA02 等 视觉基础模型 (Vision Foundation Models, VFMs) 的出现,游戏规则改变了。这些庞大的模型已经看过了数十亿张图像;它们已经拥有了“世界知识”。新的挑战不再是教它们如何“看”,而是在不抹去这些通用知识的前提下,使它们适应特定的任务。

在这篇文章中,我们将深入探讨 SoMA (Singular Value Decomposed Minor Components Adaptation,奇异值分解微小分量适应) , 这是一篇提出了一种更智能的基础模型微调方法的各种研究论文。SoMA 并没有重新训练所有内容,而是提出了一个根本性的问题: 神经网络的哪些部分掌握着通用知识,哪些部分掌握着具体细节?

SoMA 框架概览。左: 各任务性能对比。中: 泛化能力的视觉对比。右: SoMA 架构将权重分解为微小分量和残差。

如图 1 所示,SoMA 通过选择性地调整模型的“微小”分量,同时冻结“主要”分量,实现了最先进的结果。让我们来拆解一下它是如何工作的。

背景: 微调的困境

在介绍解决方案之前,我们需要了解适应基础模型时面临的问题。

当你拥有一个庞大的预训练模型 (如 DINOv2) 时,你通常希望使其适应特定的任务,例如检测汽车。你有几个选择:

  1. 全量微调 (Full Fine-Tuning, FFT) : 你重新训练模型中的每一个参数。这在计算上非常昂贵,而且通常会导致 灾难性遗忘 (catastrophic forgetting) 。 模型变得非常擅长你的特定数据集,以至于忘记了它在预训练中学到的广泛的“世界知识”。
  2. 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) : 你冻结巨大的模型,只训练一个微小的附加模块。一种流行的方法是 LoRA (Low-Rank Adaptation,低秩适应)

LoRA 快速回顾

LoRA 假设适应模型所需的变化是“低秩”的。LoRA 不是更新巨大的权重矩阵 \(W\),而是注入两个小矩阵 \(B\) 和 \(A\),并训练它们。

LoRA 适应的标准方程。

这里,\(W_0\) 是冻结的预训练权重。\(BA\) 代表更新量。这节省了大量的内存。然而,LoRA 随机初始化这些矩阵 (通常 \(A\) 是随机高斯分布,\(B\) 是零) 。它不查看预训练权重的 结构。实际上,它是在盲目操作,可能会干扰模型已知的重要特征。

洞察: 通过 SVD 分析权重

SoMA 的作者退后一步思考。他们想了解通用知识 哪里 存在于预训练权重矩阵中。为此,他们使用了 奇异值分解 (Singular Value Decomposition, SVD)

SVD 是一种数学技术,它将矩阵 (\(W\)) 分解为三个部分:

\[W = U \Sigma V^T\]
  • \(U\) 和 \(V^T\) : 旋转矩阵 (奇异向量) ,定义特征空间中的方向。
  • \(\Sigma\) (Sigma) : 奇异值 的对角矩阵,从大到小排列。这些值代表每个方向的“强度”或“重要性”。

“通用与特定”假设

研究人员进行了一项实验: 如果我们根据奇异值的大小删除权重的特定部分,会发生什么?

泛化分量分布分析。上: 截断分量时的准确率下降。下: 奇异分量的语义层次结构。

图 2 展示了他们深刻的发现:

  1. 大奇异值 (主分量) : 对应 通用知识 。 这些捕捉了宽泛的形状、物体类别和高级概念。如果你弄乱了这些,模型就会完全忘记“狗”或“车”是什么。
  2. 中等奇异值: 对应 粗粒度知识 。 移除这些会损害对特定形状或子类别的识别。
  3. 小奇异值 (微小分量) : 对应 上下文特定知识 。 这些处理细粒度的细节、纹理和噪声。

结论: 为了使模型适应新任务而不破坏其通用推理能力, 你应该保留主分量 (大值) ,只修改微小分量 (小值) 。

核心方法: SoMA

SoMA 采纳了这一见解,并以此为中心构建了一种微调策略。这个名字代表 奇异值分解微小分量适应 (Singular Value Decomposed Minor Components Adaptation)

第一步: 分解权重

首先,SoMA 对预训练权重矩阵 \(W\) 执行 SVD。

奇异值分解方程。

第二步: 分离主要和微小分量

该方法根据秩 \(r\) 将奇异分量分为两组:

  1. 残差 (主要) 分量: 具有最大奇异值的顶部分量。这些代表核心的“世界知识”。 这部分被冻结。
  2. 微小分量: 具有最小奇异值的底部 \(r\) 个分量。这些代表我们可以安全覆盖的“噪声”或特定细节。

第三步: 初始化适配器

与随机初始化的 LoRA 不同,SoMA 使用提取出的 微小分量 来初始化其可训练矩阵 (\(B\) 和 \(A\)) 。

矩阵 B 和 A 的 SoMA 初始化方程。

这里,\(B\) 和 \(A\) 被初始化为完全重构原始权重的微小分量。这意味着在训练开始时,模型在数学上与原始预训练模型完全相同。

第四步: 前向传播

在训练期间,我们优化 \(B\) 和 \(A\) (它们现在代表微小分量) 。前向传播如下所示:

显示残差和适应分量的 SoMA 前向传播方程。

术语 \(\Delta W_{SoMA}\) 代表我们对微小分量所做的更改。因为我们在微小分量的正交空间中操作,所以我们将对主要的、可泛化方向的干扰降至最低。

额外策略: 冻结早期块

研究人员并没有止步于权重层面;他们还研究了架构层面。

在域泛化中,域之间的差异通常出现在低级统计特征中——光照、雾、噪声或艺术风格 (例如合成游戏数据与真实照片) 。在卷积神经网络 (CNN) 和 Transformer 中, 早期块 (early blocks) 负责处理这些低级特征。

早期块的 PCA 可视化及其冻结对稀有类别的影响。

如图 3 (上) 所示,像 DINOv2 这样的 VFM 的早期块已经捕获了鲁棒的、局部化的语义。图 3 (下) 显示, 冻结这些早期块 (阻止它们更新) 实际上 提高 了性能 (深蓝色区域) 。通过冻结早期层,我们强制模型依赖其预训练的能力来处理低级视觉特征,防止它过拟合训练数据的特定“风格” (比如 GTA5 的视频游戏画质) 。

实验与结果

SoMA 框架在两个主要任务上进行了严格测试: 域泛化语义分割 (DGSS)目标检测 (DGOD)

语义分割: 合成到真实

在这个设置中,模型在合成数据 (GTA V,看起来像视频游戏) 上训练,并在真实世界的驾驶数据集 (Cityscapes, BDD, Mapillary) 上进行测试。这是经典的“仿真到真实 (Sim-to-Real) ”差距。

表格显示 SoMA 在合成到真实设置中优于现有方法。

表 2 显示了结果。主要结论:

  • SoMA vs. FFT: SoMA 优于全量微调 (FFT) ,同时训练的参数显著减少 (仅约 500 万 vs 3 亿以上) 。
  • SoMA vs. LoRA: SoMA 持续击败标准 LoRA。这证明了 如何 初始化适配器很重要。用微小分量初始化优于随机初始化。

从视觉上看,差异是惊人的。

Cityscapes 上的定性分割结果。与 LoRA 和 Rein 相比,SoMA 显示出更清晰的边界和更少的伪影。

在图 6 中,观察 SoMA 生成的分割掩码与 LoRA 和其他方法的对比。即使是在视频游戏数据上训练的,SoMA 也能为路标和车辆生成清晰、准确的边界。

恶劣天气下的目标检测

研究人员还测试了目标检测,在“白天-晴朗”图像上训练,并在“夜晚”、“雨天”和“雾天”上测试。

恶劣天气下的定性目标检测结果。

图 4 展示了鲁棒性。在“黄昏雨天”和“白天雾天”的行中,SoMA 检测到了其他方法遗漏 (或产生幻觉/误检) 的车辆。这证实了保留“主要分量” (无论天气如何都能理解汽车的形状) 是至关重要的。

生成式建模 (主体个性化)

最后,为了证明 SoMA 的通用性,作者将其应用于 Stable Diffusion 。 目标是: 教模型识别一个新的主体 (一只特定的狗) ,而不忘记如何生成不同的艺术风格。

主体个性化结果显示 SoMA 以折纸、水彩和矢量风格生成特定的狗。

生成结果对比。SoMA 在遵循风格提示的同时,比 DreamBooth 更好地保持了主体身份。

如图 10 和图 11 所示,SoMA 在“主体个性化”方面表现出色。它捕捉到了特定狗的身份 (来自参考照片) ,但保留了 VFM 以“折纸风格”或“水彩画”渲染它的能力。标准方法 (如 DreamBooth) 通常会过拟合,从而失去有效改变风格的能力。

结论

SoMA 论文教会了我们关于深度学习模型本质的宝贵一课。基础模型不仅仅是“一大堆权重的集合”;它们具有知识的层次结构。

  • 结构很重要: 知识编码在奇异分量中。
  • 尊重层次结构: 最强的信号 (主要分量) 掌握着关于世界最普遍的真理。
  • 调整噪声: 适应最好通过操作微小分量来完成——这是模型中保留给特定上下文和细节的部分。

通过将这种基于 SVD 的初始化与冻结早期块等架构洞察相结合,SoMA 提供了一种参数高效、具有数学依据的 AI 模型适应方法。无论是自动驾驶汽车在雨中导航,还是 AI 艺术家学习新角色,SoMA 都确保模型在学习新技巧的同时,不会忘记它已经认识的世界。


对于那些对实现细节感兴趣的人,实验中使用的超参数如下所示。

DGSS 和 DGOD 实验的超参数配置。