引言
在人工智能快速发展的领域中,像 LLaVA 和 BLIP 这样的视觉语言模型 (VLMs) 已成为强大的工具,能够基于视觉和文本输入理解并生成内容。这些模型在医疗保健等专业领域前景广阔,例如,模型可能需要分析胸部 X 光片并回答医生提出的自然语言问题。
然而,在现实世界中部署这些庞大的“基础模型”面临着一个悖论。为了使它们在医疗诊断中发挥作用,必须在多样化的真实医疗数据上对其进行微调。但是,严格的隐私法规 (如 HIPAA/GDPR) 通常禁止医院与中央服务器共享患者数据。
联邦学习 (FL) 通过在客户端设备上 (例如医院的安全网络内部) 本地训练模型并仅共享模型更新来解决隐私问题。但这引入了一个新问题: 资源限制 。 在临床环境中常见的有限硬件上,微调一个庞大的 VLM 几乎是不可能的。此外,标准的 FL 方法假设所有客户端都有些相似,但在现实中,一家医院可能拥有高端 GPU 和 CT 扫描,而另一家只有基础的笔记本电脑和显微镜图像。
如何在不破坏隐私的情况下,在多样化且性能较弱的设备上微调庞大的模型?
本文将探讨一种名为 F\(^3\)OCUS (Federated Finetuning of Foundation Models with Optimal Client-specific Layer Updating Strategy,基于最优客户端层更新策略的基础模型联邦微调) 的新框架。F\(^3\)OCUS 背后的研究人员提出了一种复杂的方法,它不是训练整个模型或其随机部分。相反,他们通过数学方法确定神经网络的哪些层对每个特定客户端最重要,然后使用服务器端的“元启发式”优化来确保全局模型的稳健性。

如 图 1 所示,传统方法 (a) 通常仅根据本地数据选择层,忽略了全局情况。F\(^3\)OCUS (b) 引入了一个反馈循环,服务器在其中对这些选择进行精炼,以最大化重要性和多样性。
背景: 联邦微调的挑战
在深入了解 F\(^3\)OCUS 的机制之前,有必要了解联邦学习 (FL) 应用于基础模型时的具体障碍。
1. 参数高效微调 (PEFT)
对于大多数边缘设备来说,微调数十亿参数的模型中的每一个参数在计算上都是禁止的。PEFT 技术通过冻结大部分预训练模型,仅更新一小部分参数 (或添加小的“适配器”层) 来解决这个问题。
2. 异构性问题
在完美的世界里,联邦网络中的每个客户端都将拥有相同的计算能力和类似的数据分布。在现实世界中,我们要面对:
- 数据异构性: 不同的医院面对不同的疾病。
- 模态异构性: 一个客户端处理 X 光片,另一个处理 MRI。
- 系统异构性: 设备的内存和处理限制差异巨大。
FL 和 PEFT 的简单组合在这里会失效。如果我们简单地让每个客户端训练他们想要的层,或者强迫每个人训练相同的层,我们要么未能利用强大的客户端,要么会让弱小的客户端崩溃。此外,如果每个客户端只关注与他们的数据相关的层,全局模型可能会遭受关于其他特征的“灾难性遗忘”。
F\(^3\)OCUS 回答的核心研究问题是: 我们如何为每个客户端动态选择最佳的层子集进行更新,以便在尊重其硬件限制的同时最大化全局模型的性能?
F\(^3\)OCUS 框架
F\(^3\)OCUS 方法基于“定义与精炼”的原则运行。它包含两个主要策略:
- 客户端策略 (定义) : 使用 层级神经正切核 (Layerwise Neural Tangent Kernel, LNTK) 确定哪些层对本地数据最关键。
- 服务器端策略 (精炼) : 使用 多目标元启发式优化 调整这些选择,以确保平衡的全局训练过程。

图 4 提供了一个高层架构视图。在左侧,客户端处理数据 (如 CT 扫描) 并计算重要性评分。在右侧,服务器处理这些评分以输出最佳的层级排名。
第一步: 基于 LNTK 的客户端层重要性
第一个挑战是确定神经网络的哪些层对特定客户端的数据真正重要。随机选择效率低下,而全部训练又不可能。研究人员利用 神经正切核 (LNTK) 的概念解决了这个问题。
理解 LNTK
如果不迷失在深度学习理论中,神经正切核描述了神经网络在训练过程中的演变。它帮助我们理解当我们调整权重时模型的输出如何变化。
研究人员假设特定层的 LNTK 的 主特征值 表明该层的参数与客户端数据分布的对齐程度。较高的主特征值意味着更新该层将导致损失函数更显著的下降——本质上,该层“学习”得更快,对该特定数据集更重要。
网络函数 \(f\) 的演变可以用以下涉及 NTK 矩阵 \(\Theta\) 的微分方程来描述:

整体 NTK 可以分解为层级 NTK (LNTK) 的总和,如下所示:

通过对 LNTK 进行特征分解 (如下式) ,研究人员提取特征值 \(\lambda\)。最大的特征值 (\(\lambda_1^l\)) 是关键的指标。

为什么是主特征值?
理论分析表明,训练与主特征值相关的方向最为一致。因此,具有较大主特征值的层对减少损失的贡献更显著。

图 3 可视化了不同数据集 (客户端) 下的这一概念。你可以清楚地看到重要性分布是不同的。对于 SLAKE (a) , 前几层至关重要 (左侧的高峰) 。对于 VQAMed 2020 (c) , 重要性更广泛地分布在中间层。这证明了“一刀切”的层选择策略将会失败。
基于此,客户端为每一层计算一个 重要性评分 (\(S_i^l\)) , 该评分即为该层主特征值的归一化幅度。

图 5 展示了这些原始排名随训练轮次变化的热力图。虽然信息丰富,但仅依靠这一点会产生问题: 某些层可能被所有人忽略,而其他层则被过度训练,导致冗余和模型广度的缺失。
第二步: 基于元启发式算法的服务器端精炼
一旦服务器收到所有客户端的重要性评分,它不仅仅是盲目地分配排名靠前的层。它必须平衡两个相互冲突的目标:
- 最大化重要性: 选择客户端真正需要的层 (高 LNTK 分数) 。
- 最大化多样性 (最小化方差) : 确保在所有客户端之间,模型的不同部分都得到训练,以便整个网络最终都得到微调。
这是一个经典的 多目标优化问题 。 服务器需要找到一种层分配配置 \(m\),以满足以下条件:

这里,第一项最大化重要性评分的总和,第二项最小化网络中层使用计数 (\(n_l\)) 的方差。
在无数据的情况下求解
服务器无法运行梯度下降来解决这个问题,因为它没有数据——只有客户端发送的评分。这就是 元启发式算法 发挥作用的地方。这些是受自然界启发的优化策略,可以在不需要梯度的情况下在复杂空间中搜索解决方案。
研究人员调查了五种不同的算法:
- NSGA-II (遗传算法): 使用进化、交叉和变异来“繁育”更好的层分配。
- 人工蜂群 (ABC): 模拟蜜蜂寻找食物,其中“食物源”是层配置。
- 蚁群优化 (ACO): 使用“信息素”标记成功的路径 (层选择) 。
- 模拟退火 (SA): 模仿金属的冷却过程以达到低能 (最优) 状态。
- 粒子群优化 (MOPSO): 模拟鸟群向最佳解决方案移动。
这种优化的结果是一套经过精炼的层分配,既尊重客户端的预算,又强制在模型上进行更健康的训练分布。

将上面的 图 6 (精炼后) 与 图 5 (原始) 进行比较。在精炼版本中,“热” (黄/绿) 区域分布得更加均匀。服务器成功进行了干预,确保在优先考虑高重要性层的同时,也没有完全放弃“冷”层。

图 7 明确展示了这种修正。红色条形 (客户端层选择) 显示出高峰和深谷——有些层被所有人选择,有些则无人问津。蓝色条形 (服务器端层选择) 显示出更加平滑的分布,确保整个模型参与学习。
数据集贡献: Ultra-MedVQA
为了严格测试该框架,作者需要一个能反映现实世界医疗极度异构性的数据集。他们整理并发布了 Ultra-MedVQA , 这是迄今为止最大的医疗视觉问答 (VQA) 数据集。

如 图 8 所示,该数据集涵盖了 9 种不同的模态 (MRI、CT、X 光、病理学等) ,并涉及超过 700,000 个 VQA 三元组。这种多样性使其成为联邦学习的一个极其困难的基准,因为“血细胞”客户端和“胸部 X 光”客户端之间的领域差距是巨大的。

表 1 强调了这个新数据集与现有基准 (如 SLAKE 或 VQA-RAD) 相比的规模。
实验与结果
研究人员使用 4 种不同的 VLM 架构 (ViLT, ALBEF, LLaVA, BLIP-2) 进行了超过 10,000 次客户端级别的实验。他们与 28 个最先进的基线进行了对比测试。
收敛速度
F\(^3\)OCUS 最直接的好处之一是更快的收敛速度。由于首先针对的是最相关的层,损失下降的速度明显快于随机或均匀策略。

图 2 清晰地展示了这一点。F\(^3\)OCUS 曲线 (蓝色) 急剧下降,并保持低于其他方法 (如梯度范数或 Fisher 信息) 。绿线 (仅客户端 LNTK) 和蓝线 (F\(^3\)OCUS) 之间的差距代表了服务器端元启发式优化带来的增值。
准确性与性能
这种策略真的能带来更好的医疗诊断吗?

表 2 展示了不同任务 (VQA 和疾病分类) 的准确率结果。
- 同构资源: 即使客户端拥有相同的算力,F\(^3\)OCUS 也优于“全适配器”微调和其他选择方法 (如 “FedSelect”) 。
- 异构资源: 当客户端算力不均等时 (表格下半部分) ,差距拉大。F\(^3\)OCUS 始终获得最高的平均分 (例如,使用 BLIP 在任务 5 上达到 88.45% , 而竞争对手约为 82%) 。
与 PEFT 方法的对比分析
该方法还与 LoRA 和 Prompt Tuning 等流行的参数高效技术进行了比较。

表 3 显示,F\(^3\)OCUS 在保持较低通信成本 (9.7 MBits) 的同时实现了具有竞争力的准确率 (整体 42.78% ),相比之下,全量微调 (3915 MBits) 或标准适配器微调成本更高。虽然 FedDAT 在某些列中实现了略高的准确率,但它需要微调所有适配器,计算量更重。
特征可分性
最后,为了可视化模型学到了什么,研究人员使用 t-SNE 图将特定客户端 (显微镜) 的高维特征投影到 2D 空间。

在 图 9 中,我们可以看到:
- (a) 随机: 类别混杂在一起。
- (b) LNTK: 形成了一些聚类,但有明显的重叠。
- (c) F\(^3\)OCUS: 出现了清晰、紧密的聚类。这表明尽管模型是联邦网络的一部分,但它已经学习到了显微镜领域特有的判别特征。
结论
F\(^3\)OCUS 框架代表了在隐私敏感和资源受限环境中使大规模 AI 变得可用的重要一步。通过将层选择视为两部分问题——本地重要性 (通过 LNTK) 和全局多样性 (通过元启发式) ——它允许不同的客户端进行有效协作。
主要收获:
- 一刀切行不通: 在联邦学习中,客户端需要基于其独特数据的个性化训练策略。
- 数学引导直觉: 神经正切核提供了一种严谨的方法来识别“重要”层,而无需猜测。
- 全局平衡是关键: 纯粹的本地优化会损害全局模型;需要服务器端的“多样性检查”来维持模型健康。
- 现实就绪: 随着 Ultra-MedVQA 的发布以及在各种异构设置中的成功,F\(^3\)OCUS 证明了其在现实医疗应用中的可行性。
随着 VLM 的规模不断扩大,像 F\(^3\)OCUS 这样的策略对于将其部署到边缘至关重要,从而确保从高科技研究中心到偏远诊所,AI 在医疗保健领域的益处无处不在。
](https://deep-paper.org/en/paper/file-2026/images/cover.png)