引言
想象一下有一个“超级医生 AI”——一个能够分析 X 光片、阅读临床笔记、解读 ECG 信号并预测死亡风险的基础模型,且所有这些都能达到专家级的精度。我们已经见证了像 GPT-4 这样的大型语言模型 (LLM) 的崛起,而它们在医疗领域的对应模型也开始崭露头角。然而,在医疗领域,我们撞上了一堵巨大的墙: 隐私 。
要构建一个真正通用的医疗 AI,你需要访问存储在世界各地医院中的海量多样化患者数据。但是,像美国的 HIPAA 和欧盟的 GDPR 这样的法规理所当然地使得将这些敏感数据集中到一个巨大的训练服务器上几乎变得不可能。
这创造了一个悖论: 我们需要大数据来训练大模型,但我们无法移动数据。
此外,当前的医疗模型通常是“技能单一的”。它们可能擅长阅读文本但在图像方面是个盲人,或者擅长看 X 光片但在实验室结果方面是个文盲。
在这篇文章中,我们将深入探讨 FEDKIM , 这是由宾夕法尼亚州立大学和乔治亚州立大学的研究人员提出的一个新颖框架。FEDKIM 通过结合 联邦学习 (FL) 和 知识注入 解决了这个悖论。它允许一个中心化的基础模型从私有的、分散的数据中“学习”,而这些数据无需离开医院,有效地将医疗知识注入到一个冻结的大型语言模型中。
问题所在: 数据孤岛与专用模型
在理解解决方案之前,我们需要了解当前形势的局限性。大多数现有的医疗基础模型都是在公共数据集上训练的。虽然令人印象深刻,但它们存在两个主要缺陷:
- 大规模应用不切实际: 你无法在所有医疗数据上训练模型,因为你无法将其收集到一个地方。
- 模态受限: 如下表所示,大多数当前模型仅专注于一种或两种模态 (通常是文本或文本+图像) 。现实世界的诊断是复杂的,往往同时涉及生命体征、实验室结果、波形图和影像。

研究人员提出了一种解决方案: 将庞大的基础模型保留在服务器上,但在医院 (客户端) 使用轻量级的“知识提取器”。
FEDKIM 框架: 概览
FEDKIM 代表 Federated Knowledge Injection for Medical foundation models (面向医疗基础模型的联邦知识注入) 。
其核心思想与标准的联邦学习截然不同。在标准 FL 中,整个模型通常会被发送到客户端。然而,医疗基础模型非常庞大 (数十亿个参数) 。将它们发送到每个医院服务器在计算上既昂贵又缓慢。
相反,FEDKIM 改变了这一局面:
- 服务器: 托管大型、冻结的医疗基础模型。
- 客户端 (医院) : 托管轻量级的、特定模态的 编码器 (知识提取器) 。
客户端在私有患者数据上训练它们的轻量级编码器。它们仅将这些小编码器的参数发送到服务器。然后,服务器将这些学到的知识“注入”到大型基础模型中。
让我们看看高层架构:

如上图 (a) 部分所示,这是一个循环过程。全局模型聚合来自客户端的更新,将它们注入到基础模型 (\(\mathcal{F}\)) 中,使用服务器上的少量公共数据对其进行微调,并将更新后的编码器发送回客户端。
分步详解: 知识注入是如何工作的
这是论文在技术上最迷人的部分。你如何让一个在医院私有 ECG 数据上训练的小型编码器,迫使一个巨大的基于文本的 LLM 理解它?
这个过程分三个具体步骤进行 (如上图 (b) 部分所示) 。
第一步: 特征对齐
首先,服务器接收来自不同客户端的编码器。这些编码器已经学会了如何将特定的医疗模态 (如 X 光片或 ECG 信号) 处理成特征向量。
然而,基础模型 (假设是一个为医学定制的 LLaMA 变体) 并不天生“说”这些特征向量的语言。
系统使用了一种 特征对齐 策略。它获取编码器生成的特征 \(h\),并将它们投射到基础模型的语义空间中。这本质上是将“图像特征”翻译成 LLM 可以理解的“词嵌入”。这是通过一个可学习的投影层完成的。
第二步: 多任务多模态混合专家模型 (\(M^3OE\))
这是论文的核心创新。一个朴素的方法是直接将所有这些特征塞进 LLM。但不同的医疗任务需要不同类型的注意力。从 X 光片诊断 COVID-19 与基于实验室结果预测死亡率是截然不同的。
为了处理这个问题,作者引入了 多任务多模态混合专家模型 (\(M^3OE\)) 。
\(M^3OE\) 模块充当了一个智能交换台的角色。它根据两个因素决定需要哪些“专家” (子模块) 来处理当前的输入:
- 模态: (例如,这是图像吗?是信号吗?)
- 任务: (例如,这是一个分类任务吗?是一个问答任务吗?)
该机制计算一个门控权重 \(\alpha^t\) 来选择合适的专家。这种选择的数学公式使用了注意力机制:

这个公式告诉我们:
- \(\mathcal{M}^t\) 和 \(\mathcal{T}^t\) 代表模态和任务描述。
- 模型计算任务与模态之间的关系 (注意力) 。
- 结果 \(\alpha^t\) 决定了每个“专家”对最终输出应该有多大的影响力。
这种动态选择使得模型成为一个可以瞬间切换上下文的“通才”。
第三步: 参数高效微调 (LoRA)
在服务器上训练整个基础模型太慢且需要太多数据。相反,作者使用了 LoRA (Low-Rank Adaptation,低秩适应) 。
LoRA 冻结预训练的模型权重,并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中。在 FEDKIM 中,\(M^3OE\) 模块专门操作这些 LoRA 适配器。
基础模型每一层的最终表示计算如下:

- \(\mathbf{W}_{\mathcal{F}}\): 基础模型的冻结参数 (巨大的大脑) 。
- \(\mathbf{B}_p \mathbf{A}_p\): 第 p 个专家系统 (LoRA 适配器) 。
- \(\alpha_{p}^{t}\): 由 \(M^3OE\) 模块分配给该专家的权重。
通过这样做,FEDKIM 在不破坏 LLM 预训练能力的情况下将知识注入到模型中,并且做法非常高效。
联邦学习骨干
虽然注入发生在服务器上,但知识的 提取 是在客户端使用联邦学习完成的。
客户端优化其本地编码器以最小化其私有数据任务上的损失:

一旦训练完成,这些参数会被发送到服务器。服务器使用标准的 FL 算法聚合它们。论文探讨了两种主要的聚合策略:
- FedAvg: 简单的参数平均。
- FedProx: 一种更稳健的方法,能更好地处理客户端数据的异质性 (差异) 。

实验与结果
研究人员在一系列多样化的医疗挑战中严格测试了 FEDKIM。
设置:
- 12 个任务 , 包含分类和生成。
- 7 种模态 , 包括 X 光片 (图像) 、ECG (信号) 、生命体征、实验室事件和临床文本。
- 骨干模型: MMedLM-2 (一种专门的医疗 LLM) 。
任务及其所用模态的详细列表如下:

1. 零样本评估 (真正的考验)
基础模型最令人印象深刻的主张是它们能够执行未经过明确训练的任务 (零样本学习) 。
作者在一组“训练任务” (如 COVID-19 检测) 上训练 FEDKIM,然后在完全“未见过的任务” (如败血症预测或视觉问答) 上进行测试。
结果以雷达图的形式呈现。下面是使用 FedAvg 作为聚合器的比较:

下面是使用更高级的 FedProx 聚合器的性能:

图表的主要结论:
- FEDKIM (绿线) 始终包围着其他形状,这意味着它在几乎所有未见过的任务 (SP, ECD, PED, AD) 上都获得了更高的准确率/分数。
- FedPlug (橙线) 是一个基线,它只是插入编码器而没有自适应 \(M^3OE\) 模块,其表现明显较差。这证明了 如何 注入知识 (使用混合专家) 与知识本身一样重要。
- MMedLM-2 (黑点) , 即没有联邦知识注入的原始基础模型,实际上在这些多模态任务上失败了,因为它缺乏在私有数据上训练的特定模态编码器。
2. 微调性能
研究人员还检查了模型在其 已 训练任务上的表现 (微调评估) 。

查看 表 3 , FEDKIM 在准确率和 F1 分数上均优于基线 (FedPlug 和 FedPlug-LoRA) 。例如,在 ECG 异常检测 (一项困难的信号处理任务) 中,使用 FedProx 的 FEDKIM 达到了 73.78 的 F1 分数,而基线 FedPlug 仅达到 27.55 。
这种巨大的差距突显了 自适应混合专家 的力量。因为模型可以动态地将 ECG 信号路由到正确的“专家”模块,所以它比静态模型能更好地解读波形。
为什么这很重要
FEDKIM 论文代表了医疗 AI 向前迈出的重要一步。它成功地解决了“隐私与效用”的权衡问题。
- 隐私得到保护: 患者的 X 光片和笔记从未离开本地医院。传输的只有小型编码器的数学权重。
- 多模态精通: 通过使用专门的本地编码器和中央混合专家,该模型成为了一个真正的通才,能够理解医学的多种语言 (图像、信号和文本) 。
- 可扩展性: 由于庞大的基础模型保留在服务器上,医院不需要超级计算机即可参与。它们只需要训练轻量级的编码器。
这种架构为未来铺平了道路: 一个全球性的医疗 AI 可以从世界上的每一家医院学习,不断提高其诊断能力,而无需妥协任何一位患者的隐私。
](https://deep-paper.org/en/paper/2408.10276/images/cover.png)