大语言模型 (LLM) 在生物医学领域的整合前景广阔,从协助复杂诊断到自动化临床笔记记录,其潜力巨大。然而,广泛采用这些模型面临着一个巨大的障碍: 即“资源-隐私-性能”的三难困境。

一方面,我们拥有大规模的 黑盒大语言模型 (如 GPT-4) ,它们提供最先进的推理能力,但涉及患者数据时会带来高昂的成本和严重的数据隐私风险。另一方面,我们有 白盒大语言模型 (如 LLaMA-2) ,它们可以在本地私有运行,但即使经过昂贵的微调,其推理能力往往也难以与其更大的同类模型相匹敌。

我们该如何调和这些局限性?医疗机构如何在不将敏感数据上传到第三方云端,也不在 GPU 集群上花费巨资的情况下,使强大的模型适应其特定需求?

在这篇文章中,我们将探讨 MedAdapter , 这是由佐治亚理工学院和埃默里大学的研究人员提出的一种新颖框架。MedAdapter 提供了一个统一、高效的解决方案,用于使白盒和黑盒 LLM 适应医学推理任务。阅读完本文,你将了解训练一个小型 BERT 大小的适配器是如何以极低的成本显著提升大规模 LLM 性能的。

问题所在: 性能与隐私的鸿沟

要理解为什么 MedAdapter 是必要的,我们必须先看看生物医学 NLP 目前的格局。

如图 1 所示,开源模型与专有巨头之间存在明显的性能差距。橙色和绿色的标记代表白盒模型 (如 LLaMA-2 和 LLaMA-3) 。即使经过微调,它们通常也落后于“黑盒”模型 (由星号表示,如 GPT-3.5-Turbo) 。

图 1: BioASQ 上的评估结果。X 轴为对数刻度。无论是否在生物医学语料库上进行微调,中等规模的白盒 LLM 始终表现不如更大的黑盒 LLM。然而,通过 API 微调黑盒 LLM 可能会带来潜在的数据隐私风险并产生巨额成本。

这给医学研究人员带来了一个两难境地:

  1. 使用黑盒模型: 你获得了高准确性,但无法访问权重。通过 API (如 OpenAI 的微调服务) 对这些模型进行微调需要上传训练数据。在医疗保健领域,由于 HIPAA 法规和隐私问题,将患者数据上传到第三方服务器通常是不可行的。此外,这也是极其昂贵的。
  2. 使用白盒模型: 你可以将数据保留在本地且私密,但性能较低。为了提高性能,你必须自己微调模型,这需要许多学术和医疗中心所缺乏的大量计算资源 (高端 GPU) 。

MedAdapter 的诞生正是为了寻找“第三条路”——一种高效、廉价且私密地适配这些模型的方法。

MedAdapter: 统一的后处理适配器

MedAdapter 的核心洞察在于,我们不需要重新训练 LLM 的庞大“大脑”来使其适应新领域。相反,我们可以将 LLM 视为可能性的生成器,并训练一个小型、专业的“评论家”来选择最佳答案。

MedAdapter 是一种 测试时适配 (Test-Time Adaptation) 技术。它微调一个轻量级的适配器 (具体来说,是一个仅有约 1.1 亿参数的 BERT 大小的模型) ,以对骨干 LLM 生成的候选解决方案进行排序。

架构

MedAdapter 的工作流程简单而优雅。它将想法的 生成 与想法的 评估 分离开来。

图 2: 用于医学推理的高效测试时 LLM 适配 MedAdapter 概述。我们微调一个小适配器 MedAdapter 来对 LLM 生成的候选解决方案进行排序,从而有效地在源域和目标域之间建立区别,实现高效的领域适配。

如图 2 所示,该过程包括两个明显的阶段:

  1. 训练阶段 (上部) :
  • 我们获取一个医学问题的训练数据集。
  • 我们要求 LLM (生成器 \(G\)) 为每个问题生成多个候选解决方案。
  • 我们将这些解决方案与标准答案 (Ground Truth) 进行比较,将其标记为“正确”或“错误”。
  • 我们训练 MedAdapter (\(\theta\)) 来预测这些标签。
  1. 推理阶段 (下部) :
  • 我们给 LLM 一个新的、未见过的医学问题。
  • LLM 生成 \(K\) 个不同的潜在推理路径和答案。
  • MedAdapter 对每个候选方案进行打分。
  • 我们选择得分最高的候选方案作为最终答案。

这种架构允许系统利用大语言模型的生成创造力,同时通过适配器强制执行领域特定的准确性。

深入解析: 核心方法

让我们从数学公式的角度来分解 MedAdapter 的工作原理。这对于理解系统如何学习区分好的和坏的医学推理至关重要。

1. 候选方案生成

首先,我们需要数据来训练我们的适配器。我们从一个源 LLM 开始,记为 \(G\)。对于训练集中的每个问题输入 \(x_i\),我们提示 \(G\) 生成 \(k\) 个不同的解决方案。这些解决方案通常包括一个“思维链” (推理步骤) ,随后是一个最终答案。

对于每个生成的解决方案 \(\hat{y}_{i,j}\),我们分配一个正确性标签 \(z_i\)。这是一个二元标签: 如果生成的答案与标准答案 \(y_i\) 匹配则为 1,否则为 0。

方程 2

这个过程为适配器创建了一个新的数据集,记为 \(\mathcal{D}_{\mathrm{ada}}\)。该数据集由 (输入 + 生成的解决方案) 对及其对应的 (正确/错误) 标签组成。

方程 4

这里,\(\mathbf{h}_{i,j}\) 代表原始医学问题与生成的候选解决方案的拼接。这就是适配器将要读取的内容。

2. 训练结果监督适配器

适配器是一个标准的编码器模型 (如 BERT 或 Longformer) 。它的工作是查看 LLM 产生的推理,并输出一个概率分数,表示该推理得出正确医学结论的可能性有多大。

作者发现,将其视为一个 二分类问题 效果最好。适配器被训练来最小化以下损失函数:

方程 6

在这个方程中:

  • \(z\) 是标准答案二元标签 (这个候选正确吗?) 。
  • \(V_{\theta}(\mathbf{h})\) 是 MedAdapter 输出的分数 (概率) 。
  • 如果适配器给正确答案低分或给错误答案高分,损失函数会对其进行惩罚。

这不同于其他方法,如人类反馈强化学习 (RLHF) ,后者可能使用成对排序损失 (Pairwise Ranking Loss) 。研究人员发现,这种直接的分类目标在这个特定用例中更稳定且有效。

3. Best-of-K 推理

一旦适配器训练完成,我们就可以部署它。在测试时 (推理) ,我们会得到一个我们不知道答案的问题 \(x_i\)。

我们要求 LLM 生成 \(K\) 个候选解决方案。然后,我们将所有这些方案输入 MedAdapter。MedAdapter 为每一个方案分配一个分数 \(r_{\theta}\)。我们只需选择得分最高的那一个:

方程 7

这种技术有效地过滤了“幻觉”或 LLM 可能陷入的错误推理路径,严格选择与适配器在训练期间学到的医学领域知识相一致的推理。

为什么它很高效?

这种方法的美妙之处在于 参数效率

如果你使用标准的监督微调 (SFT) 来微调 LLaMA-2-7B,你将更新数十亿个参数。即使使用 LoRA (低秩适配) ,你仍然需要在内存中管理一个大模型。

然而,MedAdapter 使用的模型只有 1.1 亿参数 (Longformer-Base) 。这大约是一个 7B 参数模型的 1.5%

表 4: 白盒 LLM 适配生物医学问答任务的 GPU 内存 (GiB) 使用估算。

表 4 突出了这种效率。使用 MedAdapter 训练所需的 GPU 内存 (11.60 GiB) 远少于全量 SFT (78.65 GiB) 甚至 LoRA (54.76 GiB) 。这使得硬件一般的医学实验室也能进行高质量的领域适配。

实验结果

研究人员在四个生物医学任务和八个数据集上评估了 MedAdapter,包括 MedQA (USMLE 问题) 、PubMedQA 和 BioASQ。对于白盒和黑盒场景,结果都令人信服。

生物医学问答任务上的性能

主要结论是 MedAdapter 始终能提高性能。

  • 白盒: 它将 LLaMA-2-7B 的准确率平均提高了 18.24%
  • 黑盒: 它将 GPT-3.5-Turbo 的准确率提高了 10.96%

至关重要的是,MedAdapter 通常能匹配或超越昂贵的基于 API 的微调。例如,在 BioASQ 数据集上,带有 MedAdapter 的 GPT-3.5 达到了 93.55% 的准确率 , 与 Azure SFT 的 95.16% 相当,但成本只是后者的一小部分,且隐私性更好。

成本效益

支持 MedAdapter 的最有力论据之一是经济性。通过 Microsoft Azure 或 OpenAI 微调 GPT-3.5 等模型是按 token 计费的,对于大型数据集来说可能会变得极其昂贵。

表 3: 基于 GPT-3.5-turbo-1106 将黑盒 LLM 适配到生物医学问答任务的成本 ($) 估算。* 表示估算成本,因为 OpenAI-SFT 不符合 HIPAA 法规。

表 3 显示了鲜明的对比。对于 MedQA 数据集:

  • Azure-SFT 成本: 训练约需 172.85 美元。
  • MedAdapter 成本: 训练约需 42.57 美元。

这代表了大约 75% 的成本降低。由于 MedAdapter 在本地运行,你还避免了在云平台上“托管”微调模型的高额溢价。

标签效率

医疗 AI 的另一个常见瓶颈是缺乏标记数据。注释医学问题需要经过认证的医生,这很昂贵。

图 4: 标签效率。

图 4 表明 MedAdapter 具有显著的标签效率。它仅使用 40% 到 60% 的可用训练数据就能获得显著的性能提升 (曲线的“拐点”) 。这表明机构不需要海量数据集来构建有效的适配器——适量的、高质量的数据集就足够了。

扩展性分析

论文中一个有趣的发现是“扩展性分析”。人们可能认为,为 适配器 使用更大的模型 (例如,从 1.1 亿升级到 27 亿参数) 会产生更好的结果。

图 3: MedAdapter 基础模型在多个通用和生物医学领域特定语言模型 (LM) 上的扩展性能。虚线表示基础模型 GPT-3.5-turbo 的性能。

然而,图 3 显示性能很快进入平台期。线条大多是平坦的,这表明一个小型的 1.1 亿参数模型足以完成 排序 解决方案的任务。这对于部署来说是个好消息,因为它证实了我们不需要在庞大的适配器上浪费资源。

结合不同方法: 互补的解决方案

MedAdapter 与其他适配方法并不是互斥的。事实上,研究人员发现它作为一种互补工具效果最好。

表 2: 结合训练时和测试时适配对白盒和黑盒 LLM 在生物医学任务上的互补分析结果 (准确率) 。粗体表示白盒/黑盒 LLM 中的最佳性能。

如表 2 所示,在其他方法 之上 应用 MedAdapter 会产生最高的分数。

  • 仅对 LLaMA-2 进行 SFT 在 MedQA 上得到 33.39%。
  • SFT + MedAdapter 跃升至 40.61%

这种灵活性允许研究人员将 MedAdapter 插入现有的管道 (如 RAG 或 LoRA) 中,以榨取额外的性能增益。

结论与启示

MedAdapter 代表了我们处理大语言模型领域适配方式的一种务实转变。MedAdapter 不是试图通过更新数十亿个权重来强迫整个 LLM “学习”医学,而是接受 LLM 作为一个强大的推理引擎,并简单地使用一个轻量级的监督者引导它走向正确的路径。

关键要点:

  1. 隐私: 通过本地训练适配器,你避免了将训练数据集发送到第三方 API 进行微调。
  2. 成本: 与商业微调服务相比,它大幅降低了训练和推理成本。
  3. 效率: 它仅使用全量微调所需内存的约 1.5% 就能获得具有竞争力的结果。
  4. 通用性: 它适用于开源 (白盒) 和专有 (黑盒) 模型。

对于进入该领域的学生和研究人员来说,MedAdapter 是 系统级 AI 设计 的一个有力范例。有时,解决方案不是更大的模型,而是一个更智能的架构,能有效地利用不同组件的优势。随着我们迈向医疗保健领域更专业的 AI 应用,像 MedAdapter 这样高效且保护隐私的工具对于弥合前沿研究与临床现实之间的鸿沟将至关重要。