引言
在人工智能飞速发展的今天,大型视觉语言模型 (LVLMs) 在“观察”世界并进行描述方面正变得越来越熟练。从描述度假照片到为机器人导航,这些模型正在改变行业格局。然而,当我们把这项技术应用于医学领域——分析 X 光片、CT 扫描或病理切片时——我们遇到了一堵巨大的墙: 数据匮乏 (Data Starvation) 。
为了训练一个能够理解通用图像的模型,我们在互联网上有数十亿计的图像-文本对可用。但要训练一个能够诊断特定肺部疾病的模型,我们需要由拥有执业资格的医生进行标注的高质量数据。这个过程极其昂贵、耗时,并且充满了隐私方面的顾虑。
那么,如果不花费数百万美元进行数据收集,我们该如何构建强大的医疗 AI 助手呢?
答案可能在于 自训练 (Self-Training) 。 在一篇引人入胜的新论文中,研究人员介绍了 STLLaVA-Med (用于医学的自训练大型语言和视觉助手) 。他们的方法非常巧妙: 不再仅仅依赖稀缺的人工标注数据,而是教模型生成自己的训练数据,并使用一位“老师”模型 (GPT-4o) 对其进行评分。
结果如何?一个仅使用之前最先进模型所需医疗数据 9% 的模型,却达到了具有竞争力的性能。

如上图 1 所示,数据量的差异令人咋舌。紫色柱状图 (STLLaVA-Med) 只有 LLaVA-Med 堆栈的一小部分,但右侧的性能图表显示它与那个极其依赖数据的前辈并驾齐驱,甚至超越了它。在这篇文章中,我们将详细拆解这个自训练流程究竟是如何工作的。
背景: 为什么医疗 VQA 如此困难
视觉问答 (VQA) 是一项任务,要求 AI 观察图像并回答关于它的自然语言问题。在医学领域,这看起来可能是这样的:
- 图像: 一张胸部 X 光片。
- 问题: “是否有胸腔积液的迹象?”
- 回答: “是的,肋膈角变钝……”
标准方法,如 LLaVA-Med , 依赖于一个两步过程:
- 对齐预训练 (Alignment Pre-training) : 分析成百上千的图像-说明对,以学习医学概念的样子。
- 指令微调 (Instruction Tuning) : 在问答对上进行微调,学习如何进行对话。
本文提出的 STLLaVA-Med 挑战了这一范式。研究人员认为,如果你有一个更聪明的训练策略,你并不一定需要那个海量的医疗数据对齐预训练步骤。
核心方法: 两阶段流程
研究人员提出了一个新的框架,将训练分为两个截然不同的阶段。目标是将一个通用用途的 LVLM (它知道“猫”是什么,但可能不知道“淋巴瘤”是什么) 转变为医疗专家。

如图 2 所示,该过程从“推理与学习提问” (阶段 1) 过渡到“偏好揭示” (阶段 2) 。让我们深入了解每一个阶段。
第一阶段: 推理与学习提问
在大多数训练流程中,模型是被动的——它只是阅读问题并试图预测答案。在 STLLaVA-Med 中,模型变成了主动的。研究人员修改了训练目标,使模型学习 提出 关于图像的问题,而不仅仅是回答它们。
他们使用了一种称为 自我提问 (Self-Questioning) 的技术。通过向模型输入图像 (\(H_v\)) 和对话历史 (\(H_c\)) ,模型被训练来预测下一个问题 (\(H_q\)) 以及随后的答案 (\(H_a\)) 。
这是通过在数学上最小化两个损失函数来实现的。首先是 视觉提问损失 (Visual Questioning Loss) :

该公式确保模型在基于图像视觉特征提出相关医学问题方面变得更好。
其次是 回答损失 (Answering Loss) :

这是一个标准的损失函数,确保模型能够正确回答问题。通过结合这两者,模型从一个简单的应答机器进化为一个好问的智能体,能够模拟关于医疗图像的对话。在这个阶段之后,模型就有能力生成自己的问答 (QA) 对了。
第二阶段: 通过 DPO 进行偏好揭示
在第一阶段结束时,我们拥有了一个可以生成医疗问答对的模型。但这些回答 好 吗?模型可能会产生幻觉,或者给出模糊的回复,比如“这张图显示了一个扫描件”。
为了解决这个问题,研究人员使用了 直接偏好优化 (Direct Preference Optimization, DPO) 。 这是一种通常用于将聊天机器人与人类偏好对齐 (使其既有帮助又无害) 的技术。在这里,它被用来使医疗助手变得精确和详尽。
回路中的“老师”: GPT-4o
收集人类偏好 (例如,问医生“回答 A 是否比回答 B 更好?”) 是昂贵的。研究人员创新性地使用 GPT-4o 作为模拟的医疗专家。
这是第二阶段的工作流程:
- 生成: 第一阶段的模型观察医疗图像并生成一个问题,随后生成 两个不同的回答 。
- 评分: 这些回答被发送给 GPT-4o。GPT-4o 分析图像和文本,并选出“赢家” (准确性更高、细节更多) 和“输家”。
- 优化: 模型经过微调,以最大化生成“赢家”回答的概率,同时抑制“输家”回答。
用于指导 GPT-4o 的提示词 (Prompt) 至关重要。它有效地告诉这个大模型扮演裁判的角色:

一旦确定了“胜” (\(a_w\)) 和“负” (\(a_l\)) 回答,就使用 DPO 损失函数更新模型:

在这个公式中,如果模型 (\(\pi_{\theta}\)) 偏好失败的回答,它就会受到惩罚;如果它与参考策略 (老师的偏好) 一致,就会得到奖励。这有效地引导模型在无需人类介入的情况下,朝着专业、详尽和准确的医学推理方向发展。
数据效率: 事半功倍
这篇论文最令人印象深刻的方面之一是数据统计。作者使用了一个名为 Med-IM 的数据集。让我们看看这些数字。

如表 1 所示,标准的 LLaVA-Med 方法需要在近 468,000 个图像-文本对上进行预训练 (\(LLaVA-Med_{pt}\)) 。相比之下, STLLaVA-Med (我们的方法) 完全跳过了那个巨大的预训练步骤。它只使用了一小部分图像 (约 3.7 万张) 来生成自己的指令数据。
这代表了一种范式转变: 如果你有一个足够强大的通用视觉模型和一个聪明的自训练循环, 医疗图像-文本对齐 (预训练) 可能是不必要的 。
实验与结果
研究人员在三个主要基准上测试了 STLLaVA-Med:
- VQA-RAD: 放射学问答。
- SLAKE: 英汉双语医疗 VQA (使用了英语子集) 。
- PVQA: 病理学视觉问答。
结果与 GPT-4o (零样本) 、LLaVA-v1.5 以及经过完全训练的 LLaVA-Med 等重量级模型进行了对比。

表 2 重点展示了“零样本 (Zero-Shot) ”性能 (即模型没有在这些特定的基准数据集上进行显式训练) 。
- 召回率与 F1 分数: STLLaVA-Med 普遍优于标准的 LLaVA-v1.5,并且非常接近甚至击败了经过完全训练的 LLaVA-Med。
- DPO 的影响: 表格显示了“STLLaVA-Med w/o DPO” (无 DPO 版本) 与最终版本的对比。DPO 步骤持续提升了性能,特别是在需要详细解释的“开放性 (Open) ”问题中。
定性分析: 眼见为实
数字固然重要,但在医学领域,解释的质量至关重要。这个模型听起来像医生吗?

在图 5 中,我们可以看到模型“思维过程”的进化。
- 问题: “这是什么类型的病变?” (最后一行) 。
- 无 DPO: 模型给出了一个简短且略显通用的回答,提到“软组织不均匀强化病变”。
- 有 DPO (STLLaVA-Med): 回答变得更加丰富。它将病变识别为“多房性囊性腹膜后肿瘤”,解释了位置 (“腹膜后”) ,并描述了内部结构 (“多重分隔”) 。
这种差异说明了由 GPT-4o 指导的 DPO 阶段的威力。模型不仅学会了 说什么,还学会了医学专家偏好的 风格 和 深度。
微调性能
作者还检查了模型在针对下游任务进行微调时的表现 (表 4) 。

即使在微调后,自训练模型仍然领先于基线 LLaVA-v1.5,证明了自训练阶段建立的基础提供了稳健的“医疗直觉”,并延续到了特定任务中。
结论与启示
STLLaVA-Med 论文为专用 AI 的未来提出了一个令人信服的论点。它解决“数据匮乏”问题的方法不是寻找更多数据,而是更好地利用我们已有的模型。
主要收获:
- 自训练行之有效: 你可以教模型提问然后自己回答,以提升其自身的推理能力。
- GPT-4o 作为代理: 使用强大的通用模型为较小的专用模型评分,有效地替代了昂贵的人工标注进行偏好学习。
- 效率: 我们仅用以前认为必要的 9% 的数据就能达到最先进的结果。
这种方法的意义不仅限于医学领域。任何数据稀缺、昂贵或隐私敏感的领域——从法律到工程——都可能从这种自我提问和自动偏好优化的循环中受益。STLLaVA-Med 证明了,有时,最好的学习方式就是问自己正确的问题。
](https://deep-paper.org/en/paper/2406.19973/images/cover.png)