在医疗人工智能 (AI) 领域,“模型看到的”与“模型知道的”之间长期存在着一种张力。
试想一位刚在急诊室上岗的住院医生。当一名患者表现出普通的流感症状时,医生凭经验就能立即做出诊断——因为这种病例他们已经见过上百次了。但是,如果一名患者表现出一组罕见的症状,指向某种特定的、鲜为人知的挤压综合征 (crush syndrome) 呢?如果在轮转期间没有见过具体的病例,这位住院医生可能会漏诊。
然而,优秀的医生不会仅凭记忆行事;他们会查阅医疗指南、教科书和协议。他们用外部知识来增强自己的经验 (数据) 。
目前大多数用于诊断预测的 AI 模型都严重依赖于经验——即在大规模电子健康记录 (EHR) 数据集上进行的训练。它们在应对“长尾”问题时往往力不从心: 它们非常擅长诊断常见病症 (分布的“头部”) ,但在罕见病 (分布的“尾部”) 上表现不佳,原因很简单——它们在训练中没有见过足够的样本。
这篇文章将深入探讨 DKEC (领域知识增强分类) , 这篇研究论文提出了一个巧妙的解决方案: 教 AI 模型在阅读患者病历的同时,查阅外部的“医学教科书” (知识图谱) 。
问题所在: 医学中的长尾效应
自动诊断预测涉及多标签文本分类 (MLTC) 。给定医生或急救人员的自由文本叙述 (例如: “患者被发现无反应,呼吸浅,瞳孔针尖样……”) ,目标是分配正确的诊断代码集。
这很困难,主要有两个原因:
- 组合爆炸: 患者很少只有一个问题。可能的疾病组合数量呈指数级增长。
- 数据不平衡: 医疗数据集遵循幂律分布。你可能有 10,000 个“胸痛”的例子,但只有 5 个特定化学中毒的例子。
标准的深度学习模型,包括像 BERT 这样的大型 Transformer,往往会偏向多数类。它们学会了很好地预测常见疾病,但经常忽略罕见疾病。虽然像 GPT-4 这样的大型语言模型 (LLM) 拥有丰富的内部知识,但它们的运行成本高昂,难以部署在医院设备上,并且仍可能产生幻觉或遗漏特定的临床协议细微差别。
解决方案: DKEC
研究人员推出了 DKEC,这是一个将 领域知识 直接整合到分类过程中的框架。DKEC 并没有寄希望于模型通过数百万个训练样本隐式地学习到“喘息”与“哮喘”有关,而是显式地为模型提供了一个图谱,其中“喘息”和“哮喘”是相连的。
架构概览
DKEC 的精妙之处在于它为理解患者创建了一条双路径。

如上方的 图 1 所示,该架构包含两个主要分支:
- 文本分支 (左) : 使用文档编码器 (如 CNN 或 BERT) 处理实际的患者记录 (叙述性文本) ,以理解当下的具体病例。
- 图分支 (右) : 处理“异构知识图谱”。该图谱包含通用的医学真理——诊断、症状和治疗之间的关系。
这两个分支在 异构标签级注意力 (HLA) 模块汇合,我们将对此进行详细探讨。但首先,这个图谱从何而来?
构建大脑: 自动化知识图谱构建
该论文的重要贡献之一是一种从维基百科、梅奥诊所 (Mayo Clinic) 和 EMS 协议等在线资源中自动构建医学知识图谱 (KG) 的方法。
人工构建知识图谱既缓慢又昂贵。研究人员使用 LLM (具体来说是 GPT-4) 配合思维链提示 (Chain-of-Thought prompting) 实现了这一过程的自动化。

图 2 展示了这个构建流程。这不仅仅是问 ChatGPT “哮喘的症状是什么?”这么简单,因为 LLM 可能会啰嗦、不一致或产生幻觉。作者设计了一个严谨的流程:
- 提示 (Prompting) : 他们使用了“单样本思维链”提示。这要求 LLM “一步一步地思考”——首先标记文本中的 token,然后检测跨度 (短语) ,最后验证关系 (确保症状确实是由疾病引起的,而不仅仅是在“不存在”的语境中提到) 。
- 抽取 (Extraction) : 系统提取三元组:
<疾病, 关系, 症状>或<疾病, 关系, 治疗>。 - 归一化 (Normalization) : 医学文本很混乱。“高温 (High temp) ”、“发烧 (fever) ”和“发热 (burning up) ”是一回事。系统使用 UMLS (统一医学语言系统) API 将这些不同的术语映射到单一的、标准化的医学概念 ID。
结果是一个 异构知识图谱 , 包含四种类型的节点: 诊断代码、症状、治疗和层级 (疾病之间的父/子关系) 。
核心方法: 它是如何工作的
一旦图谱构建完成,神经网络如何使用它呢?
1. 使用 HGT 进行图编码
模型需要将静态知识图谱转换为代表疾病的数学向量 (嵌入) 。它使用的是 异构图 Transformer (Heterogeneous Graph Transformer, HGT) 。
与标准的图神经网络不同,HGT 理解 疾病与症状 之间的关系在语义上不同于 疾病与治疗 之间的关系。
HGT 通过聚合邻居节点的信息来更新每个诊断节点的表示。因此,“哮喘”的向量经过数学调整,包含了来自“喘息” (症状) 和“吸入器” (治疗) 的信息。
诊断标签的最终表示 (\(D^*\)) 是通过对 HGT 输出进行线性变换获得的:

这里,\(D^*\) 是一个矩阵,其中每一行都是一个融合了丰富知识的向量,代表一种特定的疾病。
2. 异构标签级注意力 (HLA)
这是分类引擎的核心。我们拥有来自文本编码器的患者文档表示 (\(E_{Doc}\)),以及富含知识的疾病表示 (\(D^*\))。
标准的多标签分类可能只是池化文档文本并运行分类器。而 DKEC 则会问: 对于这个特定的疾病标签,患者笔记的哪些部分是相关的?
它计算文档中每个词针对每种可能疾病的 注意力分数 。

在这个方程中:
- \(\mathbf{a}_{Doc,k}\) 是第 \(k\) 个疾病标签的注意力权重。
- 它考察了文档特征 (\(E_{Doc}\)) 与特定疾病嵌入 (\(D_k^*\)) 之间的兼容性。
如果疾病标签是“心脏骤停”,而文档包含单词“CPR”,那么“心脏骤停”的图嵌入 (因为它“知道”关于 CPR 的知识) 将对该单词产生强烈反应,为其分配高注意力权重。
这些注意力向量针对所有 \(L\) 个标签进行堆叠:

然后,模型创建一个 标签级文本表示 (\(E_{Doc}^{attn}\))。这是针对每个可能的诊断量身定制的患者文档的独特视图。

3. 最终预测
最后,模型决定每个诊断的概率。它获取量身定制的文档表示,对其进行池化 (简化) ,并将其传递给线性分类器。

该模型使用二元交叉熵损失进行训练,将预测概率 (\(\hat{y}\)) 与真实标签 (\(y\)) 进行比较。

实验与关键结果
研究人员在两个截然不同的数据集上测试了 DKEC:
- MIMIC-III: 一个大规模的 ICU 电子健康记录数据集 (复杂,标签众多) 。
- EMS: 一个真实的救护车病人护理报告数据集 (混乱,时间紧迫) 。
他们将 DKEC 与最先进 (SOTA) 的基线方法进行了比较,包括专门的卷积神经网络 (如 CAML) 和大型预训练 Transformer (如 BioMedLM 和 GatorTron) 。
发现 1: 主导“长尾”
主要目标是提高在罕见疾病 (“尾部”类别) 上的表现。结果令人信服。DKEC 在尾部标签上显著优于基线方法——在 EMS 数据集上实现了 10.5% 的提升 , 在 MIMIC-III 的少样本类别上实现了 6% 的提升。
通过给予模型“教科书知识”,它不需要成千上万个例子就能识别出罕见病;它只需要看到文本中与图谱相匹配的症状即可。
发现 2: 小模型能以小博大
对于工程师和医院 IT 部门来说,最令人兴奋的发现也许是关于模型规模的。运行一个庞大的 27 亿参数模型 (如 BioMedLM) 既昂贵又缓慢。
研究人员将 DKEC 框架应用于较小的模型 (GatorTron,3.25 亿参数) ,并将其与巨大的 BioMedLM 进行了比较。

图 3 显示了在 EMS (a) 和 MIMIC-III (b) 数据集上的比较。
- 橙色/红色柱 (DKEC 模型) 的得分始终高于 蓝色/绿色柱 (基础模型) 。
- 关键在于,对比 325M 列与 2.7B 列。 DKEC 增强的 GatorTron (325M) 往往优于 基础 BioMedLM (2.7B) 。
这意味着,注入结构化领域知识使我们能够使用小近 10 倍的模型,同时获得相同甚至更好的性能。
发现 3: 可扩展性
如果我们添加数千种疾病,模型会崩溃吗?团队在具有 1,000、3,700 和 6,700 个标签的 MIMIC-III 子集上测试了性能。

图 4 说明,虽然随着任务变难 (标签增多) ,性能自然会下降,但 DKEC 模型 (橙色线) 始终保持在 SOTA 基线 (蓝色线) 之上。当拥有“完全知识”时 (1.0k 和 3.7k 子集) ,差距最大,这证明了知识图谱的质量与性能增益直接相关。
结论与启示
DKEC 论文强调了我们在医学等专业领域应用 AI 的方式发生了关键转变。我们不能仅仅依赖“大数据”,因为对于许多危急情况,大数据根本不存在。
通过结合 深度学习的统计能力 (阅读文本) 与 知识图谱的结构化推理 (理解医学) ,DKEC 为长尾问题提供了一个强有力的解决方案。
核心要点:
- 知识胜过规模: 配备外部知识图谱的小模型可以击败依赖死记硬背的大模型。
- LLM 作为工具: 大型语言模型非常适合用于构建知识库 (数据处理) ,即使它们对于作为分类器本身来说过于笨重。
- Attention is All You Need (加上知识) : 标签级注意力机制允许模型根据正在调查的疾病以不同的方式“阅读”患者笔记,从而模仿人类的临床推理。
这种方法为更可靠、可解释且高效的诊断助手铺平了道路,使其即使在最罕见的病例中也能有效运作。
](https://deep-paper.org/en/paper/2310.07059/images/cover.png)