引言
医疗保健的数字化转型为我们提供了海量的数据。电子健康记录 (EHR) 追踪从常规检查到危重诊断的方方面面,建立了丰富的患者健康档案。然而,拥有数据与有效地利用数据预测未来是两码事。现代医学 AI 面临的最严峻挑战之一就是预测疾病进展和共病 (comorbidity) ——即患有一种疾病 (如糖尿病) 的患者患上另一种疾病 (如心脏病) 的可能性。
传统上,研究人员依赖静态数据和标准机器学习模型来处理这些数字。虽然在一定程度上有效,但这些方法通常将疾病视为孤立的数据点或僵化的数学节点,忽略了连接它们之间复杂、微妙的生物学和临床叙事。它们缺乏“世界知识”。
这就引出了一个引人深思的问题: 大语言模型 (LLM) ——ChatGPT 背后的技术——能否弥合这一差距?LLM 在理解文本、语境和语义关系方面比以往任何 AI 架构都更出色。但它们能理解疾病网络的数学结构吗?
在这篇文章中,我们将探讨一个名为 ComLLM (基于 LLM 的疾病共病预测) 的新颖框架。这项研究调查了将 LLM 的推理能力与图论的结构严谨性相结合,是否能增强我们预测疾病进展的能力。
背景: 共病挑战
要理解这项研究的重要性,我们首先需要了解共病问题。共病是指单个患者同时患有多种健康状况。它使治疗复杂化,增加了医疗成本,并导致更差的患者预后。
预测共病不仅仅是看患者当前的血液检测结果。它需要理解疾病之间隐藏的关系。例如,关节炎和心血管疾病经常并存,这不仅仅是偶然,而是由于共同的潜在机制或风险因素。
传统方法的局限性
多年来,研究人员利用疾病网络对这些关系进行建模。想象一个图,其中每个圆圈 (节点) 是一种疾病,连接它们的每条线 (边) 代表已知的关系或共病。
预测新共病的任务在数学上被称为链路预测 。 如果我们能预测“疾病 A”和“疾病 B”之间有一条新边,我们本质上就是在预测患有 A 的患者有患 B 的风险。
链路预测的标准方法包括:
- 启发式方法: 简单的规则,如“共同邻居”。如果疾病 A 和疾病 B 与其他疾病有许多相同的连接,它们很可能是相关的。
- 图神经网络 (GNN) : 专为处理图数据而设计的先进深度学习模型。虽然强大,但 GNN 通常将节点视为抽象的数学向量。它们难以整合外部医学知识 (如新的研究论文) 或语义细微差别。
大语言模型登场
LLM 已经彻底改变了自然语言处理 (NLP) 。它们擅长阅读医疗报告和回答健康问题。然而,将它们应用于网络预测是一个未被探索的领域。LLM 擅长处理文本,但它们并非天生设计用于理解图拓扑 (连接的形状和结构) 。
ComLLM 背后的研究人员提出了一种混合方法: 如果我们能将疾病网络的数学结构转化为自然语言,并将其与存储在 LLM 中的海量医学知识相结合,会发生什么?
核心方法: ComLLM 框架
这篇论文的核心创新是 ComLLM 。 这是一个整合领域知识 (医学事实) 、节点特定信息 (疾病描述) 和结构数据 (网络连接) 来预测疾病间关系的框架。
这个过程不是简单地对 LLM 进行“即插即用”。它涉及一个复杂的管道设计,旨在为语言模型提供做出准确预测的最佳机会。

如上图 1 所示,该框架通过两条不同的路径运行,最后汇聚成针对 LLM 的最终提示。让我们分解一下这个架构的关键组件。
1. 疾病特征生成
在许多原始数据集中,疾病仅仅是一个标签 (例如,“ID: 765,标签: 高血压”) 。这对于 LLM 来说是不够的。为了利用模型的语义能力,研究人员首先丰富了数据集。
他们使用 GPT-4 为网络中的每个节点生成全面的文本特征。系统不仅生成名称,还生成疾病症状、病因和特征的详细描述。

图 2 展示了这一步骤。模型充当医学专家,检索或生成诸如“组织细胞瘤”或“关节病”等疾病的描述。这将稀疏的标签图转换为丰富、语义密集的网络,其中每个节点都承载着一段医学背景信息。
2. 图提示: 教 LLM 学习“拓扑结构”
使用 LLM 处理图的最大障碍之一是 LLM 处理的是线性文本,而不是空间网络。如果你简单地问 LLM,“疾病 A 与疾病 B 有关吗?”,它完全依赖于其预训练记忆。它忽略了你正在分析的患者网络的特定数据结构。
为了解决这个问题,研究人员引入了图提示 (Graph Prompting) 。 他们将图的数学属性转化为英语句子。

图 3 展示了这种转变的威力。
- 标准提示 (左) : 仅根据名称询问阿尔茨海默病和双相情感障碍之间的联系。如果训练数据没有强调这种联系,它可能会说“不”。
- 图提示 (右) : 提示包含了结构数据: “疾病 A 有 X 个连接……它们共享共同邻居……”通过明确指出这两种疾病在网络中共享许多共同邻居,LLM 可以使用逻辑推理 (“共享邻居通常意味着存在联系”) 来得出正确的“是”的结论。
3. 检索增强生成 (RAG)
即使有图提示,LLM 仍可能“产生幻觉”——自信地陈述不真实的事实。在医疗保健领域,准确性是不可妥协的。
为了使模型立足于现实,ComLLM 采用了检索增强生成 (RAG) 。
- 数据库: 研究人员利用 PubMed 上的 892 篇医学论文创建了一个向量数据库。
- 检索: 在回答预测查询之前,系统会在该数据库中搜索与相关特定疾病有关的学术文献。
- 增强: 这些检索到的论文内容将与图提示一起输入到 LLM 中。
这确保了模型不仅是基于一般训练进行猜测,而是在综合主动检索到的医学研究来做出决策。
实验与结果
研究人员针对一系列基线模型对 ComLLM 进行了严格测试。
数据集: 他们使用了两个主要网络:
- 人类疾病网络: 一个较小、较密集的疾病网络。
- 人类症状-疾病网络: 连接疾病与其症状的庞大网络 (超过 100 万条边) 。
基线模型: 他们将 ComLLM 与以下模型进行了比较:
- 启发式方法: 共同邻居 (CN)、Adamic-Adar (AA)。
- 嵌入方法: Node2Vec、矩阵分解 (Matrix Factorization)。
- 图神经网络 (GNN): GCN、GraphSAGE 和 SEAL (链路预测的最先进模型) 。
主要性能分析
结果是决定性的。ComLLM 始终优于传统方法。

表 2 突显了所提出方法的优势。
- 击败最佳模型: 之前的最先进模型 SEAL 在人类疾病网络上实现了 0.8038 的 AUC (曲线下面积) 。
- ComLLM 的飞跃: 由 GPT-4 驱动的 ComLLM 实现了 0.8898 的 AUC。这是超过 10% 的提升,在机器学习研究中是一个巨大的幅度。
- 一致性: 这一模式在更大的症状-疾病网络中同样成立,ComLLM 在该网络中也保持了对 GNN 基线的明显领先优势。
值得注意的是不同 LLM 版本之间的性能差异。Llama 2 难以击败基线模型,可能是因为推理能力较弱。然而,Llama 3 和 GPT-4 表明,随着底层模型变得更聪明,该框架的有效性会大幅提升。
为什么有效?提示策略的影响
研究人员并没有止步于“我们的模型更好”。他们进行了消融研究,以了解是框架的哪些部分推动了成功。他们测试了四种配置:
- 零样本 (Zero-shot): 仅询问 LLM (无示例) 。
- 少样本 (Few-shot): 给 LLM 一些疾病关联的示例。
- 思维链 (COT): 要求 LLM 逐步思考。
- 图提示 + RAG: 完整的 ComLLM 体验。

如表 3 所示,“零样本”性能 (AUC 0.6537) 表现平平。模型拥有通用知识,但缺乏针对性。
- 添加图信息 (图提示) 后,分数跃升至 0.8245 。 这证明告诉 LLM 网络拓扑结构至关重要。
- 添加 RAG (检索) 后,分数推高至最终的 0.8898 。
这种逐步的改进证实了单靠 LLM 或单靠图数据都是不够的。正是结构化图数据与检索到的医学文本的综合,才释放了高性能。
模型比较: 开源与专有
最后,该研究探讨了开源模型 (如 Meta 的 Llama 系列) 能否与 OpenAI 的 GPT-4 竞争。

表 4 揭示了一个有趣的趋势。大规模开源模型 Llama 3.1 405B 取得了非常接近 GPT-4 的结果,在集成 RAG 后 AUC 达到约 0.81 。 即使是较小的 Llama 3 8B 模型,在图提示和 RAG 的增强下也表现出可观的性能。这表明 ComLLM 框架具有鲁棒性,只要底层模型具备足够的推理能力,就可以部署在各种模型上。
结论与启示
ComLLM 论文代表了医疗 AI 领域向前迈出的重要一步。它超越了传统图神经网络中使用的数字向量“黑盒”,拥抱了一种语义丰富且可解释的方法。
主要收获:
- LLM 是图学习者: 当提供图结构的正确文本表示 (图提示) 时,LLM 对网络拓扑的推理能力优于专用的 GNN。
- 语境为王: 检索增强生成 (RAG) 的集成确保预测基于经过验证的外部医学知识,从而显著提高准确性并减少幻觉。
- 诊断的未来: 该方法作为一个概念验证。它表明未来的诊断工具不仅可以将患者病史分析为一串代码,还可以将其视为全球疾病交互网络中的叙事,在并发症发生之前进行预测。
尽管挑战依然存在——特别是与简单的 GNN 相比,运行这些大型模型的计算成本很高——但性能的提升为将大语言模型整合到基于网络的疾病预测中提供了令人信服的理由。随着模型变得更加高效和强大,像 ComLLM 这样的系统可能会成为主动健康管理的标准工具。
](https://deep-paper.org/en/paper/file-2839/images/cover.png)