引言
开发新药众所周知地困难,而在神经学领域,这种挣扎尤为明显。例如,阿尔茨海默病临床试验的失败率历史上一直徘徊在 99% 以上。数十亿美元的资金和几十年的研究往往未能带来可行的治疗方法。然而,即便是失败的试验也包含着数据金矿。每一个注册的试验都代表了一个假设、一种方法论,以及针对特定人群测试的特定干预措施。
综合这浩如烟海的证据可以揭示人类研究人员可能会错过的模式。但这里存在一个瓶颈: 数据被困在像 ClinicalTrials.gov 这样的临床试验注册库中的非结构化文本里。为了理解这些数据,我们需要能够“阅读”这些注册信息的人工智能 (AI) 。
这就引出了 命名实体识别 (Named Entity Recognition, NER) , 这是一种自然语言处理 (NLP) 技术,能够自动识别文本中的关键信息。虽然 NER 很常见,但现有的数据集很少关注试验注册库中那些杂乱的摘要文本,而且几乎从未专门针对神经学领域。
于是, NeuroTrialNER 应运而生,这是一项旨在弥合这一鸿沟的研究成果。在这篇文章中,我们将探讨研究人员如何为神经学临床试验创建一个新颖的、由人工标注的数据集,以及他们如何使用该数据集来训练最先进的 AI 模型。我们将带您了解语料库的创建过程、医学标注的独特挑战,以及专门的 BERT 架构与著名的 GPT 系列之间的“模型之战”。
背景: 神经学领域的数据难题
在深入探讨解决方案之前,我们必须先了解背景。临床研究人员依赖证据综合——即系统地审查数据以得出结论。公共注册库是这种透明度的基石。
然而,注册库的数据非常杂乱。临床试验的摘要不是整洁的数据库行;它是由人类撰写的一段文字,充满了行话、缩写和多变的术语。例如,一位研究人员可能写“Alzheimer’s Disease (阿尔茨海默病) ”,另一位写“AD”,第三位写“cognitive impairment (认知障碍) ”。机器需要知道这些都指向相关的概念。
该领域现有的大多数 AI 工具都是在 PubMed 摘要 (已发表的学术论文) 上训练的。虽然很有价值,但已发表的论文与注册条目有很大不同。注册信息是前瞻性的——它们描述了计划发生的事情,通常使用不同的语言结构。为了构建能够有效通过药物开发领域的工具,我们需要一个专门源自这些注册库的数据集。
解决方案: NeuroTrialNER
研究人员推出了 NeuroTrialNER,这是一个“金标准”标注语料库。“金标准”意味着数据是由人类专家标记的,为 AI 模型提供了可供学习的基本真值 (Ground Truth) 。
数据收集与范围
团队首先下载了 AACT (ClinicalTrials.gov 聚合分析) 数据库。他们利用包含来自 ICD-11 和 MeSH 术语的 16,000 多个疾病名称的自定义列表,过滤了这个庞大的存储库,以分离出与神经和精神疾病相关的试验。
在超过 35,000 个相关的干预性试验中,他们抽取了 1,093 个摘要进行人工标注。这不仅仅是关键词搜索;它需要理解 PICO 框架:
- Population (人群) : 疾病/病情
- Intervention (干预) : 药物或疗法
- Control (对照) : 比较对象,如安慰剂
- Outcome (结果) : 试验结果
标注过程
这篇论文的核心贡献在于标记数据本身。三名独立的标注者 (包括一名医学博士和一名高年级医学生) 阅读了试验摘要并高亮了特定的文本片段。
他们将实体分类为复杂的类别。仅仅说“治疗”是不够的。他们区分了:
- DRUG (药物) : 化学物质 (例如: 阿司匹林、褪黑素) 。
- CONDITION (病情) : 正在研究的疾病 (例如: 中风、帕金森病) 。
- CONTROL (对照) : 比较物 (例如: 安慰剂、假手术) 。
- BEHAVIOURAL (行为) : 如 CBT (认知行为疗法) 等疗法。
- SURGICAL (手术) : 侵入性程序。
- RADIOTHERAPY (放疗) : 辐射治疗。
- PHYSICAL (物理) : 康复或锻炼。
- OTHER (其他) : 其他任何内容 (例如: 膳食补充剂、应用程序) 。
这种粒度至关重要。如下图所示,定义什么算作“药物”或“干预”需要在化学和治疗定义的复杂层级中进行导航。

标注者使用名为 Prodigy 的工具来执行这些标签。该界面允许他们高亮文本并分配标签。这种视觉语境有助于我们理解 AI 最终必须执行的任务: 阅读密集的段落并挑选出特定的医学术语。

人类分歧与复杂性
这项研究最具教育意义的一个方面是意识到即使是人类专家也会产生分歧。定义医学实体的边界是主观的。
例如,如果文本提到“mild cognitive impairment (轻度认知障碍) ”,一位标注者可能高亮整个短语,而另一位可能只高亮“cognitive impairment (认知障碍) ”。或者,考虑像“autologous incubated macrophages (自体孵化巨噬细胞) ”这样的复杂疗法。这是 DRUG (因为它是一种物质) 还是 SURGICAL (因为它涉及组织移植) ?
研究人员使用 Cohen’s kappa 分数分析了 标注者间一致性 (IAA) 。 他们达到了 0.77 的分数,这表明一致性很高。然而,查看下面的混淆矩阵可以揭示困难所在。

在这个矩阵中,我们可以看到像 RADIOTHERAPY (放疗) 这样独特的类别在对角线上有很高的一致性 (深蓝色) 。然而,请注意 BEHAVIOURAL (行为) 和 OTHER (其他) , 或 SURGICAL (手术) 和 OTHER (其他) 之间的混淆。这凸显了医学文本中固有的模糊性——这也是 AI 模型稍后将面临的挑战。
语料库里有什么?
最终的数据集提供了当前神经学研究领域的快照。通过分析标注标签的频率,研究人员确定了正在研究的最常见的疾病和治疗方法。

如上图所示, Stroke (中风) 、Parkinson’s (帕金森) 和 Pain (疼痛) 在“病情”类别中占主导地位。在“对照”类别中, Placebo (安慰剂) 绝大多数是最常见的实体,这在临床试验中是意料之中的。有趣的是,在“物理”干预下, Exercise (锻炼) 是首要策略,凸显了神经学对康复的关注。
实验: BERT 对战 GPT
随着数据集的建立,研究人员进入了实验阶段。他们想要回答一个关键问题: 哪种 AI 架构更擅长提取这种特定的临床信息?
他们比较了两种主要方法:
- 微调的 BERT 模型: 他们使用了像 BioBERT 和 BioLinkBERT 这样的模型。这些是“较小”的大型语言模型 (LLM) ,专门在生物医学文本 (如 PubMed) 上进行了预训练,然后在新的 NeuroTrialNER 数据集上进行了进一步训练 (微调) 。
- 零样本 GPT 模型: 他们使用了 GPT-3.5 和 GPT-4 。 这些是通用的大型模型。研究人员没有在数据集上训练它们;相反,他们使用“提示工程 (prompting) ”要求模型提取实体。
GPT 的提示工程直截了当。他们通过 API 向模型提供临床试验文本和特定的指令。

评估指标
为了评判模型,研究人员使用了 F1 分数 , 该分数平衡了精确率 (提取的实体中有多少是正确的) 和召回率 (模型成功找到了多少真实实体) 。
他们查看了两种类型的匹配:
- 严格匹配 (Strict Match) : 模型必须识别出与人类完全相同的单词 (例如,“mild cognitive impairment”) 。
- 部分匹配 (Partial Match) : 如果模型识别出核心概念,即使边界稍有偏差 (例如,目标是“mild cognitive impairment”时识别出“cognitive impairment”) ,也会获得认可。部分匹配在捕捉总体概念即足矣的实际应用中通常更有用。
结果: 谁赢了?
结果表明,对于这项特定任务,有一个明显的赢家。专门的、微调后的模型( BioBERT 和 BioLinkBERT )明显优于通用的 GPT 模型,甚至优于 GPT-4。

上图展示了性能差距。
- BioBERT (橙色点) : 在几乎所有类别中得分均很高。它的 F1 分数达到了 0.81 , 这与人类的表现相当。
- GPT-4 (绿色点) : 在像 DRUG 和 CONDITION 这样的常见类别中表现尚可,但在像 PHYSICAL 和 BEHAVIOURAL 疗法这样的小众类别中挣扎明显。
- 基线 (粉色/灰色) : 简单的字典查找 (RegEx) 表现不佳,证明了仅仅将单词与列表进行匹配是行不通的——上下文很重要。
为什么 BioBERT 赢了?
BioBERT 的成功源于两个因素。首先,它在生物医学文本上的 预训练 意味着它已经“懂”医学语言。它知道“心肌梗死”是一种病情,而“布洛芬”是一种药物。其次,在 NeuroTrialNER 数据集上的 微调 使其能够学习人类使用的特定标注规则 (例如,将“干细胞”归类为 SURGICAL) 。
GPT-4 虽然聪明,但在“零样本”模式下运行。它产生了幻觉信息 (编造不存在的药物) 或提供了过多的细节 (提取“7周的户外步行”而不仅仅是“户外步行”) 。
你需要多少数据?
对于资源有限的学生和研究人员来说,一个常见的问题是: “我需要成千上万个标注示例吗?”研究人员通过在不断增加的数据集比例上训练 BioBERT 来测试这一点。

学习曲线显示,在大约 50% 的数据量之前,性能有快速提升。之后,增益递减。这是令人鼓舞的——它表明一个中等规模、高质量的数据集 (大约 500-600 篇文档) 通常足以将专门的模型微调至高性能。
结论与启示
NeuroTrialNER 的发布是生物医学信息学向前迈出的重要一步。研究人员提供了两个关键贡献:
- 语料库: 一个免费提供的、由专家标注的数据集,填补了神经学研究的关键空白。
- 基准: 证明了在精确的临床信息提取方面,专门的、微调后的模型目前优于通用的 LLM。
通过使计算机能够准确地结构化临床试验的杂乱文本,我们为自动化元分析铺平了道路。想象一下,一个系统可以扫描今天注册的每一个新试验,并即时更新有希望的阿尔茨海默病治疗方法的仪表板。这就是这项研究所支持的未来。
对于有抱负的数据科学家或医学研究人员来说,这篇论文强调了一个至关重要的教训: 数据质量往往胜过模型规模。 在干净、特定领域的数据集上训练的小型模型可以击败房间里最聪明的通用 AI。
](https://deep-paper.org/en/paper/file-3422/images/cover.png)