引言
在当今的大数据时代,电子健康记录 (EHRs) 是一座巨大的信息宝库。它们掌握着训练 AI 模型的关键,这些模型能够预测疾病、推荐治疗方案并优化医院运营。然而,这些数据被锁在一道巨大的伦理和法律大门之后: 患者隐私。美国的 HIPAA 等法规强制规定,在数据用于二次研究之前,必须严格移除受保护的健康信息 (PHI) ——如姓名、日期、身份证号和地点。
这一过程被称为去标识化 (de-identification, de-ID) 。 虽然听起来很简单,但自动化去标识化在实际操作中却异常困难。一个训练用于识别某家医院记录中患者姓名的模型,当应用于另一家医院的数据时,往往会因为格式、医学术语和标注标准的不同而彻底失效。这种“泛化差距”是医疗 AI 面临的主要障碍。
此外,训练这些模型需要大量已标注的医疗记录数据集,而这些数据集本身就很难获取,因为……哪怕是用于训练的数据也包含隐私信息。这是一个“第22条军规”式的困境: 我们需要敏感数据来训练模型以去除敏感数据。
在这篇文章中,我们将探讨一篇最近的研究论文,它为这一僵局提出了一个巧妙的解决方案。研究人员介绍了一个利用 GPT-4 进行数据增强的框架。他们的方法可以生成高质量的合成临床数据来训练稳健的去标识化模型,同时确保在整个过程中不会泄露任何实际的患者隐私。
问题所在: 为什么去标识化模型难以泛化
要理解解决方案,我们必须首先了解问题的严重性。在自然语言处理 (NLP) 中,去标识化被视为一项命名实体识别 (NER) 任务。AI 阅读一段文本,并将特定的词标记为“患者姓名”、“医院”、“日期”等。
最先进的模型,例如基于 BERT 的模型 (特别是 BioBERT 或 ClinicalBERT) ,在与其训练数据相同的数据集上进行测试时,可以达到令人印象深刻的准确率 (F1 分数高于 0.97) 。然而,医疗数据并非千篇一律。一个数据集可能将日期写为“Nov 16th”,而另一个则使用“11/16/2023”。一个可能大写“DOCTOR SMITH”,而另一个则使用“Dr. Smith”。
当一个在某个数据集 (例如著名的 i2b2 2006 语料库) 上训练的模型在另一个数据集 (例如 i2b2 2014 )上进行测试时,性能会大幅下降。

如图 1 所示,这种退化是显而易见的。灰色柱状图代表模型在与其训练年份相同的数据上进行测试时的性能——分数很高。橙色柱状图代表跨数据集测试——在 2006 年数据上训练并在 2014 年数据上测试 (左图) ,反之亦然 (右图) 。
注意实体级 F1 (Entity-level F1) (每个图表中最右侧的一组) 的急剧下降。实体级 F1 衡量的是模型是否正确识别了敏感信息的确切开始和结束位置。当在 2006 数据集上训练并在 2014 数据集上测试时,准确率从接近 96% 暴跌至 63% 左右。在临床环境中,遗漏 37% 的隐私信息是不可接受的。
这种失败源于数据稀缺和上下文差异 。 根本没有足够多样化的公共医疗数据来训练一个能处理所有可能写作风格的模型。
解决方案: 隐私安全的数据增强
研究人员建议使用像 GPT-4 这样的大型语言模型 (LLMs) 来生成合成训练数据。通过创建成千上万条新的、人工生成的临床笔记,他们可以让去标识化模型学习更广泛的上下文和格式。
然而,在医疗保健中使用 LLM 会引入一个新的风险: 隐私泄露 。 你不能简单地将真实的患者记录上传到 GPT-4 API 并要求它“重写这个”。这样做会将 PHI 传输到第三方服务器,从而违反 HIPAA 法规。
增强流程
这篇论文的核心创新是一个允许 GPT-4 进行增强且不向模型暴露真实患者数据的流程。这个过程涉及一种称为 PHI 清除 (PHI-scrubbing) 的技术。

图 2 (面板 A) 展示了这个“单样本增强 (One-shot Augmentation) ”的工作流。让我们分解一下步骤:
- PHI 清除 (隐私护盾) : 在数据离开安全的本地服务器之前,脚本会识别真实的 PHI (例如“John Doe”、“General Hospital”) 并将其替换为通用占位符 (例如
[PATIENT]、[HOSPITAL]) 。 - 提示 GPT-4: 系统将这些已清除的文本作为模板发送给 GPT-4。它要求 GPT-4 生成一个新的、合成的临床笔记,该笔记要遵循所提供样本的格式,但使用不同的医疗背景和句子结构。提示明确指示 GPT-4 保留占位符。
- 生成: GPT-4 返回一个新的合成临床笔记,其中包含像
[PATIENT]和[DATE]这样的占位符。 - 替身回填 (Surrogate Refilling) : 回到本地服务器上,系统用虚构的替身数据 (例如来自公开列表的随机姓名、随机日期) 填充这些占位符。
结果就是一个全新的、完全标注的训练样本,它看起来像真实的病历,但不包含任何真实的患者信息,并且是在没有向 OpenAI 泄露秘密的情况下生成的。
提示工程: 单样本 vs. 零样本
研究人员探索了两种提示 LLM 的方法: 单样本 (One-shot) 和零样本 (Zero-shot) 。

单样本提示
如图 4 左侧所示, 单样本提示向 GPT-4 提供了一个经过 PHI 清除的笔记示例。指令本质上是: “这是一个带有占位符的医疗笔记示例。写一个新的、不同的笔记,并遵循这种风格。”
这种方法有助于 LLM 理解病历的具体结构和语气 (例如“出院小结”、“现病史”) 。当你拥有少量现有数据集并希望将其扩充时,这是理想的选择。
零样本提示
零样本提示 (图 4 右侧) 不提供任何示例 。 它只是给模型一系列指南和任务描述: “制作一份去除了 PHI 的合成患者报告……使用精确的医学术语……均匀地使用以下列表中的标签。”
这种方法非常引人入胜,因为它模拟了医院没有任何可用训练数据的情况。它完全依赖于 GPT-4 内部关于病历应该是什么样子的知识。
实验与结果
为了验证这种方法,作者使用 i2b2 2006 和 i2b2 2014 数据集进行了严格的实验。这些是该领域的标准基准,正如引言中所述,它们具有非常不同的标注标准。
目标是观察混合合成数据与真实数据 (或仅使用合成数据) 是否可以修复泛化差距。
单样本增强带来的提升
研究人员将原始训练数据与越来越多的合成数据相结合 (用 \(\alpha\) 表示,其中 \(\alpha=5\) 意味着为每个原始笔记添加 5 个合成版本) 。

表 2 展示了跨数据集测试的结果。关键的比较是在“无增强 (No Aug) ”基线和“+ 单样本增强 (+ One-shot Augmentation) ”列之间。
- 显著收益: 当在 2006 上训练并在 2014 上测试时 (“2006 → 2014”) ,Bio+Clinical BERT 模型的实体级 F1 (E) 从 64.03% (无增强) 跃升至 82.36% (\(\alpha=5\)) 。这是一个超过 18 个百分点的巨大提升。
- 击败基于规则的方法: 该表还将此方法与之前的基于规则的增强技术 PHICON 进行了比较。GPT-4 方法始终优于 PHICON,特别是在严格的实体级指标中。这表明 GPT-4 提供的语言多样性优于简单的同义词替换。
按类别分析性能
查看模型在哪些方面得到了改进也很有帮助。它在查找姓名、日期还是医院方面变得更好了吗?

图 3 按 PHI 类别分解了 F1 分数。
- Base (灰色) : 仅在原始数据集上训练的模型。
- One (蓝色) : 使用单样本增强训练的模型。
- Zero (橙色) : 仅使用零样本合成数据训练的模型。
蓝色柱状图 (单样本) 在几乎所有类别中始终最高。值得注意的是,在 ID 和 Contact (联系方式) 类别中,增强模型显示出相对于基线的剧烈改进。这很可能是因为合成数据引入了比小型原始数据集中存在的更广泛的 ID 格式和电话号码样式。
零样本的力量 (无中生有的数据)
也许最令人惊讶的发现来自零样本实验。在这种设置下,模型完全在 GPT-4 生成的合成数据上进行训练,没有见过任何真实的医疗记录。
* (更正: 虽然此处讨论的是表 3,但提供的图片集中的视觉参考在文本中标记为表 3,但实际图片内容包含表 1、表 2、表 4 和附录表格。我们将根据文本逻辑继续描述,并参考可用的图 3 中的零样本列。) *
再次参考图 3 中的 “Zero” (橙色) 柱状图,我们看到完全在合成数据上训练的模型通常优于在真实 (但域外) 数据上训练的“Base”模型。例如,在 ID 类别中,零样本模型显著击败了 Base 模型。
这意味着,如果一家医院完全没有任何已标注的数据作为开始,他们可以使用 GPT-4 生成一个纯合成数据集,并训练出一个性能相当不错的模型——有时甚至比使用来自另一家机构的旧的、不匹配的数据集效果更好。
差距依然存在
虽然改进是巨大的,但问题并没有完全解决。

表 4 将增强后的跨数据集性能与“数据集内 (Within-dataset) ”性能 (在同一数据源上训练和测试) 进行了比较。即使有最好的增强,跨数据集得分 (例如 82.36% 的实体 F1) 仍然低于数据集内得分 (96.46%) 。
这表明,虽然合成数据弥合了差距,但并没有完全消除它。本地数据分布中仍然存在通用合成数据无法完美模仿的细微差别。
结论与启示
这项研究解决了医疗 AI 中的一个关键瓶颈。我们需要去标识化系统来释放医疗记录的价值,但我们缺乏构建这些系统的共享数据。
该论文证明, 生成式 AI 可以充当隐私安全的桥梁。通过使用“清除并提示 (Scrub-and-Prompt) ”方法:
- 隐私得到保护: 真实的患者数据从未接触过 LLM API。
- 数据多样化: GPT-4 生成了基于规则的方法无法比拟的多样化句子结构和医疗背景。
- 性能提升: 模型对新医院和数据集的泛化能力显著提高。
零样本方法的成功对于小型机构或资源不足的语言 (不存在已标注医疗数据集) 尤其有希望。研究人员可能很快就能“提示”出一个数据集,从而启动他们的隐私工具并加快医学研究的步伐,而不必花费数月时间手动标注记录。
](https://deep-paper.org/en/paper/file-3132/images/cover.png)