引言: 临床 AI 的高风险世界

想象一下,一位医生在完成一场复杂的手术后正在口述笔记。病人有心律失常的病史,对特定药物过敏,并且有一个新的处方计划。现在,想象一下人工智能 (AI) 系统正在为病人的出院文件总结这些笔记。如果 AI 产生了幻觉 (Hallucination) ——凭空捏造了病人从未服用过的药物,或者遗漏了关键的过敏史——后果可能危及生命。

像 GPT-4 和 Llama 这样的大语言模型 (LLM) 彻底改变了文本摘要技术。它们流畅、连贯且迅速。然而,它们遭受着一个持久的缺陷: 幻觉 。 在创意写作中,幻觉可能是一个有趣的特性;但在临床自然语言处理 (NLP) 中,它是一个危险的缺陷。

为了解决这个问题,我们通常依赖人类反馈强化学习 (RLHF) 。 我们要求人类专家审查 AI 的输出,对其进行纠正,并将这些数据反馈给模型。但在医疗保健领域,这种方法碰壁了。专家医生的费用极其昂贵且时间紧迫,而且病人数据受到严格的隐私法律 (如 HIPAA) 保护。我们不能简单地将临床数据众包给普通大众进行标注。

这把我们引向了一篇引人入胜的研究论文: SYNFAC-EDIT 。 研究人员提出了一个新颖的解决方案: 如果我们无法轻易获得人类专家,为什么不利用最强大的 LLM (如 GPT-4) 充当“合成专家”呢?通过教导这些巨型模型模拟医生的编辑过程,我们可以生成大量的训练数据,来教导更小、更便宜且符合隐私合规要求的模型 (如 Llama-2 或 GPT-2) 如何保持事实准确性。

背景: 为什么标准训练还不够

在深入了解解决方案之前,我们必须理解语言模型传统训练方式存在的问题。

监督微调 (SFT) 的缺陷

大多数模型都经历过监督微调 (Supervised Fine-Tuning, SFT) 。 在这个过程中,模型会收到一份临床笔记和一份由人类编写的“基准真相 (Ground Truth) ”摘要。模型尝试逐字预测该摘要。

问题在于 SFT 是不加区分的。如果模型拼错了 “the”,损失函数会惩罚它。如果模型将 “10mg” 改为 “100mg”,损失函数也会惩罚它。SFT 往往对语法小瑕疵和危险的医疗错误同等对待。它无法本质上理解一个错误只是令人恼火,而另一个错误却是致命的。

对齐差距

为了解决这个问题,研究人员使用偏好数据 (成对的“好”与“坏”摘要) 来对齐模型。这使得模型能够学习价值观,而不仅仅是单词概率。像 DPO (直接偏好优化) 这样的方法在这里显示出了巨大的潜力。

然而,偏好数据通常需要人类查看两个摘要并说: “摘要 A 比摘要 B 好。”SYNFAC-EDIT 背后的研究人员认为这还不够。真正的医生不只是给摘要评分;他们会编辑摘要。他们划掉错误的剂量说明并写上正确的。这种编辑反馈 (Edit Feedback) 是更丰富的学习信号,但也是最难大规模收集的数据。

核心方法: 合成模仿编辑反馈

SYNFAC-EDIT 流程旨在解决数据稀缺问题,它使用超大型 LLM (>1000亿参数) 生成高质量的编辑反馈,然后用于训练更小、较弱的模型 (<100亿参数) 。

研究人员设计了一个巧妙的流程,通过两个不同的方向来生成训练数据。让我们看看其架构。

该图展示了训练 LLM 进行临床笔记摘要任务的三种方法。方法 (a) 是简单微调。方法 (b) 和 (c) 涉及合成生成流程: 使用低质量合成专家生成事实改进的摘要,或使用高质量合成专家生成幻觉摘要,并通过 DPO/SALT 算法对较弱的 LLM 进行对齐训练。

如图 1 所示,标准方法 (a) 简单但受限。该论文提出的方法引入了两条新路径 (b) 和 (c),我们将详细拆解。

方向 1: High \(\rightarrow\) Low (生成幻觉)

这种方法如图 1(c) 所示,乍一看似乎违反直觉。为什么我们要生成的摘要?

对齐训练的目标是向模型展示事实性摘要与幻觉摘要之间的区别。由于我们已经有了“基准真相” (人类编写的摘要) ,我们将该摘要视为高质量 (偏好) 选项。我们需要一个对应的低质量 (非偏好) 选项来组成一对。

研究人员提示“合成专家” (如 GPT-4) 获取一个完美的摘要,并利用特定的编辑操作故意插入幻觉。通过控制摘要被“破坏”的具体方式,他们创建了一个看起来合理但在医学上错误的完美负面样本。

方向 2: Low \(\rightarrow\) High (修正错误)

这种方法如图 1(b) 所示,反映了现实世界的情况。

  1. 一个较弱的模型 (如基础 GPT-2 或 Llama-2) 生成一个摘要。它可能包含错误。
  2. “合成专家” (GPT-4) 对照原始临床笔记审查这份草稿。
  3. 专家编辑草稿以修正事实错误,创建一个高质量版本。

现在,模型拥有了一对数据: 原始的有缺陷草稿 (非偏好) 和合成专家的修正版 (偏好) 。

编辑剖析

研究人员不仅仅是要求 GPT-4 “重写这段话”。他们强制模型生成明确的编辑指令 。 这模仿了老师批改试卷的过程。为了保持控制,他们将编辑限制为两种特定操作: 添加 (ADD)省略 (OMIT)

表 6 描述了 ADD 和 OMIT 操作。对于幻觉生成 (High to Low) ,ADD 包含非必要词汇,OMIT 移除必要词汇。对于事实性改进 (Low to High) ,逻辑则相反。

如表 6 定义:

  • 为了提高事实性 (Low \(\rightarrow\) High): 专家使用 ADD 来包含遗漏的医学法律上必要的信息,并使用 OMIT 来移除错误或非必要的废话。
  • 为了诱导幻觉 (High \(\rightarrow\) Low): 专家做相反的操作——省略必要细节 (制造危险的空白) 或添加非必要/错误的信息。

这种结构化的方法确保了反馈是精确且医学相关的,而不仅仅是风格上的修改。

对齐算法: DPO 和 SALT

一旦生成了这个“原始 vs. 编辑后”的合成数据集,较弱的模型如何从中学习?该论文采用了两种先进的对齐算法:

  1. DPO (直接偏好优化) : 这实际上是在告诉模型: “当给定这份临床笔记时,生成‘偏好摘要’的概率应该上升,而生成‘非偏好摘要’的概率应该下降。”
  2. SALT (序列对齐学习) : 这种技术专为编辑反馈设计。它对两个摘要进行对齐,以确切识别哪些 Token 发生了变化。它奖励模型保留好的部分 (两个摘要的交集) 和偏好摘要中独特的部分,同时惩罚坏摘要中独特的部分。

实验与结果

研究人员利用两个不同的“合成专家” (GPT-3.5 和 GPT-4) 来训练两个不同的“较弱模型” (GPT-2 和 Llama-2-7B) 。他们在 MIMIC-III 数据集 (临床文本的标准基准) 上评估了结果。

验证合成专家

在看学生是否学到了东西之前,我们必须检查老师是否称职。GPT-4 和 GPT-3.5 是否真的正确遵循了 ADD 和 OMIT 事实的指令?

人类标注者 (医学生和医生) 审查了合成编辑。结果突显了模型之间的显著差异。

条形图比较了不同模型的编辑指令类别。上图显示了所有编辑的百分比,下图显示了被标记为实际幻觉或事实性辅助的编辑百分比。

图 2 揭示了一个有趣的趋势。上图显示了编辑的数量。然而,下图更能说明问题——它显示了有多少编辑实际产生了预期的结果 (幻觉或事实性改进) 。

GPT-4 被证明是一个更严格、更准确的指导者。 它比 GPT-3.5 更好地遵循了提示约束。有趣的是,数据显示生成幻觉 (High \(\rightarrow\) Low) 比尝试修正错误 (Low \(\rightarrow\) High) 能产生更高质量的偏好数据。这表明,对于模型来说,令人信服地破坏一个摘要要比完美地修复一个破碎的摘要更容易。

较弱的模型有进步吗?

终极测试是 Llama-2 和 GPT-2 在接受这些合成数据训练后,总结临床笔记的能力是否变强了。

研究人员使用以下指标衡量性能:

  • ROUGE 分数: 衡量文本重叠的标准指标。
  • 事实性指标: UMLS-F1 (衡量医学术语的准确性) 和 G-Eval (使用 GPT-4 对事实一致性进行评分) 。
  • 人类评估: 询问真实人类他们更喜欢哪个摘要。

High \(\rightarrow\) Low 训练结果

这个数据集涉及获取好的摘要并创建“坏”版本,以教导模型应避免什么。

表 4 显示了 High to Low 方向的外部评估结果。使用 GPT-4 编辑的偏好训练在 ROUGE 和事实性指标上始终优于 SFT 和 GPT-3.5 编辑。

表 4 显示了 SYNFAC-EDIT 方法的明显胜利。看看 人类 H2H (头对头) 这一列。

  • GPT-2 使用 SALT 算法配合 GPT-4 数据训练时,人类在 72% 的情况下偏好它,胜过标准 SFT 基线。
  • Llama-2 也显示了类似的收益,使用 SALT 和 GPT-4 数据的胜率为 74%

事实性指标 (UMLS-F1 和 G-Eval) 也出现了显著提升。这证实了在合成“负面”样本 (幻觉) 上进行训练能有效地教会模型坚持事实。

Low \(\rightarrow\) High 训练结果

这个方向涉及修正较弱模型的错误。

表 5 显示了使用 GPT-2 的 Low to High 方向的外部评估结果。结合 GPT-4 数据的 SALT 算法得分最高。

表 5 (侧重于 GPT-2) 强化了 GPT-4 是更优秀的老师 这一发现。SALT 算法结合 GPT-4 的编辑在各项指标上均获得了最高分。

然而,研究人员在这里指出了一个局限性。当他们在 Llama-2 上尝试这种“Low \(\rightarrow\) High”方法时,结果好坏参半 (如补充数据所示) 。原因何在?小模型生成的“低”质量摘要有时糟糕了,以至于即使是合成专家也很难将其修复成具有高度教育意义的内容。相比之下,“High \(\rightarrow\) Low”方法 (破坏好数据) 被证明更稳健且与模型无关。

数据可视化

为了使这一概念具体化,让我们看看“Low \(\rightarrow\) High”数据实际是什么样子的。

表 17 显示了 Low to High 方向的人类标注。它展示了原始临床笔记、未对齐的模型摘要以及 GPT-4 和 GPT-3.5 生成的编辑指令。

上一张表的延续,显示了 GPT-3.5 做的具体编辑以及人类医生对它们的评论。

在这些例子中 (表 17 及其延续) ,我们看到了流程的实际运作。“未对齐模型”遗漏了关于病人手术的关键背景 (冠状动脉搭桥术) 。

  • GPT-4 立即捕捉到了这一点。指令 1 是一个 ADD 操作 : “Patient underwent a coronary artery bypass graft x 3…” (病人接受了冠状动脉搭桥移植 x 3…)
  • GPT-3.5 也捕捉到了,但它的编辑往往更混乱或不够聚焦。

人类医生的评论证实,添加手术细节是“有用的”且在事实层面是必要的。这个经过验证的配对 (坏摘要 vs. GPT-4 修正后的摘要) 成为了 AI 的一个训练点。

结论: 医疗 AI 训练的未来

SYNFAC-EDIT 论文展示了一个强大的概念: 我们可以引导智能 (bootstrap intelligence) 。

通过利用像 GPT-4 这样的大型通用模型的能力,我们可以为较小的专用模型创建合成训练环境。这种方法解决了临床 NLP 中的两个巨大难题:

  1. 隐私问题: 我们不需要将成千上万的病历发送给人类标注者。合成专家在安全的计算环境中运行。
  2. 成本问题: 我们不需要支付外科医生每小时 300 美元的费用来纠正 AI 摘要中的语法。GPT-4 可以以几分钱的成本模拟这种反馈。

结果是决定性的: 使用这种合成编辑反馈训练的模型——特别是利用 SALT 算法和 GPT-4 作为老师的模型——明显优于使用标准监督学习训练的模型。它们的幻觉更少,并且能捕捉到更多的医学概念。

虽然我们还没有达到 AI 可以在没有人类监督的情况下运作的地步,但这项研究弥合了差距。它推动我们走向这样一个未来: 医院里的 AI 助手不仅流利,而且在事实层面可靠,因为它们已经受过合成专家的“教育”,知道该避免哪些错误。