引言: 临床 AI 的高风险世界
想象一下,一位医生在完成一场复杂的手术后正在口述笔记。病人有心律失常的病史,对特定药物过敏,并且有一个新的处方计划。现在,想象一下人工智能 (AI) 系统正在为病人的出院文件总结这些笔记。如果 AI 产生了幻觉 (Hallucination) ——凭空捏造了病人从未服用过的药物,或者遗漏了关键的过敏史——后果可能危及生命。
像 GPT-4 和 Llama 这样的大语言模型 (LLM) 彻底改变了文本摘要技术。它们流畅、连贯且迅速。然而,它们遭受着一个持久的缺陷: 幻觉 。 在创意写作中,幻觉可能是一个有趣的特性;但在临床自然语言处理 (NLP) 中,它是一个危险的缺陷。
为了解决这个问题,我们通常依赖人类反馈强化学习 (RLHF) 。 我们要求人类专家审查 AI 的输出,对其进行纠正,并将这些数据反馈给模型。但在医疗保健领域,这种方法碰壁了。专家医生的费用极其昂贵且时间紧迫,而且病人数据受到严格的隐私法律 (如 HIPAA) 保护。我们不能简单地将临床数据众包给普通大众进行标注。
这把我们引向了一篇引人入胜的研究论文: SYNFAC-EDIT 。 研究人员提出了一个新颖的解决方案: 如果我们无法轻易获得人类专家,为什么不利用最强大的 LLM (如 GPT-4) 充当“合成专家”呢?通过教导这些巨型模型模拟医生的编辑过程,我们可以生成大量的训练数据,来教导更小、更便宜且符合隐私合规要求的模型 (如 Llama-2 或 GPT-2) 如何保持事实准确性。
背景: 为什么标准训练还不够
在深入了解解决方案之前,我们必须理解语言模型传统训练方式存在的问题。
监督微调 (SFT) 的缺陷
大多数模型都经历过监督微调 (Supervised Fine-Tuning, SFT) 。 在这个过程中,模型会收到一份临床笔记和一份由人类编写的“基准真相 (Ground Truth) ”摘要。模型尝试逐字预测该摘要。
问题在于 SFT 是不加区分的。如果模型拼错了 “the”,损失函数会惩罚它。如果模型将 “10mg” 改为 “100mg”,损失函数也会惩罚它。SFT 往往对语法小瑕疵和危险的医疗错误同等对待。它无法本质上理解一个错误只是令人恼火,而另一个错误却是致命的。
对齐差距
为了解决这个问题,研究人员使用偏好数据 (成对的“好”与“坏”摘要) 来对齐模型。这使得模型能够学习价值观,而不仅仅是单词概率。像 DPO (直接偏好优化) 这样的方法在这里显示出了巨大的潜力。
然而,偏好数据通常需要人类查看两个摘要并说: “摘要 A 比摘要 B 好。”SYNFAC-EDIT 背后的研究人员认为这还不够。真正的医生不只是给摘要评分;他们会编辑摘要。他们划掉错误的剂量说明并写上正确的。这种编辑反馈 (Edit Feedback) 是更丰富的学习信号,但也是最难大规模收集的数据。
核心方法: 合成模仿编辑反馈
SYNFAC-EDIT 流程旨在解决数据稀缺问题,它使用超大型 LLM (>1000亿参数) 生成高质量的编辑反馈,然后用于训练更小、较弱的模型 (<100亿参数) 。
研究人员设计了一个巧妙的流程,通过两个不同的方向来生成训练数据。让我们看看其架构。

如图 1 所示,标准方法 (a) 简单但受限。该论文提出的方法引入了两条新路径 (b) 和 (c),我们将详细拆解。
方向 1: High \(\rightarrow\) Low (生成幻觉)
这种方法如图 1(c) 所示,乍一看似乎违反直觉。为什么我们要生成坏的摘要?
对齐训练的目标是向模型展示事实性摘要与幻觉摘要之间的区别。由于我们已经有了“基准真相” (人类编写的摘要) ,我们将该摘要视为高质量 (偏好) 选项。我们需要一个对应的低质量 (非偏好) 选项来组成一对。
研究人员提示“合成专家” (如 GPT-4) 获取一个完美的摘要,并利用特定的编辑操作故意插入幻觉。通过控制摘要被“破坏”的具体方式,他们创建了一个看起来合理但在医学上错误的完美负面样本。
方向 2: Low \(\rightarrow\) High (修正错误)
这种方法如图 1(b) 所示,反映了现实世界的情况。
- 一个较弱的模型 (如基础 GPT-2 或 Llama-2) 生成一个摘要。它可能包含错误。
- “合成专家” (GPT-4) 对照原始临床笔记审查这份草稿。
- 专家编辑草稿以修正事实错误,创建一个高质量版本。
现在,模型拥有了一对数据: 原始的有缺陷草稿 (非偏好) 和合成专家的修正版 (偏好) 。
编辑剖析
研究人员不仅仅是要求 GPT-4 “重写这段话”。他们强制模型生成明确的编辑指令 。 这模仿了老师批改试卷的过程。为了保持控制,他们将编辑限制为两种特定操作: 添加 (ADD) 和 省略 (OMIT) 。

如表 6 定义:
- 为了提高事实性 (Low \(\rightarrow\) High): 专家使用 ADD 来包含遗漏的医学法律上必要的信息,并使用 OMIT 来移除错误或非必要的废话。
- 为了诱导幻觉 (High \(\rightarrow\) Low): 专家做相反的操作——省略必要细节 (制造危险的空白) 或添加非必要/错误的信息。
这种结构化的方法确保了反馈是精确且医学相关的,而不仅仅是风格上的修改。
对齐算法: DPO 和 SALT
一旦生成了这个“原始 vs. 编辑后”的合成数据集,较弱的模型如何从中学习?该论文采用了两种先进的对齐算法:
- DPO (直接偏好优化) : 这实际上是在告诉模型: “当给定这份临床笔记时,生成‘偏好摘要’的概率应该上升,而生成‘非偏好摘要’的概率应该下降。”
- SALT (序列对齐学习) : 这种技术专为编辑反馈设计。它对两个摘要进行对齐,以确切识别哪些 Token 发生了变化。它奖励模型保留好的部分 (两个摘要的交集) 和偏好摘要中独特的部分,同时惩罚坏摘要中独特的部分。
实验与结果
研究人员利用两个不同的“合成专家” (GPT-3.5 和 GPT-4) 来训练两个不同的“较弱模型” (GPT-2 和 Llama-2-7B) 。他们在 MIMIC-III 数据集 (临床文本的标准基准) 上评估了结果。
验证合成专家
在看学生是否学到了东西之前,我们必须检查老师是否称职。GPT-4 和 GPT-3.5 是否真的正确遵循了 ADD 和 OMIT 事实的指令?
人类标注者 (医学生和医生) 审查了合成编辑。结果突显了模型之间的显著差异。

图 2 揭示了一个有趣的趋势。上图显示了编辑的数量。然而,下图更能说明问题——它显示了有多少编辑实际产生了预期的结果 (幻觉或事实性改进) 。
GPT-4 被证明是一个更严格、更准确的指导者。 它比 GPT-3.5 更好地遵循了提示约束。有趣的是,数据显示生成幻觉 (High \(\rightarrow\) Low) 比尝试修正错误 (Low \(\rightarrow\) High) 能产生更高质量的偏好数据。这表明,对于模型来说,令人信服地破坏一个摘要要比完美地修复一个破碎的摘要更容易。
较弱的模型有进步吗?
终极测试是 Llama-2 和 GPT-2 在接受这些合成数据训练后,总结临床笔记的能力是否变强了。
研究人员使用以下指标衡量性能:
- ROUGE 分数: 衡量文本重叠的标准指标。
- 事实性指标: UMLS-F1 (衡量医学术语的准确性) 和 G-Eval (使用 GPT-4 对事实一致性进行评分) 。
- 人类评估: 询问真实人类他们更喜欢哪个摘要。
High \(\rightarrow\) Low 训练结果
这个数据集涉及获取好的摘要并创建“坏”版本,以教导模型应避免什么。

表 4 显示了 SYNFAC-EDIT 方法的明显胜利。看看 人类 H2H (头对头) 这一列。
- 当 GPT-2 使用 SALT 算法配合 GPT-4 数据训练时,人类在 72% 的情况下偏好它,胜过标准 SFT 基线。
- Llama-2 也显示了类似的收益,使用 SALT 和 GPT-4 数据的胜率为 74% 。
事实性指标 (UMLS-F1 和 G-Eval) 也出现了显著提升。这证实了在合成“负面”样本 (幻觉) 上进行训练能有效地教会模型坚持事实。
Low \(\rightarrow\) High 训练结果
这个方向涉及修正较弱模型的错误。

表 5 (侧重于 GPT-2) 强化了 GPT-4 是更优秀的老师 这一发现。SALT 算法结合 GPT-4 的编辑在各项指标上均获得了最高分。
然而,研究人员在这里指出了一个局限性。当他们在 Llama-2 上尝试这种“Low \(\rightarrow\) High”方法时,结果好坏参半 (如补充数据所示) 。原因何在?小模型生成的“低”质量摘要有时太糟糕了,以至于即使是合成专家也很难将其修复成具有高度教育意义的内容。相比之下,“High \(\rightarrow\) Low”方法 (破坏好数据) 被证明更稳健且与模型无关。
数据可视化
为了使这一概念具体化,让我们看看“Low \(\rightarrow\) High”数据实际是什么样子的。


在这些例子中 (表 17 及其延续) ,我们看到了流程的实际运作。“未对齐模型”遗漏了关于病人手术的关键背景 (冠状动脉搭桥术) 。
- GPT-4 立即捕捉到了这一点。指令 1 是一个 ADD 操作 : “Patient underwent a coronary artery bypass graft x 3…” (病人接受了冠状动脉搭桥移植 x 3…)
- GPT-3.5 也捕捉到了,但它的编辑往往更混乱或不够聚焦。
人类医生的评论证实,添加手术细节是“有用的”且在事实层面是必要的。这个经过验证的配对 (坏摘要 vs. GPT-4 修正后的摘要) 成为了 AI 的一个训练点。
结论: 医疗 AI 训练的未来
SYNFAC-EDIT 论文展示了一个强大的概念: 我们可以引导智能 (bootstrap intelligence) 。
通过利用像 GPT-4 这样的大型通用模型的能力,我们可以为较小的专用模型创建合成训练环境。这种方法解决了临床 NLP 中的两个巨大难题:
- 隐私问题: 我们不需要将成千上万的病历发送给人类标注者。合成专家在安全的计算环境中运行。
- 成本问题: 我们不需要支付外科医生每小时 300 美元的费用来纠正 AI 摘要中的语法。GPT-4 可以以几分钱的成本模拟这种反馈。
结果是决定性的: 使用这种合成编辑反馈训练的模型——特别是利用 SALT 算法和 GPT-4 作为老师的模型——明显优于使用标准监督学习训练的模型。它们的幻觉更少,并且能捕捉到更多的医学概念。
虽然我们还没有达到 AI 可以在没有人类监督的情况下运作的地步,但这项研究弥合了差距。它推动我们走向这样一个未来: 医院里的 AI 助手不仅流利,而且在事实层面可靠,因为它们已经受过合成专家的“教育”,知道该避免哪些错误。
](https://deep-paper.org/en/paper/2402.13919/images/cover.png)