当 AI 妄下结论：临床文本分析中的捷径学习与偏见

大型语言模型 (LLM) 正迅速进入医疗保健领域。我们要么用它们来总结就诊记录，要么回答医学问题，或是从杂乱的临床笔记中提取结构化数据。其前景是巨大的: 自动化系统可以阅读成千上万的历史档案，识别出因健康的社会决定因素 (SDOH) 而面临风险的患者。

然而，最近的一项研究揭示了这些模型“推理”方式中的一个致命缺陷。事实证明，像 Llama 和 Qwen 这样的模型往往不会像人类那样阅读临床笔记。相反，它们依赖于捷径学习 (shortcut learning) ——即利用肤浅的模式在不理解上下文的情况下猜测答案。

在本文的深入探讨中，我们将剖析一篇研究论文，该论文调查了一种具体且危险的捷径: 仅仅提及酒精或烟草如何欺骗 AI，使其错误地指控患者使用非法药物。 我们还将揭示患者性别如何加剧这些错误，并探讨修复这些问题的提示工程策略。

问题所在: 健康的社会决定因素与信任

健康的社会决定因素 (SDOH) 是影响健康结果的非医疗因素。这些因素包括住房稳定性、就业状况和物质滥用 (酒精、烟草和毒品) 。从非结构化临床文本 (医生撰写的自由文本笔记) 中提取这些信息对于群体健康分析至关重要。

研究人员专注于一个具体的子任务: 药物状态时间分类 。当模型阅读临床笔记时，它通常执行两个步骤:

触发词识别: 找到与药物使用相关的词 (例如，“海洛因”、“大麻”、“违禁物质”) 。
论元解析: 确定状态——使用情况是当前、过去还是无？

这项研究强调了一种称为虚假相关性 (Spurious Correlations) 的现象。当模型学习到一种并非因果上成立的统计关联时，就会发生这种情况。例如，如果在 90% 的训练数据中提到“聚会”的同时也提到了“吸毒”，模型可能会学到“聚会”等于“吸毒”，即使具体的笔记上写着“患者喜欢聚会但否认吸毒”。

为什么这很重要

研究人员优先考虑了一个特定的指标: 假阳性率 (FPR) 。在这种情况下，假阳性意味着模型预测患者当前正在使用或曾经使用过药物，而实际上文本表明他们没有 (或者根本没有提及) 。

在医疗保健领域，假阳性不仅仅是一个数据错误；它是一个患者安全问题。错误地给患者贴上吸毒者的标签可能会导致污名化、来自医疗提供者的带有偏见的护理，以及对自动化系统信任的崩塌。

方法论: 设下陷阱

为了测试这些捷径，作者使用了 MIMIC-III 数据集 (一个庞大的去标识化健康记录数据库) ，特别是针对社会历史进行了标注的部分 (SHAC 数据集) 。

他们设计了一个巧妙的实验来测试模型是否会基于其他物质的存在而“幻觉”出药物使用。他们将临床笔记分为两类:

物质阳性 (Substance-positive) : 记录了酒精或吸烟情况的笔记。
物质阴性 (Substance-negative) : 没有提及酒精或吸烟情况的笔记。

在所有测试假阳性的案例中，关于药物使用的真实标签均为无。

假设很简单: 如果模型理解英语和临床语境，“酒精”这个词的出现不应该改变它对“药物”的看法。如果模型在使用捷径，看到“酒精”可能会触发它预测“药物使用”，因为这些概念在训练数据中经常共现。

他们测试了几种模型，包括 Llama-3.1-70B、Llama-3.1-8B (微调版) 、Qwen-72B 以及医学专用的 Llama3-Med42 。

捷径学习的证据

结果令人触目惊心。当文本中提及酒精或吸烟时，模型表现出了巨大的偏见。

表 1: 不同模型和方法的假阳性率 (%) 。Smoking ^ + Alcohol 指的是 Smoking-positive (吸烟阳性) 和 Alcohol-positive (饮酒阳性) 均为真的情况。

请看上面的 表 1 。关注第一列 (Llama-70B Zero-shot) 。

酒精阴性笔记: 当未提及酒精时，药物检测的假阳性率 (FPR) 为 28.83% 。这已经很高了 (这是零样本提取的一个已知问题) ，但它作为一个基准。
酒精阳性笔记: 当笔记提及酒精使用时，药物检测的 FPR 飙升至 66.21% 。

这意味着，在患者承认饮酒 (但未吸毒) 的案例中，有三分之二的情况模型错误地声称他们吸毒。模型本质上是在假设: “如果他们喝酒，他们大概率也吸毒。”

标记为 Smoking+Alcohol 的一行情况更糟。如果笔记中同时提及吸烟和酒精，Llama-70B 模型的 假阳性率高达 73.26% 。如果不被 AI 贴上吸毒者的标签，一个既吸烟又喝酒的患者在统计学上几乎是不可能存在的。

触发词是因果因素吗？

为了证明“酒精”或“吸烟”这些词是这些错误的直接原因，研究人员进行了消融实验。他们拿出完全相同的笔记，只是删除了酒精或吸烟的关键词，然后再次运行模型。

表 3: 移除触发词对 Llama 3.1 模型假阳性率 (%) 的影响

表 3 证实了这一假设。看 Llama 3.1 70b Zero-shot 这一列:

完整文本 (Full Text) : 66.21% FPR (酒精阳性) 。
移除酒精 (Without Alcohol) : 当移除酒精触发词后，FPR 降至 55.17% 。

虽然错误率没有降为零 (表明模型还有其他偏见或在处理“无”类别时普遍存在困难) ，但显著的下降证实了酒精术语的具体存在导致模型产生药物使用的幻觉。这证实了模型依赖的是肤浅的线索，而不是深层的语义理解。

隐藏的偏见: 性别差异

该研究揭示了第二层，也许是更令人不安的虚假相关性: 人口统计学偏见。

研究人员分析了基于笔记中患者生理性别的表现。如果模型是客观的，那么男性和女性患者的错误率应该大致相同。但事实并非如此。

表 2: 跨模型假阳性率 (%) 的性别分析

表 2 展示了针对男性患者的系统性偏见。

在 酒精阳性 场景中 (Llama-70B Zero-shot) , 女性患者的假阳性率为 53.66% 。
对于男性患者，这一比例为 71.15% 。

在同样的酒精消费背景下，模型错误指控男性吸毒的可能性比女性高出近 20 个百分点。

这表明模型已经学会了一条“性别捷径”。在其海量互联网数据的预训练过程中，模型可能遇到的将男性与吸毒联系起来的文本多于女性。现在，它将这种统计可能性应用到个体的临床笔记中，实际上是在根据性别对患者进行画像。

有趣的是，观察 Llama-8B SFT (在此特定数据集上微调过的较小模型) ，这种差距依然存在。即使经过特定领域的训练，模型仍然保留了偏见，这表明这些成见深深植根于预训练权重中。

我们能修复它吗？缓解策略

发现问题只是成功了一半。研究人员测试了几种提示策略，看看是否能强迫模型更清晰地思考并放弃这些捷径。

他们评估了三种主要策略:

上下文学习 (ICL) : 在要求模型预测之前，向其提供 3 个正确的示例。
思维链 (CoT) : 明确指示模型“一步一步地推理”并在给出答案之前解释其逻辑。
基于警告的提示: 在提示前加上诸如“独立评估每个因素”和“永远不要假设一种行为意味着另一种行为”的指令。

哪种策略有效？

表 5: 缓解策略对其他模型假阳性率 (%) 的影响

表 5 显示了这些缓解策略在不同模型 (Qwen 和 Med42) 上的结果。

思维链 (CoT) 成为了最有效的干预措施。

看 Qwen-72B 模型的 酒精阳性 行 (表格右侧) 。
ICL (基准) : 62.76% FPR。
CoT: 该比率急剧下降至 28.97% 。

通过强迫模型阐述其推理过程——“患者提到喝啤酒。文本说‘否认非法药物’。因此，药物状态为无”——模型被阻止直接跳到统计学结论 (“喝酒 = 吸毒”) 。

基于警告的提示也有所帮助，将 Qwen 的 FPR 降低到 34.38% , 但它们通常不如 CoT 有效。这表明，仅仅告诉 AI “不要有偏见”不如强迫它展示其推导过程有效。

然而，至关重要的是要注意, 偏见并没有被消除 。即使采用了最好的缓解策略，假阳性率在许多情况下仍然处于临床上不可接受的水平。

对医疗 AI 的启示

这项研究是对生成式 AI 在医学领域部署的一次清醒的现实检验。

“聪明的汉斯”效应: 仅仅因为 LLM 在 80% 的时间里给出了正确答案，并不意味着它知道为什么。它可能依赖于捷径，而一旦上下文发生变化 (例如，一个吸烟但不吸毒的患者) ，这些捷径就会失效。
放大人类偏见: 研究指出，模型中发现的偏见 (从吸烟推断吸毒、性别归纳) 反映了人类医疗提供者所持有的已知偏见。模型就像一面镜子，照出了训练它们的数据。如果我们不小心，部署这些模型可能会自动化并放大现有的系统性歧视。
文档标准: 结果表明，临床医生需要高度注意他们的记录方式。依赖人类推理的模糊措辞可能会被 AI 系统误解。

结论

提取健康的社会决定因素是 LLM 的一个强大应用方向，有可能解锁有助于全人治疗的数据。然而，本文表明我们不能盲目相信这些模型能进行“推理”。

这些模型表现出了严重的捷径学习 , 将酒精和吸烟视为药物使用的替代指标，以及人口统计学偏见 , 对男性患者的评判比女性更严厉。虽然像思维链提示这样的技术可以显著减少这些错误，但并不能根除它们。

对于进入该领域的学生和研究人员来说，结论很明确: 像 F1 分数这样的准确性指标是不够的。在允许模型接近患者护理之前，我们必须探测我们的模型是否存在虚假相关性，用反事实 (如删除触发词) 测试它们，并审核它们的人口统计学公平性。未来的工作必须超越提示工程，转向更稳健的训练方法，以消除这些根深蒂固的关联。

问题所在: 健康的社会决定因素与信任#

为什么这很重要#

方法论: 设下陷阱#

捷径学习的证据#

触发词是因果因素吗？#

隐藏的偏见: 性别差异#

我们能修复它吗？缓解策略#

哪种策略有效？#

对医疗 AI 的启示#

结论#