在风险极高的医疗领域,准确性至关重要。但当人工智能 (AI) 介入时,仅有准确性是不够的——信任才是真正的硬通货。

设想这样一个场景: 一个机器学习模型分析了一位患者的出院小结,并预测了一个特定的医疗代码用于计费和统计追踪。预测是正确的,但医生问: “为什么?”如果 AI 无法指出文本中导致该决定的具体症状或医疗程序,医生就不太可能信任它。

这就是“黑盒”问题。虽然现代语言模型正在彻底改变自动化医疗编码,但其内部逻辑往往是不透明的。标准的解决方案是监督式可解释性——不仅训练模型预测代码,还要训练它模仿人工标注的“证据片段” (高亮文本) 。然而,创建这些标注极其昂贵且耗时。

在这篇文章中,我们将深入探讨一篇研究论文,该论文提出了一种巧妙的方法来突破这一瓶颈。研究人员引入了一种完全无监督的方法,将对抗鲁棒性训练与一种名为 AttInGrad 的新解释方法相结合。结果如何?其解释效果与昂贵的监督方法一样好,甚至更好。

问题所在: 自动化医疗编码与信任

医疗编码是将医疗文档 (如出院小结) 转换为标准化代码 (如 ICD-9 或 ICD-10) 的过程。这些代码对于计费、研究和医院管理至关重要。

图 1: 输入、预测以及在输入中高亮显示的特征归因解释示例。

如上图 1 所示,该任务涉及阅读密集的临床笔记并分配代码,如“421.0: 急性和亚急性细菌性心内膜炎”。高亮的文本 (例如,“MSSA endocarditis”) 代表特征归因——即模型用于做出决定的证据。

挑战是双重的:

  1. 复杂性: 模型必须从数千个单词中筛选,以便从超过 140,000 个可能的代码中进行选择。
  2. 可解释性: 为了验证代码,人工编码员需要看到文档中何处提到了该病症。如果模型高亮的是随机标点符号或无关词汇,那么它作为助手就是无用的。

最先进的方法通常依赖注意力机制 (模型“看”的地方) 或梯度。然而,纯粹的注意力通常是不可靠的 (通常被称为“不忠实的”) ,而监督方法需要人类 painstakingly 地为每个代码高亮证据的数据集——这是一种我们很少拥有的奢侈品。

基础: 模型架构

在理解解决方案之前,我们需要看看底层的模型。研究人员使用的是 PLM-CA (带有类别注意力的预训练语言模型) 架构。

图 5: 我们在实验中使用的 PLM-CA 架构。

如图 5 所示,该架构包括:

  1. 编码器 (RoBERTa): 将输入文本处理为上下文相关的 token 表示 (\(H\))。
  2. 交叉注意力 (Cross-Attention): 一种查看 token 表示和特定标签表示的机制,用于决定文本的哪些部分与每个特定的医疗代码相关。
  3. 输出层: 计算每个代码的概率。

注意力机制的核心数学运算如下:

注意力机制中键 (Key) 和值 (Value) 矩阵的方程。

注意力矩阵计算方程。

这里,\(A_j\) 是类别 \(j\) 的注意力矩阵。在许多研究中,这个原始注意力矩阵被视为“解释”。如果 \(A_j\) 在“heart”这个词上很高,大概率模型正在关注“heart”。然而,研究人员认为这并不充分,且往往具有误导性。

解决方案第一部分: 对抗鲁棒性训练

这篇论文的第一个主要贡献是提出了鲁棒的模型能产生更好的解释这一假设。

对抗鲁棒性是指模型在输入发生微小、难以察觉的变化 (噪声) 时仍能保持准确的能力。理论上,标准模型往往依赖于“脆弱”特征——即统计上的相关性,但对人类来说并不重要 (如特定的标点符号模式) 。通过强制模型具有鲁棒性,我们迫使它依赖“鲁棒”特征——即人类也认为重要的、具有语义意义的词汇。

研究人员测试了三种策略来增强他们的模型。

1. 输入梯度正则化 (Input Gradient Regularization, IGR)

IGR 旨在阻止模型的输出随着输入的微小变化而发生剧烈变化。它通过惩罚大梯度来实现这一点。如果梯度很小,模型就是局部稳定的 (平滑的) 。

他们通过添加一个惩罚项来修改损失函数:

输入梯度正则化损失方程。

这里,\(\lambda_1\) 控制我们对梯度幅度 (\(\nabla_X\)) 的惩罚程度。这鼓励模型忽略输入文本中无关的变动。

2. 投影梯度下降 (Projected Gradient Descent, PGD)

PGD 是一种更激进的对抗训练形式。模型不仅仅是惩罚梯度,而是在对抗样本上进行训练。在训练过程中,系统主动尝试找到使误差最大化的最坏噪声 (\(\delta\)),然后训练模型去处理这种噪声。

首先,找到对抗噪声:

寻找最佳对抗噪声 Z 的方程。

然后,在“带噪声”的输入上训练模型:

PGD 训练目标方程。

这迫使模型对噪声具有不变性,理论上有效地消除了对“脆弱”非证据 token 的依赖。

3. Token 掩码 (Token Masking, TM)

Token 掩码采取了不同的方法。它提出的问题是: “如果我们隐藏大部分单词,你还能做出正确的预测吗?”

这使用了教师-学生 (Teacher-Student) 架构。一个“教师”模型 (参数冻结) 指导一个“学生”模型。学生模型学习一个二值掩码 \(M\),只识别最本质的单词。

在保持预测准确性的同时最小化掩码大小的方程。

掩码函数简单地用基线 (如掩码 token) 替换未选中的 token:

掩码函数方程。

通过强迫模型仅使用稀疏的 token 集合进行正确预测,模型实际上学会了忽略填充词。

解决方案第二部分: AttInGrad (一种新的解释方法)

即使有了鲁棒的模型,我们要如何提取解释呢?

  • 注意力 (\(A\)) 告诉我们模型在看哪里,但对于那些仅仅因为常见而出现无关 token (如逗号) ,注意力权重可能会很高。
  • InputXGrad (输入乘以梯度) 告诉我们改变一个 token 会对输出产生多大影响。它基于网络的数学原理,但在视觉上可能很嘈杂。

研究人员提出了 AttInGrad , 它融合了这两个概念。它将注意力权重与 InputXGrad 分数相乘。

AttInGrad 特征归因方程。

这种方法利用了两者的优势:

  1. 注意力充当过滤器,高亮模型关注的广泛上下文。
  2. InputXGrad 提供细粒度的敏感性,确保该 token 实际上影响了预测。

这是对先前尝试 (如 AttGrad , 即注意力乘以注意力的梯度) 的重大改进,下图为对比:

AttGrad 方程,一种先前的方法。

通过关注相对于输入 (\(X\)) 而非注意力权重 (\(A\)) 的梯度,AttInGrad 捕捉到了单词对决策的真实因果效应。

实验结果: 无监督 vs. 监督

研究人员使用 MIMIC-III 数据集和一个名为 MDACE 的专门子集评估了他们的方法,该子集包含人工标注的证据片段 (解释的“黄金标准”) 。

他们比较了三种主要设置:

  1. \(B_U\) + Attention: 标准无监督基线 (标准模型,注意力解释) 。
  2. \(B_S\) + Attention: 最先进的监督方法 (模型显式地在人工证据片段上进行训练) 。
  3. TM + AttInGrad: 提出的完全无监督方法 (鲁棒 Token 掩码模型 + AttInGrad 解释) 。

合理性 (人类是否喜欢?)

合理性 (Plausibility) 衡量计算机给出的解释与人类医生的标注重合度有多高。

图 2: 不同组合的合理性比较。

图 2 是本文最关键的结果。

  • 橙色 (无监督基线) : 在 F1 分数和召回率方面表现最差。
  • 蓝色 (监督) : 以前的黄金标准。
  • 绿色 (AttInGrad + TM) : 提出的方法。

结论: 无监督的 AttInGrad + TM 方法实现了与监督模型相当的 F1 分数更好的“空”解释率 (即无法产生解释的情况更少) 。它在训练期间不需要任何人工标注,却能与监督方法相媲美。

为了更细致地观察数据,表 2 证实了 AttInGrad 在几乎所有指标上都始终优于标准的 Attention 和 InputXGrad。

表 2: MDACE 测试集上的合理性分数。

忠实性 (是否反映了模型?)

合理性是关于说服人类。 忠实性 (Faithfulness) 是关于真理。如果移除高亮的单词确实改变了模型的预测,那么解释就是忠实的。

研究人员使用了两个指标:

  • 完整性 (Comprehensiveness,越高越好): 如果我们移除“解释”,预测准确率会下降吗?
  • 充分性 (Sufficiency,越低越好): 如果我们保留“解释”,预测准确率能保持吗?

图 3: Attention, InputXGrad, 和 AttInGrad 的忠实性。

如图 3 所示, AttInGrad (绿色) 显示出高完整性和低充分性,通常优于 Attention。这表明 AttInGrad 不仅仅是挑选人类喜欢的词;它挑选的是模型实际使用的词。

为什么 AttInGrad 有效?“特殊 Token” 洞察

这篇论文最有趣的分析之一是为什么标准的 Attention 经常失败。研究人员发现,标准的注意力机制经常将巨大的重要性分配给“特殊 token”——如 [*G 等标点符号。这些 token 几乎没有任何语义意义,但充当了模型存储上下文信息的“停车场”。

图 4: 解释质量与特殊 token 之间的关系。

图 4 展示了这种相关性。X 轴显示前 5 个最重要的单词中“特殊 token”的百分比。Y 轴显示解释质量 (F1) 。

  • 橙色 (Attention): 存在强烈的负相关趋势。模型越关注特殊 token,解释就越差。
  • 绿色 (AttInGrad): 将点向左 (更少的特殊 token) 和向上 (更高的质量) 移动。

AttInGrad 有效地过滤掉了这些算法伪影,将解释重新聚焦在医生关心的字母数字单词上。

结论与启示

这项研究标志着医疗领域“免费”可解释性向前迈出了重要一步。通过结合对抗鲁棒性训练 (特别是 Token 掩码) 和 AttInGrad 方法,作者证明了我们可以实现与昂贵的监督方法相媲美的可解释性性能。

主要收获:

  1. 鲁棒性 = 可解释性: 让模型能够抵抗噪声,迫使它学习更符合人类逻辑的特征。
  2. 超越注意力: 原始的注意力权重通常具有误导性。将它们与梯度信息结合 (AttInGrad) 可以提供更忠实的模型推理图景。
  3. 无需标签: 我们有可能绕过为每个新的医疗编码任务创建证据片段数据集这一昂贵过程。

对于本科生和硕士生来说,这篇论文是一个完美的例子,展示了如何结合 AI 的两个不同子领域——对抗性机器学习可解释性——来解决将 AI 部署到现实世界中的实际瓶颈。