人工智能在医疗保健领域取得了巨大进步,特别是在睡眠障碍的诊断方面。利用脑电图 (EEG) 信号进行自动睡眠分期 (SSC) 正变得比人类专家的手动评分更快、更准确。然而,在高风险的医疗 AI 领域,一个挥之不去的问题依然存在: 信任

当神经网络诊断病人时,它通常表现得像一个“黑盒”。它会吐出一个概率 (例如,“90% 的几率处于 N2 睡眠期”) ,但它很少告诉我们它为什么这么认为,也不会诚实地承认它何时被相互冲突的数据搞糊涂了。

在这篇深度文章中,我们将探讨论文 “Trusted Multi-View Classification with Expert Knowledge Constraints” (TM-CEK) 中提出的一个新框架。这项研究介绍了一种引人入胜的方法,它结合了专家领域知识 (使用经典的信号处理理论) 和不确定性估计 (知道何时说“我不知道”) 。

如果你是机器学习或生物医学工程的学生,这篇论文提供了一个大师级的教程,展示了如何超越简单的准确率指标,迈向构建医生真正可以信任的 AI 系统。


1. 核心问题: 准确性 vs. 可信度

在剖析解决方案之前,我们必须了解当前多视图学习 (MVL) 模型在睡眠分期中的具体局限性。

背景: 多视图学习

睡眠诊断使用多导睡眠图 (PSG) ,它涉及多种信号: EEG (脑电波) 、EOG (眼球运动) 和 EMG (肌肉活动) 。即使在单个 EEG 通道内,数据也可以从不同的“视角”进行观察:

  1. 时域: 随时间变化的原始波形信号。
  2. 频域: 不同频率下存在多少能量 (频谱图) 。

MVL 结合这些视图来做出决策。虽然准确,但标准的 MVL 存在两个主要问题:

  1. 特征层面的不透明性: 深度神经网络通常学习抽象的、非线性的特征,这些特征对人类来说毫无意义。医生无法看着一个卷积滤波器说: “啊,是的,那是检测 K-复合波的。”
  2. 决策层面的过度自信: 标准模型通常使用 Softmax 输出,强制概率之和为 1。即使模型看到的是垃圾噪声,它也可能仅仅因为某个类别的得分略高于其他类别,就输出 99% 的置信度。

“证据”悖论

证据深度学习 (EDL) 的最新进展试图通过将输出视为信念分布 (狄利克雷分布) 而非单一概率来解决置信度问题。

然而,TM-CEK 的作者指出了当前 EDL 方法的一个致命缺陷。现有方法主要基于证据的量级 (数量) 来计算不确定性。他们假设如果网络发现了很多特征,它一定是确定的。

但如果证据相互冲突呢? 想象一个陪审团。

  • 场景 A: 12 名陪审员都投票“有罪”。 (高证据,低不确定性) 。
  • 场景 B: 6 名陪审员投票“有罪”,6 名投票“无罪”。 (高证据,但逻辑上这应该是高不确定性) 。

现有的数学框架通常将场景 B 视为具有“高置信度”,仅仅因为有 12 个人投票。这篇论文提出了一个修正方案: 我们必须看证据的分布 , 而不只是数量。


2. 提出的框架: TM-CEK

研究人员提出了 TM-CEK (结合专家知识约束的可信多视图分类) 。该架构旨在处理上述两个问题: 透明度和真正的不确定性估计。

让我们看看高层架构:

图 1. 模型的整体框架。

图 1 所示,模型通过两个并行分支处理输入 EEG 信号:

  1. 顶部分支 (时域) : 处理原始序列 \(X_t\)。注意起始处的“Gabor 层”——这是可解释性的关键。
  2. 底部分支 (频域) : 处理短时傅里叶变换 (STFT) \(X_f\)。

这两个分支产生“证据” (\(e^1\) 和 \(e^2\)) ,然后融合形成最终意见。让我们分解这些步骤中的创新点。

创新点 1: 嵌入专家知识 (Gabor 层)

在标准卷积神经网络 (CNN) 中,滤波器 (核) 是随机初始化的。它们最终学会检测边缘或形状,但我们无法控制它们学习什么。

在睡眠医学中,专家已经知道哪些特征很重要。他们寻找特定的波形:

  • Delta 波: 1–4 Hz (深睡)
  • Alpha 波: 8–13 Hz (放松的清醒状态)
  • 纺锤波 (Spindles) : 15–18 Hz 爆发 (N2 期)

作者用 Gabor 卷积层替换了第一个标准卷积层。Gabor 函数在数学上完美地捕捉了这些特定频率的局部事件。它本质上是一个包裹在高斯 (钟形曲线) 包络中的余弦波。

Gabor 核 \(K_G\) 的方程为:

Gabor 核方程

在这里,网络学习参数 \(u\) (中心) 、\(\sigma\) (宽度) 和 \(f\) (频率) 。网络不是学习随机权重,而是优化这些特定参数以拟合 EEG 数据。

该层的输出是核与原始信号 \(X_t\) 的卷积:

输出卷积方程

为什么这很重要? 因为核在数学上被约束为 Gabor 函数,我们可以在训练后将其可视化,并确切地看到模型关注的是什么频率。这弥合了“深度学习黑魔法”与“医学现实”之间的鸿沟。

创新点 2: 感知分布的不确定性

这是论文理论部分的重头戏。

在标准证据深度学习中,不确定性 (\(u\)) 计算为 \(u = K / S\),其中 \(K\) 是类别数,\(S\) 是所有证据之和加上先验。随着证据 (\(S\)) 增加,不确定性 (\(u\)) 下降。

问题: 作者证明,向信号添加噪声可能会改变证据的分布,而不会显著改变总和

图 2. 添加噪声前后的不确定性密度。

图 2 所示,在标准方法中,“正常” (干净) 数据和“噪声”数据的不确定性分布显着重叠。模型没有意识到噪声数据是不可靠的。

解决方案: 作者引入了感知分布的主观意见 (Distribution-Aware Subjective Opinion) 。 他们结合了基尼系数 (经济学中常用来衡量不平等的指标) 来衡量证据分布是“尖锐”还是“平坦”。

他们重新定义了信念质量 (\(b_k\)) 和不确定性 (\(u\)) ,如下所示:

感知分布方程

  • \(Gini(e)\): 计算证据的离散程度。
  • \(d\): 源自基尼系数的一个新的“集中度”参数。
  • \(u\): 现在取决于 \(d\)。

逻辑: 如果证据平坦地分布在所有类别中 (相互冲突的证据) ,基尼系数就会很低。这会降低 \(d\),从而保持不确定性 \(u\) 较高——即使证据总量很大。这解决了我们之前讨论的“陪审团场景 B”问题。


3. 可信融合: 结合视图

一旦时域分支和频域分支生成了它们各自的意见 (信念 \(b\) 和不确定性 \(u\)) ,就必须将它们结合起来。

该论文使用了 Dempster 组合规则,并针对这种新的感知分布逻辑进行了调整。目标是合并意见,使得:

  1. 如果两个视图一致且确定,最终确定性增加。
  2. 如果一个视图不确定,系统依赖于可信的视图。
  3. 如果视图相互冲突,不确定性应反映出这一点。

融合规则定义为:

融合规则方程

融合信念 (\(b^{1\diamond2}\)) 和融合不确定性 (\(u^{1\diamond2}\)) 的具体计算如下:

融合计算细节

注意项 \(u^{1\diamond2} = \frac{2 u^{1} u^{2}}{u^{1} + u^{2}}\)。这表现得像调和平均数。如果一个视图的不确定性非常低 (例如,\(u^1 \approx 0\)) ,合并后的不确定性会显著下降。

这种融合可以扩展到任意数量的视图:

多视图融合方程

损失函数

为了训练这个庞然大物,作者不能仅使用标准的交叉熵损失。他们需要一个损失函数,鼓励为正确的类别积累证据,同时尽量减少错误类别的证据。

他们使用了源自狄利克雷分布性质的调整后的交叉熵损失 (\(\mathcal{L}_{ace}\)) :

调整后的交叉熵损失

为了防止模型过早变得过度自信 (这是分布坍缩到一个点的常见问题) ,他们添加了 KL 散度正则化项。这迫使预测分布保持接近均匀分布 (高不确定性) ,除非有强有力的证据证明并非如此:

KL 散度损失

最终损失结合了准确性、视图一致性 (确保不同视图不会无故产生巨大分歧) 和 KL 正则化:

总损失函数


4. 实验与结果

团队在三个大型公共数据集上测试了 TM-CEK: Sleep-EDF 20Sleep-EDF 78SHHS (睡眠心脏健康研究) 。

性能比较

首先,它有效吗?是的。该方法优于最先进的基准模型,包括 DeepSleepNet 和 AttnSleep。

表 1. 结果比较

表 1 , TM-CEK 在所有数据集上都取得了最高的准确率 (Acc) 和宏 F1 分数 (MF1) 。例如,在 Sleep-EDF 20 上,它达到了 85.0% 的准确率 , 击败了最接近的竞争对手 (DFSC) 约 0.6%。虽然听起来很小,但在医学诊断中,持续的边际收益是很难实现的。

哪里表现不佳? (混淆矩阵)

透明度意味着了解自身的弱点。下面的混淆矩阵显示了模型擅长和失败的地方。

图 3. 归一化混淆矩阵。

  • 优势: 该模型在检测清醒 (W)深睡 (N3) 方面表现出色,准确率通常超过 90%。
  • 劣势: 像几乎所有的睡眠算法一样,它在 N1 (第一阶段) 上很吃力。你可以在矩阵中看到 N1 经常与清醒或 N2 混淆。这是意料之中的;N1 是一个过渡阶段,即使对人类来说也很难一致地评分。

对噪声的鲁棒性

这是“可信”学习的真正考验。研究人员取了测试数据并添加随机高斯噪声,看看模型是否会崩溃。

图 7. 不同噪声水平下的比较。

图 7 说明了一切。随着噪声 (\(\delta\)) 的增加,带圆圈的蓝线 (可信 Acc) 保持得比浅蓝色虚线 (非可信 Acc) 高得多。

  • 非可信模型: 当噪声达到 \(\delta=50\) 时,准确率崩溃。
  • TM-CEK: 准确率下降得更加优雅。

更重要的是, 不确定性估计起作用了

图 6. 不确定性密度。

图 6 中,看图 (d) (\(\sigma=100\)) 。红线 (噪声数据) 与蓝线 (正常数据) 相比已向右移动得很远。这意味着模型知道它看到的是噪声 , 并报告了高不确定性。标准模型通常会让这两个分布重叠。

可视化专家知识

最后,Gabor 层真的学到了有意义的脑电波吗?

图 5. 重要优化 Gabor 核的波形和频域。

图 5 可视化了学习到的核。

  • 核 8 和 17: 它们学习了低频、高振幅的形状。这与深睡中发现的慢波Delta 波完美对应。
  • 核 5 和 25: 它们学习了更高的频率,可能对应于 Theta 波或睡眠纺锤波。

这证明了通过将第一层约束为 Gabor 函数,模型自然地“发现”了医生几十年来一直使用的相同生物标记。

我们甚至可以量化哪些核对最终决定最重要:

图 9. Gabor 核对睡眠分期的影响。

图 9 显示了不同核的“效率”。注意特定的核是如何针对特定的类别亮起 (橙色/红色) 的。这为模型做出的每一个决定提供了“特征层面的解释”。


5. 结论与关键要点

TM-CEK 论文代表了在使医疗 AI 安全和可理解方面向前迈出的重要一步。它从两个角度解决了“黑盒”问题:

  1. 输入: 通过使用 Gabor 滤波器 , 它迫使神经网络“说”睡眠专家的语言 (频率和波形) ,而不是抽象的向量。
  2. 输出: 通过使用感知分布的不确定性 , 它确保模型不会被相互冲突的证据所愚弄,在数据嘈杂或模棱两可时提供安全网。

对于学生和研究人员来说,结论很明确: 准确率并不是唯一重要的指标。在安全攸关的领域,模型如何学习以及多大程度上知道自己的局限性与得到正确答案同样重要。