超越黑箱: 深入探索自可解释神经网络

神经网络推动了许多现代人工智能的突破——从医学成像、药物研发到推荐系统和自主智能体。然而，一个反复出现的质疑始终存在: 这些模型往往是“黑箱”。它们能够做出准确的预测，却几乎不提供任何关于决策原因的洞察。在高风险场景中，这种不透明是不可接受的。

过去，学术界和工业界高度依赖事后解释工具 (如 LIME、SHAP、Grad-CAM 等) 。这些工具可视为“法医”工具: 你拿一个训练好的模型，在事后尝试解释其行为。但事后方法可能脆弱、昂贵或具有误导性——它们并不会改变模型的实际计算过程，有时其解释与模型的内部推理并不一致。

另一种范式是将可解释性直接嵌入到模型架构中。这类模型称为自可解释神经网络 (Self-Interpretable Neural Networks, SINNs) : 模型在一次端到端计算中同时生成预测与解释。论文《自可解释神经网络综合综述》 (A Comprehensive Survey on Self-Interpretable Neural Networks) 系统汇聚并综合了这一快速增长的研究领域。本文面向从业者与学生提炼这篇综述的核心内容: SINN 的重要性、方法的系统分类、在各领域中的应用、评估手段以及未来发展方向。

下文将为你提供一份浅显易懂的五大 SINN 范式导览，并辅以直观理解与代表性技术的参考。我还会强调实践中的权衡，并展示这些思想如何结合形成混合系统，以提供更丰富、多层次的解释。

一张图表，比较自可解释神经网络与事后解释方法。自可解释模型通过单一过程产生预测和解释，而事后方法则针对预训练黑箱使用独立的解释器。

图 1: 自可解释模型 (单一模型同时输出预测与解释) 与事后方法 (对预训练黑箱应用独立解释器) 的比较。

简明路线图: SINN 分类体系

该综述依据内置解释的形式对 SINN 进行分类。不同类别回答了关于模型行为的不同问题:

基于归因 (Attribution-based): 哪些输入特征影响了决策？影响程度如何？
基于函数 (Function-based): 哪个透明的数学公式或子函数生成了输出？
基于概念 (Concept-based): 模型检测了哪些人类层面的概念？这些概念如何影响预测？
基于原型 (Prototype-based): 输入与哪些代表性的训练样本相似？它们的贡献度如何？
基于规则 (Rule-based): 哪些显式的逻辑 (符号) 规则解释了推理过程？

这五个类别构成了一个实用的分类体系，组织了众多不同的论文与设计。下图 (摘自原论文) 总结了各类及其子思路。

一张分类体系图，展示自可解释神经网络的五个主要类别: 基于归因、基于函数、基于概念、基于原型和基于规则，以及它们的子方法。

图 2: 自可解释神经网络的分类体系。

1) 基于归因的 SINN —— 谁的功劳？

归因方法为输入特征 (单词、像素、字段、子结构) 分配贡献分数。在 SINN 中，归因作为模型的原生组件进行计算，而非外部探针。核心挑战在于: 确保计算出的归因稳定、有意义，并且忠实于模型的内部逻辑。

该综述将基于归因的 SINN 分为三类:

广义系数归因: 学习依赖输入的系数以重新加权特征；
加性分数归因: 为每个特征学习评分函数并进行求和；
混合方案: 联合学习系数与评分函数。

一个简洁的高层次数学形式可捕捉这些思想。设 \(x = [x_1, \dots, x_N]\) 为从原始输入 \(r\) 提取的 (可能高维) 特征。基于归因的 SINN 通常通过以下形式之一生成贡献:

广义系数 (系数 × 特征) :

\[ f(x) = \sum_{i=1}^N \alpha_i(x)\, x_i + \phi_0, \]

其中 \(\alpha_i(x)\) 为学习得到的、可能受约束的系数。

加性分数 (特征特定函数) :

\[ f(x) = \sum_{i=1}^N g_i(x) + \phi_0, \]

其中每个 \(g_i\) 为特征特定评分函数。

混合 (系数 × 分数) :

\[ f(x) = \sum_{i=1}^N \alpha_i(x)\, g_i(x) + \phi_0. \]

代表性的约束和设计选择包括:

梯度对齐: 强制 \(\alpha(x) \approx \nabla_x f(x)\)，使系数匹配敏感度 (如 SENN) 。
架构约束: 通过特定模块 (动态线性模型、B-cos) 构造 \(\alpha(x)\)。
注意力式约束: 要求 \(\alpha_i(x) \ge 0\) 且 \(\sum_i \alpha_i(x)=1\)，使权重形成分布；可用 Sparsemax/Entmax 控制稀疏性。
Lasso 或 \(\ell_1\) 正则化: 鼓励稀疏系数向量，用于特征选择。
子集采样 / \(\ell_0\) 正则化: 强制硬选择 \(K\) 个特征；通过重参数化 (Gumbel-Softmax) 或随机门优化。
信息瓶颈: 限制 \(\alpha(x)\) 携带的信息，同时最大化预测能力 (互信息目标) 。

加性模型 (Neural Additive Models, NAMs) 为每个特征学习独立的小网络 \(g_i\)，便于审视单个特征的贡献，并避免纠缠的交互。其扩展形式允许受控的成对或高阶交互 (如 \(g_{ij}(x_i,x_j)\)) ，并通过稀疏正则化保持可解释性。

嵌入 Shapley 计算的架构 (如 SHAPNet、SASANet) 在模型内部执行 Shapley 值计算，强制公理化属性 (效率、对称性、零元性) ，从而产生有原则的、全模型范围的归因，而无需手工定义基线。

基于归因的 SINN 的明显优势在于直观、细粒度的解释 (如“这三个特征贡献最大，其得分如下”) 。典型的权衡在于: 若不精心设计，更高的透明度可能牺牲模型的灵活表达能力。

一张表格，汇总了基于归因的自可解释方法的不同类型、约束以及代表性研究论文。

图 3: 归因方法、常用约束及代表性研究汇总。

2) 基于函数的 SINN —— 揭示公式

归因回答“哪些输入重要”，而函数法回答“这些输入是如何组合的”。该范式显式设计网络以计算可透明的数学表达。

主要有两种方法:

函数分解: 将网络表示为简单、可解释的子函数 (通常是一元函数) 组合。每个连接都是一个可审视的小函数——例如，KANs (Kolmogorov-Arnold Networks) 使用可学习的单变量样条函数，使每个连接都可视化。
方程学习 (符号回归) : 直接搜索能解释数据的紧凑符号公式 (多项式、三角、分式等) 。方法包括构建算子型架构 (单元表示 +、×、sin 等) 或使用生成模型 (序列到序列 Transformer) 将数据集转化为符号表达。

函数分解提供逐层透明度: 可以可视化特征如何经连续的可解释函数变换。方程学习则产生紧凑、全局的解析公式，领域专家可直接理解，尤其在物理与科学发现中极具价值。

一张表格，汇总了基于函数的自可解释方法，分为函数分解与方程学习两类。

图 4: 基于函数的方法——分解或提炼显式公式。

3) 基于概念的 SINN —— 用人类语言说话

基于概念的模型在输入与预测之间建立人类可理解的中间表示。其回答: “模型检测到哪些高层概念，这些概念如何影响输出？”

典型结构包括:

\(g: x \mapsto c \in \mathbb{R}^k\): 将原始输入映射为概念分数 (瓶颈层) 。
\(f: c \mapsto y\): 简单预测器 (常为线性或稀疏) ，将概念映射到输出。

关键设计维度:

概念表示: 标量存在分数 (CBM)、高维嵌入 (CEM, IntCEM)、或分布式形式 (概率概念模型) 以表征不确定性。
概念组织: 扁平概念集或层次结构、图结构、甚至边通道以捕捉互补潜在概念。层次与关系架构可建模概念依赖。
监督方式: 概念可由人工标签监督 (解释力强但成本高) 、无监督发现 (事后概念提取) ，或由基础模型 (LLMs/VLMs) 派生以减少标注需求。
人机回环: 概念瓶颈支持干预——翻转概念标签即可观察预测变化，便于反事实推理和交互调试。

当领域概念明确且可获得时 (如医学诊断、生态特征) ，概念模型极具威力。其局限主要在于概念选择与标注成本，但混合方法可通过结合自动发现、部分监督与人类反馈予以缓解。

一张综合表格，总结了基于概念的模型在概念组织、表示、监督方式及人类干预类型上的设计。

图 5: 概念瓶颈模型设计维度及代表性变体。

4) 基于原型的 SINN —— “这个看起来像那个”

原型模型实现基于案例的推理: 决策通过与学习到的代表性样本的相似性来解释。模型在共享潜空间学习一组原型 \(p_j\)，并通过输入编码 \(z\) 与原型相似度聚合得出预测。

典型流程:

编码输入: \(z = f_{\text{enc}}(G(x))\)。
计算相似度: \(\text{sim}(z,p_j)\) (如对数转换的 \(L_2\) 距离或余弦相似) 。
加权求和预测: \(\hat{y} = \sum_j W_j \cdot \text{sim}(z,p_j)\)。

原型通常与真实训练样本对齐，便于人类审视 (如返回最能代表原型的图像块) 。研究主要关注:

原型表示: 部件型原型、VAE 中心原型、或用于概率解释的球/簇原型；
组织结构: 扁平集合、层次结构、或动态分配 (带软分配的全局池) 以减少冗余并增强表达；
对齐机制: 将潜空间原型映射至最近真实样本 (或合成原型可视化) 并通过反馈微调。

基于原型的解释对用户而言极其直观 (“我将其归类为 X，因为它与这些样本相似”) 。它在图像与文本任务中表现突出，也可扩展至图结构与强化学习 (如原型轨迹或子图) 。

学习过程通常交替训练编码器与相似度预测器，定期将原型映射回真实样本并微调。

原型模型方程，展示输入编码及通过相似度加权求和预测的过程。

图 6: 基于原型的预测: 编码输入，度量与原型的相似度并聚合。

5) 基于规则的 SINN —— 逻辑遇上神经网络

基于规则的 SINN 将符号推理嵌入神经网络，提供清晰、常为布尔形式的解释——如 IF-THEN 规则、逻辑公式或决策树路径。该综述将其分为四类:

逻辑算子神经元: 以可微逻辑门 (模糊 t-范数，可微 AND/OR) 替代传统神经元，形成类似 DNF 的分层结构，逻辑形式可显式呈现。
逻辑启发约束: 保留标准架构，但通过正则化使行为可提取为紧凑逻辑规则 (例如从激活值生成真值表，并合成 DNF 规则) 。
规则生成网络: 动态生成前件 (条件) ，通过后件估计器评估规则；可端到端学习或由挖掘候选规则构建。
可解释神经树: 可微决策树，节点进行软路由，叶节点包含透明决策函数。软路由支持梯度优化，而最终路径构成人类可读的逻辑。

在用户需符号化、可验证策略的场景 (法律、安全关键、策略制定) 中，规则模型尤为适用。挑战在于: 如何在高维连续数据中保持逻辑清晰同时兼具预测能力。

一组图示，展示基于规则的四种主要方法: 逻辑算子神经元、逻辑启发约束、规则生成网络和神经决策树。

图 7: 基于规则的方法: 可微逻辑单元、约束引导的规则提取、神经规则生成器与神经树。

混合 SINN —— 结合优势，互补不足

在实践中，许多强大的 SINN 是混合模型，融合了多种范式的组件。混合设计之所以吸引人，是因为它能提供多层次解释: 底层归因、中层概念或原型、以及高层规则或函数。

常见混合模式:

归因引导原型: 通过信息瓶颈或注意力提取关键子结构，用于学习原型 (常用于图任务) 。
概念驱动透明函数: 学习概念作为中间层，再在概念上施加加性或多项式透明函数。
原型/规则组合: 根据概念或原型激活构建规则 (如“IF 概念 A 存在且原型 P 相似度 > 0.8 THEN 类别 = Y”) 。
堆叠函数-归因层: 在网络深处重复可解释层 (系数 × 特征) ，揭示贯穿模型的贡献动态。

下图展示不同可解释模块如何堆叠或组合形成更丰富的解释管道。

示意图，说明不同可解释组件 (归因、函数、概念、原型、规则) 如何在混合模型中堆叠组合。

图 8: 混合架构将可解释模块堆叠为多层次解释。

SINN 的应用: 图像、文本、图与强化学习

SINN 可适配不同模态，配合特定设计手段实现领域解释。

图像数据

解释粒度: 像素级 (热力图) 、模式级 (局部基序、纹理) 与对象级 (原型对象) 。由于像素层级较低，有效的视觉解释需聚合像素至有意义区域。
可解释的 CNN 滤波器与部件原型表明视觉任务中可兼具局部显著性与案例证据。

文本数据

特征级: 突出单词或短语 (理据) ，常采用稀疏提取器或注意力机制。
样本级: 通过原型句子或短语表示类别或态度。
自然语言解释: 生成可读的理由 (“先解释后预测”或“先预测后解释”流程) 。LLM 越来越多用于生成流畅理据，但需确保忠实性。

图数据

局部子图提取: 通过信息瓶颈或采样识别预测性子结构。
全局图模式: 学习原型图基序或模板，用于类别级解释。

深度强化学习 (DRL)

状态归因: 解释状态中哪些部分触发动作 (注意力图或特征归因) 。
价值分解: 将价值函数按时间分解为可解释组件。
可解释策略: 学习规则化或符号化策略 (可微符号表达式) ，或原型策略以代表典型轨迹。

自可解释图神经网络框架图，展示局部子图提取与全局原型模式两条路径。

图 9: 自可解释 GNN: 提取局部子图，或与全局原型模式比较。

我们如何评估 SINN？

可解释性评估本质上是多维度的。该综述提出并汇整了沿三大轴的评估指标:

模型性能
- 预测准确性、效率与泛化能力: 可解释性不应牺牲过多性能。
解释质量
- 稳定性/鲁棒性: 相似输入应生成相似解释 (秩相关、Top-k 重叠、结构相似度) 。
- 忠实性: 解释应反映模型真实行为 (因果干预、消融实验、真实概念匹配) 。
- 一致性与非冗余性: 解释应简洁、独特且不重复 (轮廓系数、生态位不纯度) 。
以人为中心的评估
- 用户研究: 评估解释的合理性、实用性、信任度与决策影响。

单一指标无法充分评估。完整评估套件应结合算法层面的忠实性测试与用户中心的研究，以确保解释既反映模型计算，也对人类有用。

实践中的权衡与适用场景

基于归因的 SINN: 适用于细粒度特征解释及仅需特征重要性的场景 (表格数据、部分文本任务) 。计算成本低，但可能忽略高层结构。
基于函数的 SINN: 适合追求显式公式的科学问题，但难以扩展至高维或非结构化数据。
基于概念的 SINN: 在领域概念存在且可标注/发现时最佳；支持干预与反事实推理。若概念稀缺，成本高。
基于原型的 SINN: 用户直观，特别适用于视觉和文本任务；但原型对齐与冗余处理是挑战。
基于规则的 SINN: 理想用于可验证策略与逻辑推理；但训练难度大，需精心正则化保持表达力。

混合架构往往提供最佳平衡: 结合归因的细节、概念/原型的层次清晰与规则的可验证性。

挑战与未来方向

综述指出若干开放问题与前沿方向:

标准化基准与指标: 亟需统一的评估框架，同时测试忠实性、鲁棒性与人类相关性。
混合与多模态可解释性: 跨模态整合 (如图像+文本) 使用户获得一致理据。
面向大模型的可扩展自解释性: 构建可扩展至大型骨干 (Transformer、基础模型) 的 SINN 模块，同时保持透明。
集成大语言模型 (LLM): LLM 可助生成更自然的解释、发现概念候选，并充当可解释骨干；但须避免不忠实的“幻觉”式合理化。
人机回环设计: 发展原则化干预策略，使人能高效纠正与优化 SINN。
自可解释 LLM: 在 LLM 中引入显式推理模块 (概念瓶颈、符号规则) ，使解释反映内部决策而非事后推测。

结语

自可解释神经网络代表一个逐渐成熟的研究方向，它超越了事后解释，转向能自我说明的架构。五大分类——归因、函数、概念、原型、规则——为理解该领域与设计提供系统视角。在真实应用中，混合方法最具价值: 低层特征归因用于调试，中层概念助于人类对齐推理，原型提供案例透明性，规则保障可验证策略。

这一领域发展迅速，系统化评估 (算法与人类层面) 对进展至关重要。随着基础模型和 LLM 不断扩展，真正将自解释性融入这些模型——而非依赖事后合理化——将成为迈向可信赖、可问责 AI 的关键一步。

若想进一步探索原始综述及相关文献，作者维护了一个持续更新的 SINN 工作与资源库 (链接见论文) 。该综述是任何希望设计或评估可解释模型人士的理想起点。

拓展阅读: Yang Ji 等人，《自可解释神经网络综合综述》 (A Comprehensive Survey on Self-Interpretable Neural Networks) (本文总结的源论文) 。

超越黑箱: 深入探索自可解释神经网络#

简明路线图: SINN 分类体系#

1) 基于归因的 SINN —— 谁的功劳？#

2) 基于函数的 SINN —— 揭示公式#

3) 基于概念的 SINN —— 用人类语言说话#

4) 基于原型的 SINN —— “这个看起来像那个”#

5) 基于规则的 SINN —— 逻辑遇上神经网络#

混合 SINN —— 结合优势，互补不足#

SINN 的应用: 图像、文本、图与强化学习#

我们如何评估 SINN？#

实践中的权衡与适用场景#

挑战与未来方向#

结语#