简介: “黑盒”问题
想象一下,你是一名医生,正在使用人工智能系统诊断 X 光片。AI 以 95% 的置信度预测为“肺炎”。作为一名负责任的从业者,你的第一反应不仅仅是“它对吗?”,而是“为什么?”
如果 AI 指向肺部的特定阴影 (“在哪里”) 但不告诉你它看到了什么,你可能会陷入猜测。相反,如果 AI 说它检测到了“积液” (“是什么”) 但不告诉你积液在哪里,你就无法验证它是看到了肺部还是背景中的伪影。
人类通过结合这两个要素来解释事物。我们会说: “那是一只狗,因为我在这儿看到了耳朵 , 在那儿看到了毛 。 ”我们将语义概念与空间定位结合了起来。
大多数深度神经网络 (DNN) 做不到这一点。它们是“黑盒”,摄入像素并输出概率。虽然我们在可解释人工智能 (XAI) 方面取得了进步,但大多数方法迫使我们在视觉热力图 (可能含糊不清) 或抽象概念 (缺乏位置信息) 之间做出选择。
在论文 “Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck Models” (展示与讲述: 通过空间感知概念瓶颈模型实现视觉可解释的深度神经网络) 中,研究人员 Itay Benou 和 Tammy Riklin Raviv 提出了一个统一的框架来解决这一困境。他们引入了 SALF-CBM , 这是一种既能向你“展示 (show) ”它在看哪里,又能“讲述 (tell) ”它在那里发现了什么概念的模型,而且所有这些都不需要昂贵的人工标注。

如上图所示,这种方法可以将一张狗的图像分解成可理解的部分——突出显示帽子、脸或球——就像人类分解场景一样。
可解释性的现状
要理解这篇论文的重要性,我们需要看看在此之前存在的两种主要 XAI 方法。
1. 归因方法 (“在哪里”)
这些方法 (如 GradCAM) 会生成热力图。它们通过查看网络中的梯度来找出哪些像素对最终决策的影响最大。
- 优点: 非常适合定位。
- 缺点: 它们不告诉你模型看到了什么。汽车轮胎上的红色斑块可能意味着“轮胎”、“橡胶”、“黑色圆圈”或“污垢”。如果没有语义标签,热力图很容易被过度解读。
2. 概念瓶颈模型 (“是什么”)
概念瓶颈模型 (CBMs) 强迫神经网络在做出最终预测之前,通过一个“瓶颈”层来压缩信息。这一层由代表特定概念 (例如“翅膀”、“喙”、“羽毛”) 的神经元组成。
- 优点: 具有高度可解释的决策逻辑 (例如,“它有翅膀和喙,所以它是一只鸟”) 。
- 缺点: 传统的 CBM 通常会进行全局信息池化。它们会丢失空间数据。它们可以告诉你图像包含“草”,但无法告诉你草在哪里。此外,与标准的“黑盒”模型相比,强制设置这个瓶颈通常会损害模型的准确性。
鸿沟
研究人员发现了一个关键的鸿沟: 没有一种统一的方法能够在不牺牲性能或不需要人类手动标注数千个概念的情况下,同时提供空间感知和概念清晰度 。
解决方案: SALF-CBM
作者介绍了 空间感知与无标签概念瓶颈模型 (Spatially-Aware and Label-Free Concept Bottleneck Model, SALF-CBM) 。 让我们以此拆解这个名字:
- 空间感知 (Spatially-Aware) : 它保留了图像特征的空间结构 (高度和宽度) ,而不是将其压缩成单个向量。
- 无标签 (Label-Free) : 它不需要人类来标注概念 (比如“这是一个翅膀”) 。它利用大型语言模型和视觉-语言模型 (如 CLIP) 来自动找出相关的概念。
架构
将标准的黑盒模型转换为透明的 SALF-CBM 涉及四个巧妙的步骤。

第一步: 生成概念列表
首先,模型需要词汇量。研究人员没有聘请专家,而是使用 GPT。他们向 GPT 提问,例如“列出识别{类别}的最重要特征”或“在{类别}周围常见的东西是什么?”。
对于一个鸟类数据集,这可能会生成一个包含“喙”、“翅膀”、“红色羽毛”等的列表。系统会对这些词进行过滤以去除同义词,从而得到一个干净的包含 \(M\) 个概念的列表。
第二步: 局部图像-概念相似度 (“红圈”技巧)
这可能是训练设置中最具创新性的部分 (如上图 (b) 部分所示) 。研究人员需要“真实标签 (ground truth) ”来教导模型概念位于何处,但他们没有分割掩码。
他们的解决方案? 视觉提示 (Visual Prompting) 。
他们使用 CLIP,这是一个既能理解图像又能理解文本的强大预训练模型。研究表明,如果你在图像上画一个红圈 , CLIP 就会将注意力集中在圆圈内的内容上。
研究人员获取训练图像,并在网格上系统地画红圈。对于每个圆圈位置,他们问 CLIP: “这个红圈内的内容与文本概念‘喙’有多相似?”
通过对整张图像的每个概念都这样做,他们构建了一个空间概念相似度矩阵 (\(P\)) 。 这个矩阵充当老师,告诉新模型概念可能存在于训练数据中的什么位置。
第三步: 训练空间感知瓶颈层
现在,他们使用一个标准的骨干网络 (如 ResNet 或 Vision Transformer) 来处理图像以获取特征。他们没有立即对这些特征进行池化,而是将其投影到概念瓶颈层 (CBL) 中。
这一层输出一组特征图——每个概念对应一张图。目标是让这些学习到的特征图与 CLIP 在第二步生成的“教师”矩阵相匹配。
用于训练这一层的损失函数试图最大化学习到的图 (\(q\)) 与 CLIP 生成的目标图 (\(p\)) 之间的相似度:

在这里,相似度是使用三次余弦相似度计算的,这种方法强调强匹配并忽略微弱的背景噪声。
第四步: 最终分类
一旦模型生成了这些概念图 (例如,一张显示“翅膀”在哪里的图) ,它就会执行全局池化操作,为每个概念获得一个汇总分数。
最后,一个稀疏线性层进行预测。这一层学习连接概念与类别的权重 (\(W\)) 。例如,“老虎”类别将学习到“条纹”概念的强正权重。

因为最终决定只是概念的加权和,我们可以查看权重以确切了解模型为什么做出该决定。
可视化逻辑
SALF-CBM 最强大的方面之一是决策过程变得多么透明。在测试时,你不再需要 CLIP 或红圈。模型只需摄入图像并生成概念图。
我们可以使用桑基图 (如下图所示) 来可视化信息流。

在上面的例子中,看到“毛绒玩具”将概率推向“玩具店”,而看到“木板”和“托盘”将概率推向“板条箱”。模型实际上是在展示它的工作过程。
实验结果
人们通常认为,让模型具有可解释性会使其变笨 (准确性与可解释性的权衡) 。SALF-CBM 会受到这种影响吗?
分类准确率
研究人员在三个主要数据集上测试了他们的模型: CUB-200 (鸟类) 、Places365 (场景) 和 ImageNet (物体) 。他们将其与标准的黑盒模型和其他概念瓶颈方法 (P-CBM, LF-CBM) 进行了比较。

令人惊讶的是, SALF-CBM 优于其他可解释模型。 更令人印象深刻的是,在像 ImageNet 和 Places365 这样复杂的数据集上,它实际上优于原始的“黑盒”骨干网络 (ResNet-50) 。
为什么?通过将潜空间结构化为有意义的概念,模型可能正在学习比原始抽象向量泛化能力更强的特征。
热力图质量 (零样本分割)
空间图有多好?为了测试这一点,作者使用了分割任务。他们获取生成的概念热力图,并检查它们是否准确覆盖了感兴趣的物体,并与 GradCAM 和 LRP 等著名方法进行了比较。

如上图的视觉对比所示,标准方法通常会产生溢出到背景中的嘈杂“斑点”。SALF-CBM (标记为“Ours”) 产生了紧凑、针对特定物体的高亮区域。
定量数据支持了这一点:

SALF-CBM 实现了最高的像素准确率 (Pixel Accuracy) 和平均交并比 (mIoU) ,证明其空间感知不仅仅是一个噱头——它实际上比基于梯度的方法更精确地定位了物体。
神经元真的是“名副其实”吗?
对 CBM 的一个主要批评是,标记为“翅膀”的神经元是否真的在寻找翅膀,或者它只是在检测“鸟类相关的东西”。
研究人员进行了一项用户研究,让人们对激活特定概念神经元的图像的一致性进行评分。

结果表明,SALF-CBM 神经元的语义一致性明显高于基线神经元。如果模型说它看到了“喙”,它真的就是在看喙。
交互式解释: “解释任何事物”
由于 SALF-CBM 在整个网络中保留了空间信息,它支持标准模型无法支持的酷炫交互功能。
作者引入了 “解释任何事物 (Explain Anything) ” 模式。用户可以遮罩图像的特定区域 (感兴趣区域或 ROI) ,并问模型: “你在这里看到了什么概念?”

在上面的例子中,模型正确地识别了女孩裙子上的“纺织品”和“缝合设计”,以及绿色涂鸦上的“草坪”。这使模型变成了一个探索工具。
调试和修复模型
这种空间透明度允许进行可操作的调试。作者展示了一个案例,模型错误地将 红绿灯 分类为 停车计时器 。
在标准的黑盒中,你只会看到“停车计时器: 90%”。你不会知道原因。
使用 SALF-CBM,研究人员可以探测红绿灯的特定区域。他们发现模型检测到了通用的“标志”概念,但该区域缺少了关键的“闪烁灯光”概念。

通过手动干预——局部编辑概念图以增加杆子上“闪烁灯光”和“变色能力”的激活——模型将预测转变为正确的类别: 红绿灯 。
这预示着未来人类可以通过在空间上纠正神经网络的逻辑来“调试”它们,类似于老师纠正学生,而不是完全重新训练它们。
视频追踪能力
虽然该模型是在静态图像上训练的,但其空间一致性足以在视频上工作。通过逐帧应用该模型,它实际上充当了特定概念的物体追踪器。

在该图的第一行中,“足球”概念 (黄色) 完美地跨帧追踪足球,而“树木” (红色) 则停留在背景上。这种能力是自然涌现的,无需任何针对视频的训练。
结论
“展示与讲述 (Show and Tell) ”论文代表了可解释人工智能向前迈出的重要一步。它使我们摆脱了要么拥有好的热力图要么拥有好的语义标签的二元对立。
通过利用视觉-语言模型 (CLIP) 的力量来监督训练, SALF-CBM 实现了:
- 无标签训练: 不需要昂贵的人工边界框。
- 空间精度: 能够实际勾勒出物体轮廓的热力图,优于 GradCAM。
- 语义清晰: 基于人类可理解概念的解释。
- 高性能: 准确率匹配甚至击败“黑盒”模型。
对于进入该领域的学生和研究人员来说,这篇论文阐述了一个重要的教训: 可解释性不必是附加在完成模型上的事后分析层。通过从底层设计具有可解释性的架构——特别是通过保留空间维度——我们可以构建不仅强大而且透明、值得信赖的 AI 系统。
](https://deep-paper.org/en/paper/2502.20134/images/cover.png)