引言

大型语言模型 (LLM) 是如何“看”到图像的?当我们把一张胸部 X 光片或城市的卫星俯视图输入到像 LLaVA 或 InstructBLIP 这样的多模态大型语言模型 (MLLM) 中时,我们知道其架构原理: 图像编码器将视觉信息分解为特征,投影器将其映射到语言空间,然后 LLM 生成回答。但是,从最初的投影到最终的回答,在隐藏层之间究竟发生了什么?

模型处理医疗图像的方式和处理猫的照片一样吗?还是说它会切换到“医疗模式”,利用其神经网络中专门为处理领域特定知识而设计的特定路径?

在纯文本 LLM 领域,研究人员已经发现了“特定语言神经元”——即只有当模型处理法语、中文或英语时才会亮起的组件。这一发现彻底改变了我们对模型如何处理多语言能力的理解。现在,一项名为 “MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model” 的新研究将这种取证视角应用到了视觉语言模型上。

比较 LLM 中的特定语言神经元与 MLLM 中的领域特定神经元。

如上图所示,正如多语言模型拥有专门针对特定语言的神经元 (图 1a) ,该论文的作者假设 MLLM 拥有领域特定神经元 (图 1b) 。这些神经元仅在模型遇到来自医学、遥感或自动驾驶等特定领域的视觉内容时才会激活。

在这篇文章中,我们将拆解 MLLM 的黑盒。我们将探索研究人员如何识别这些专家神经元,可视化模型用于理解图像的“三阶段机制”,并讨论这对 AI 可解释性的未来意味着什么。

背景: 多模态景观

要理解 MMNeuron,我们首先需要了解多模态大型语言模型的现状。像 LLaVA-NeXT 和 InstructBLIP 这样的代表性模型遵循一个独特的流程。它们不是从头开始训练视觉模型;相反,它们依赖预训练的视觉编码器 (如 CLIP 或 ViT) 从图像中提取特征。然后,这些特征被“投影”到词嵌入空间——本质上是将视觉数据翻译成 LLM 可以理解的语言。

然而,“翻译”只是一个隐喻。在数学上,这些是高维向量。一个关键问题是,来自不同领域的视觉特征——比如文档与驾驶场景——在这个空间中对模型来说是否看起来不同。

通过 CLIP 图像编码器提取的图像嵌入的 PCA 可视化,显示了不同领域的明显聚类。

研究人员收集了五个不同领域的数据:

  1. 通用场景 (Common Scenes) : 日常照片 (数据集: VQAv2) 。
  2. 医疗 (Medical) : X 光片、CT 扫描 (数据集: PMC-VQA) 。
  3. 遥感 (Remote Sensing) : 卫星图像 (数据集: RS-VQA) 。
  4. 文档 (Documents) : 包含大量文本的图像 (数据集: DocVQA) 。
  5. 自动驾驶 (Auto Driving) : 仪表盘视图 (数据集: LingoQA) 。

如上面的 PCA 可视化图 (图 2) 所示,这些领域的视觉特征自然地聚集成不同的组。蓝色聚类 (自动驾驶) 和绿色聚类 (遥感) 相距甚远。这种统计上的分离表明,模型应该以不同的方式处理它们。本文的目标是找到负责这种处理的具体生物机制——即“神经元”。

核心方法: 发现 MMNeurons

作者提出的方法是一个取证框架,旨在根据神经元对特定视觉领域的响应能力来识别、量化和分析它们。

1. 激活的架构

首先,让我们形式化 MLLM 的流程。模型接收图像 (\(X_v\)) ,将其通过视觉编码器 (\(f_{\Theta}\)) ,然后通过投影器 (\(f_{\Pi}\)) 以创建投影后特征 (\(H_v\)) 。

公式 1: 投影后视觉特征的公式。

这些视觉特征与文本指令 (\(H_q\)) 拼接在一起,并输入语言模型 (\(f_{\Phi}\)) 以生成答案 (\(X_a\)) 。

公式 2: 基于视觉和语言特征生成答案的公式。

我们感兴趣的“神经元”位于 Transformer 层的前馈网络 (FFN) 内。在 Transformer 的每一层中,都有一个由两个线性变换组成的 FFN,中间夹着一个激活函数 (如 GELU) 。

公式 3: 前馈网络输出的公式。

在这个公式中,激活函数的输出 \(\operatorname{act\_fn}(h^i W_1^i)\) 代表神经元激活 。 如果值为正,神经元就在“放电” (firing) 。如果为零或负值 (取决于函数) ,它就是静默的。

2. MMNeuron 框架

研究人员提出了一种方法来计算神经元对特定领域的“特异性”。这涉及将来自五个领域的数千张图像输入模型,并追踪哪些神经元被激活。

我们提出的 MM-Neuron 方法的整体框架。

如图 3 所示,该过程涉及三个步骤:

  1. 激活检测 (Activation Detection) : 输入特定领域的数据并记录激活情况。
  2. 概率计算 (Probability Calculation) : 确定某个神经元针对特定领域相对于其他领域的激活频率。
  3. 神经元筛选 (Neuron Selection) : 筛选出高度专业化的神经元。

为了量化特异性,他们计算了神经元 \(u\) 在领域 \(i\) 中的激活概率 (\(p_{u,i}\)) 。这仅仅是激活频率除以总 Token 数。

公式 4: 激活概率公式。

这为我们提供了每个神经元的分布向量 \(P_u\),代表其在所有五个领域中的行为。

公式 5: 神经元的概率分布向量。

为了使其可用,他们将此向量归一化,使其总和为 1,从而创建一个有效的概率分布 \(P'_u\)。

公式 6: 归一化的概率分布。

3. 领域激活概率熵 (DAPE)

我们如何判断一个神经元是“专家”还是“通才”?通才神经元会对医疗、驾驶和通用图像同等激活。其概率分布将是平坦的 (例如,[0.2, 0.2, 0.2, 0.2, 0.2]) 。专家神经元几乎只会在一个领域激活 (例如,[0.0, 0.95, 0.0, 0.05, 0.0]) 。

为了衡量这一点,作者使用了熵 (Entropy)

公式 7: 领域激活概率熵 (DAPE) 公式。

DAPE (领域激活概率熵) 是核心指标。

  • 高熵: 神经元对所有内容都激活。它是领域无关的。
  • 低熵: 神经元仅针对一个或两个领域激活。它是领域特定的。

研究人员将 DAPE 分数最低的 1% 的神经元识别为“领域特定神经元”。

4. 利用 Logit Lens 解释隐藏状态

识别神经元只是战斗的一半。我们还想知道模型在处理这些特征时在想什么。通常,我们只能看到最终输出的 Token。然而,作者采用了一种称为 Logit Lens 的技术。

Logit Lens 分析的通用框架。

在 Transformer 中,第 \(l\) 层的隐藏状态 \(h_l\) 通常传递给第 \(l+1\) 层。

公式 8: Transformer 中隐藏状态的递归更新。

Logit Lens 技术 (图 4) 获取中间隐藏状态 \(h_l\),并提前将其强制通过模型的最终“去嵌入 (unembedding) ”层 (\(W_U\)) 。这将隐藏状态解码为词汇表中的一个单词,实际上是在问模型: “如果你必须现在停止思考并猜测下一个单词,它会是什么?”

公式 10: Logit Lens 公式。

这使得研究人员能够逐层可视化模型理解的演变过程。

实验与结果

研究人员将 MMNeuron 应用于 LLaVA-NeXT 和 InstructBLIP。研究结果揭示了这些庞大模型如何处理视觉信息的有趣叙事。

1. 三阶段机制

通过绘制领域特定神经元在大型语言模型各层中的分布图,出现了一个独特的模式。

不同模块中领域特定神经元的逐层分布。

观察上面的图表 (图 5) ,特别是语言模型模块 (左下角) ,我们看到领域特定神经元的数量呈现出“U”形或先降后升的模式。这支持了作者关于三阶段机制的假设:

  1. 对齐 (早期层) : 模型接收投影后的视觉特征。这些特征仍然是“原始的”,需要大量的领域特定处理才能与 LLM 的内部表示对齐。我们在这里看到大量的领域特定神经元。
  2. 泛化 (中间层) : 曲线下降。模型已成功将特征嵌入到统一的语义空间中。处理变得更加抽象和通用;需要的领域特定神经元更少,因为这些概念现在对模型来说是“通用”的。
  3. 任务求解 (后期层) : 曲线再次上升。模型准备生成特定的文本回答 (例如,回答医疗问题) 。它回想起形成正确术语 (如“肺炎”或“左心室”) 所需的领域特定知识,导致特定神经元的复苏。

2. 领域“难度”与神经元数量

并非所有领域都是平等的。致力于某个领域的神经元绝对数量可以表明模型掌握该概念的“难度”,或者该领域与模型通用训练数据的区别程度。

表 1: MLLM 不同模块中每个领域的神经元数量。

表 1 显示,对于 LLaVA-NeXT, 遥感领域在视觉编码器和 LLM 中占据了最多的神经元。这表明,与其独特的俯视视角和特定物体相比,遥感图像需要比通用场景更多的专门处理能力。

有趣的是,对于 InstructBLIP, 自动驾驶在 Q-Former 和 LLM 模块中占主导地位。这可能反映了与静态文档分析相比,模型在解释与驾驶场景相关的复杂、动态指令时的挣扎。

3. 静默神经元的影响

为了验证这些神经元是否真的重要,研究人员进行了消融研究 (ablation study) 。他们“静默” (停用) 了领域特定神经元,并测量了对性能的影响。

表 2: 停用相应神经元后 LLaVA-NeXT 和 InstructBLIP 的准确率。

表 2 中的结果很微妙。

  • 性能下降: 停用这些神经元确实降低了准确率。例如,在 LLaVA-NeXT 中,停用遥感神经元导致准确率从 42.5% 下降到 38.5% (查看“All”行时) 。
  • 韧性: 下降并非灾难性的。准确率并没有归零。这意味着模型具有冗余性;其他通才神经元可以部分补偿。
  • 隐藏状态扰动: 虽然准确率仅略有下降,但研究人员发现内部隐藏状态发生了巨大变化 (在某些情况下超过 30%) 。这是一个关键的见解: 当前的 MLLM 没有充分利用它们拥有的领域特定信息。 信息就在那里 (在神经元中) ,移除它会改变模型的内部状态,但最终的输出生成足够稳健,通常仍能猜对。

4. 可视化思维过程 (案例研究)

利用 Logit Lens,该论文提供了一个观察模型逐层“思维过程”的窗口。

InstructBLIP 在 PMC-VQA 上的 Logit Lens 案例研究。

考虑上面图 10 中的医疗示例。模型被问及脑部扫描。

  • 早期层 (32-24): 模型预测与图像类型相关的通用 Token: “CT”、“scan”、“brain”。它正在识别领域
  • 中间层 (20-10): 预测发生转变。它正在探索相关概念。
  • 后期层 (4-2): 模型收敛到特定的答案选项“B”。

我们还可以查看这些预测的。这里的熵衡量的是困惑度。如果模型确信下一个 Token 是“cat”,熵就很低。如果它认为可能是“cat”、“dog”或“car”,熵就很高。

图像和文本 Token 的下一 Token 概率分布的平均熵。

图 7 (以及图 6/21 中的热图) 在视觉上验证了三阶段理论。

  • 开始: 高熵 (困惑/对齐) 。
  • 中间: 熵急剧下降 (理解/泛化) 。
  • 结束: 在选择特定输出词时略有上升或稳定。

至关重要的是, 图像 Token (虚线) 的熵通常高于文本 Token。这表明对于 LLM 来说,视觉 Token 是“概念的稀疏混合”——它不像“桌子”这个词那样具体,而是一团视觉可能性的云,随着它在层级中的移动而坍缩成意义。

结论与启示

MMNeuron 论文提供了首个全面的、神经元级别的多模态大型语言模型如何处理不同领域的图谱。通过采用多语言分析技术,作者发现 MLLM 并非单一体;它们包含用于医学、驾驶和遥感的专门子网络。

三阶段机制——对齐、泛化和任务求解——的发现,为理解信息在这些庞大网络中的流动提供了蓝图。

也许最实际的收获是消融研究揭示的低效率。停用这些专门神经元会极大地改变隐藏状态,但仅对准确率造成轻微损害,这一事实表明当前模型未充分利用其领域特定知识。它们是“万金油”,有潜力成为大师,但它们的内部连线尚未完全优化以利用这种精通能力。

对于学生和研究人员来说,这开辟了令人兴奋的途径。如果我们能够更好地定位并增强这些领域特定神经元,我们或许能够构建“跨领域全能”的 MLLM,它们不仅能在放射学或自动驾驶等专业领域生存,而且能蓬勃发展。