人工智能,尤其是我们每天与之互动的大型语言模型 (LLM) ,常常让人感觉像一个黑箱。我们看到的是它引人注目的输出——连贯的文本、惊艳的图像、深刻的分析——但其内部运作机制仍被神秘笼罩。一个人工神经网络究竟是如何表征“大象”、“正义”或“粉色”这类概念的呢?这不仅仅是一个学术谜题。随着人工智能日益深入医疗、金融和政策等关键领域,理解它如何表征信息,对于确保可信、安全和可靠至关重要。
最近的一篇观点论文 《从叠加态到稀疏编码: 神经网络中的可解释表征》 , 为我们撬开这个黑箱提供了一个极具说服力的框架。作者指出,尽管神经网络具有非线性结构,但它们编码特征的方式却令人惊讶地简单,几乎是线性的。它们通过叠加态 (superposition) 来表征信息——即在线性表征空间中将多个概念叠加的过程。
本文将解析该论文的三个核心思想,这三者共同构成了一幅路线图,旨在将纠缠、叠加的神经激活转化为人类可解释的特征。我们将探讨:
- 可辨识性理论 (Identifiability Theory) : 为什么即使是非线性的神经网络,也能以线性形式恢复出现实世界的潜在特征。
- 稀疏编码 (Sparse Coding) : 压缩感知如何能够“分离”这些特征,使其成为可理解的组成部分。
- 定量可解释性 (Quantitative Interpretability) : 我们如何衡量解码出的特征是否真正对应于有意义的、与人类相关的概念。
读完本文,你将了解当今最先进的模型可能已经以反映认知与神经科学深层原理的方式进行学习——以及我们如何开始解读它们的含义。
叠加态的惊喜: 当大象加上粉色小球
乍一看,这听起来有些矛盾: 一个非线性的深度网络怎么会线性地表征复杂概念?然而,证据却令人震撼。作者们通过一个异常简单的实验证明了这一点,如下图所示。

图 1: 神经表征似乎可以相加——无论是生成图像还是真实图像。
实验设置如下: 研究人员使用视觉 Transformer (ViT),分别计算了一张大象图片和一张粉色小球图片的内部表征。当他们将这两个向量相加后,与一张同时包含这两个物体的图片的表征对比时,相似度几乎完美 (余弦相似度 = 0.96) 。相同现象也出现在包含狗和猫的自然照片中。
这就是叠加原理 (superposition principle) ——由 Paul Smolensky 于 1990 年正式提出——该原理指出,多个概念合取的表征等于它们各自表征的总和:
\[ \Psi\left(\bigwedge_i p_i\right) = \sum_i \Psi(p_i) \]也就是说,
\[ \Psi(\text{大象} \wedge \text{粉色小球}) = \Psi(\text{大象}) + \Psi(\text{粉色小球}) \]非线性模型呈现出这种线性可加性,揭示了一种出乎意料的规律性。但这也带来了一个挑战: 如果数以千计的特征在高维激活中线性混合,我们该如何分离出任何单一的可解释成分?作者们为此提出了一个清晰的三步流程。
寻找意义的流水线
该理论和方法融合了神经科学、表征学习与信息论的洞见。整体工作流程——如下图所示——从数据生成开始,经由神经表征,最终以可解释的稀疏解码结束。

图 2: 从叠加的神经激活中提取可解释表征的理论与实践流程。
让我们一步步看下去。
第 1 步 – 可辨识性理论: 为何表征会变得线性
设想世界由隐藏的成因或潜在变量 (记作 z) 构成。对于图像而言,这些变量可能是物体 (“狗”) 、属性 (“毛茸茸的”) 或状态 (“坐着”) 。在任何场景中,仅有少量变量是活跃的,因此它们是稀疏的 。
一个非线性的生成函数 g 将这些潜在变量组合成可观察数据 x = g(z)。另一个非线性函数 f——即训练好的神经网络——将数据映射为一个表征 y = f(x)。

图 3: 数学模型展示了非线性函数如何组合成线性映射 \(h = f ∘ g\)。
令人惊讶的是,Reizinger 等人 (2024) 的理论工作证明,在标准监督学习条件下——即使用线性分类器优化交叉熵——复合映射 h = f ∘ g 会趋于线性 。 换句话说,神经网络在一定线性变换下,有效地逆转了非线性的生成过程。
这种线性在“神经类比”中得到了实证体现,令人联想到经典的词嵌入关系: \( \text{国王} - \text{男人} + \text{女人} \approx \text{女王} \)。
类似地,考虑颜色与物体的组合:
\[ f ∘ g(\text{粉色}) \approx f ∘ g(\text{粉色小球}) - f ∘ g(\text{小球}) \approx f ∘ g(\text{粉色大象}) - f ∘ g(\text{大象}) \]以及
\[ f ∘ g(\text{大象}) + f ∘ g(\text{粉色}) \approx f ∘ g(\text{粉色大象}) \]这些可加性性质表明,神经表征在高维空间中呈现出线性行为。结论是: 在所有非线性层的深处,神经网络通过线性叠加编码世界的潜在特征。下一步,我们需要一种方法来分离这些重叠特征。
第 2 步 – 稀疏编码: 从混合中提取特征
如果表征是稀疏特征的线性混合,它们可表示为:
\[ y = \Phi z \]其中 \(\Phi\) 是线性投影。通常,表征维度 M 小于潜在特征数量 N,迫使多个特征共享方向——这就是所谓的叠加态 。
压缩感知 (Compressed sensing) 理论告诉我们,只要测量满足以下条件,我们仍能恢复原始稀疏信号:
\[ M > \mathcal{O}\bigl(K \log(N/K)\bigr), \]其中 K 为活跃成分数量。实践中,我们采用稀疏编码方法,交替估计稀疏代码 \(\hat{z}\) 并学习字典 \(\Theta\):
\[ \min_{\hat{z}} \sum_i \|y^{(i)} - \Theta \hat{z}_i\|_2^2 + \lambda \|\hat{z}_i\|_1 \]\[ \min_{\Theta} \sum_i \|y^{(i)} - \Theta \hat{z}_i\|_2^2 \;\text{s.t.}\; \|\Theta_{:,j}\|=1 \]这种优化在大规模数据上计算量极高,因此近期研究使用摊销推断 (amortized inference)——训练一个小型神经网络直接预测 \(\hat{z}\)。所得架构便是稀疏自编码器 (Sparse Autoencoder, SAE) 。

图 4: 不同嵌入维度 \(M\) 的理论恢复边界。蓝色区域表示可逆 (“可恢复”) 的范围。
尽管 SAE 具有良好的扩展性,但新的分析显示它们可能无法达到理论最优: 其简单的编码器结构限制了在超高维模型中的精确恢复。因此,提高现代 LLM 稀疏推断的效率与精度,仍是一个关键的开放问题。
第 3 步 – 定量可解释性: 衡量恢复成效
完成稀疏推断后,我们必须提出一个关键问题: 恢复出的特征真的有意义吗?
一个真正可解释的特征会被某个连贯的概念 (如“猫”) 激活,而一个部分响应猫、部分响应汽车的混合特征就几乎无用。从定量角度来看,可解释性应具备置换不变性 (permutation‑invariance)——识别“猫”和“狗”的顺序无关紧要。
几项基于人类判断的任务被视为黄金标准:
- 词语入侵任务 (Word Intrusion Task, WIT): 判断哪个词不属于与某特征关联的簇——例如,{河流, 船, 水, 键盘, 溪流}。
- “警察列队”任务 (Police Lineup Task): 测试一个特征能否区分多义词 (如“bank”) 的不同含义 (河岸 vs. 银行) 。
- 视觉入侵任务 (Visual Intrusion Task): 参与者从强烈激活某视觉特征的图像集中选出异常项。
这些实验量化了特征与人类可解释概念的对应程度。然而,要在百万级神经元尺度上评估可解释性,需要能与人类判断稳定相关的自动化指标——这是一个迅速发展的研究方向。
分离表征的简史
通往可解释表征的研究历程跨越四十年。早期语言模型使用 SVD、ICA 和 LDA 揭示文本中的语义因子。后续方法如非负稀疏嵌入 (Non‑Negative Sparse Embedding, NNSE) 和稀疏编码显著提升了人类任务表现。现代研究继续延续此路线,将稀疏自编码器应用于 Transformer 模型。

表 1: 跨模型世代 (从词嵌入到 LLM) 使用稀疏编码的研究概览。
例如,Faruqui 等人 (2015) 发现,在词语入侵任务中,人类准确率从原始 GloVe 向量的 57% 提升到稀疏化版本的 71%。最近在 GPT‑4 和 Claude 3 上采用 SAE 的研究,识别出数千个与连贯主题相关的可解释神经元——涵盖“计算机安全”、“道德推理”等主题。整体而言,这些发现确立了稀疏分解作为通向可解释性的可靠途径。
结论: 从黑箱到玻璃箱
《从叠加态到稀疏编码》提出的框架将三个长期独立的领域融为统一体系:
- 表征学习理论 — 揭示监督网络如何学习从世界潜在变量到线性空间的映射。
- 压缩感知与稀疏编码 — 提供从混合激活中恢复这些变量的数学工具。
- 心理物理学与定量可解释性 — 提供评估解码特征是否与人类概念一致的实证方法。
这些联系意义深远。对于人工智能透明性 , 它们提供了从不透明的“黑箱”走向可解释“玻璃箱”的理论路径。对于神经科学 , 它们调和了两种长期并行的观点: 单神经元学说 (一细胞一概念) 和群体编码 (分布式概念) 。叠加态可能正是连接两者的机制——在集体活动中高效编码多个稀疏特征。
当然,挑战依旧存在。经典的绑定问题 (binding problem)——即网络如何表征“一个蓝色三角形旁边有一个红色正方形”这类关系而不丧失结构——仍未解决。为不断扩大的模型实现可扩展且精准的稀疏推断,依然是技术难题。
然而,方向已经明确。将神经表征视为稀疏潜在特征的线性叠加,使研究者得以逐步将深度网络的语言翻译成我们能够理解的概念。每一步前进,都使人工智能从神秘的黑箱更进一步迈向透明的系统,让其推理过程可见、可检验、可信赖。
](https://deep-paper.org/en/paper/2503.01824/images/cover.png)