现代 AI 模型——尤其是像 GPT-4 这样的大型语言模型——拥有惊人的能力。它们能够编写代码、总结研究论文、解释复杂的概念。然而,尽管这些成就令人瞩目,我们并不真正知道它们是如何做到的。每个模型内部都藏着一个由数十亿参数组成的迷宫,形成了一个极其复杂的网络,其逻辑几乎完全不透明。这使得 AI 系统常被称为“黑箱”。
窥探这个黑箱、揭示驱动模型行为的算法,正是机械可解释性 (mechanistic interpretability) 的使命。该领域的研究人员旨在对神经网络进行逆向工程——将人工神经元学到的模式和路径转化为可理解的算法。然而直到最近,这个过程仍严重依赖手动实验和直觉,专家们需要花费数月时间来追踪哪些内部组件驱动了特定的行为。
这种手动侦查工作虽然有效,却极其缓慢。随着 AI 模型日益庞大、复杂,显然我们需要一种可扩展的方法,使可解释性更加系统化。 这就是自动化的用武之地。
论文 《迈向机械可解释性的自动化电路发现》 (Towards Automated Circuit Discovery for Mechanistic Interpretability) 向前迈出了雄心勃勃的一步。它将研究人员寻找电路——即负责特定行为的内部计算路径——的工作流程进行系统化,并引入了一种可自动完成最耗时部分的算法。该方法称为 ACDC (Automatic Circuit DisCovery,自动化电路发现) , 能够识别神经网络中负责特定行为的相互连接组件。
本文将探讨 ACDC 的工作原理、其重要性,以及它对未来透明 AI 的意义。
解构机械可解释性工作流
在实现自动化之前,我们需先理解手动工作流程。作者总结出许多成功的可解释性项目在逆向工程 Transformer 模型内部电路时遵循的三个步骤。
第 1 步: 确定一个特定行为
第一步是明确研究对象。神经网络能执行数千种功能,但可解释性研究通常一次只聚焦一个可度量的行为。例如 GPT‑2 Small 模型在解决大于 (Greater‑Than) 任务上的能力——一个看似简单却极具代表性的能力。当给出提示:
“战争从 1517 年持续到 15”
GPT‑2 Small 会预测出“18”或“19”,正确选择了一个比 17 大的年份。为分析这一行为,研究人员定义了:
- 一个行为: 具体的研究现象 (如间接宾语识别、归纳模式或年份比较) 。
- 一个数据集: 能反复引发该行为的提示集合,例如针对“大于”任务的多组年份句子。
- 一个度量指标: 衡量该行为性能的量化指标,例如模型预测大于 17 和小于 17 数字的概率差。
通过结合这些元素,研究人员可以可靠地触发并研究模型处理单一行为的内部机制。

作者用于评估自动化电路恢复方法的基准任务表。
第 2 步: 将模型表示为图结构
Transformer 不仅仅是层的堆叠——它们构成了一个复杂的计算图 。 在该图中,每个节点代表一个组成部分,如注意力头或 MLP,边则表示信息流动的路径。由于 Transformer 的残差流 (residual stream) ,组件可在相邻层甚至远距离层之间交互,意味着早期特征可以直接影响后续计算。
该图的细节层次称为粒度 (granularity) ,可根据需求而变。在较粗粒度下,我们可把每个注意力头视作一个节点;在较细粒度下,则可把每个头拆分为其独立的查询、键和值向量。选择取决于所需的解释分辨率——粒度越高洞察越深,但计算成本也越大。
第 3 步: 通过激活补丁分离电路
定义好行为、数据集和图后,关键问题是: 哪些节点和边真正重要? 为此,研究人员使用激活补丁 (activation patching) ,也称为交换干预 (interchange interventions) 。
过程如下:
- 配对输入: 选择一个干净输入 (能触发行为) 和一个损坏输入 (不能触发行为) 。
- 捕获激活: 分别在两种输入上运行模型,记录网络中每条边的数值信号。
- 修补模型: 再次在干净输入上运行模型,但将某个节点或边的激活替换为来自损坏输入的对应激活。
- 衡量性能: 检查度量指标变化。如果性能显著下降,该组件至关重要;若几乎无变化,则贡献较小。
通过从输出层向后递归地重复该过程,研究人员可逐步剔除无关边,直到只剩核心子图——即电路。
这一方法非常严谨,但极其耗时。ACDC 的设计正是为了自动化这一环节。
ACDC: 自动化侦探工作
ACDC 将手动“修补并测试”的流程转化为算法化过程,系统地剪枝计算图。从输出端开始,依次测试每个连接,看移除它是否显著影响模型在任务上的性能。

图2: ACDC 算法的概念性示意图。它迭代地剪除不重要连接,直到仅留下与任务相关的电路。
工作原理
- 初始化全图: 从所有节点和边开始,记为 \( H = G \)。
- 逆序迭代: 从输出向输入方向遍历。
- 测试每条边: 暂时移除一条边,并执行一次如激活补丁的带修补前向传播。
- 衡量影响: 计算 KL 散度变化,评估修补后输出分布与原模型输出的差异。
- 应用剪枝规则: \[ D_{KL}(G || H_{\text{new}}) - D_{KL}(G || H) < \tau \] 若差值小于阈值 \( \tau \),则认为该边不重要并永久移除。
- 递归重复: 持续测试所有边,直至剩下的图成为最小且可保留行为的电路。
最终结果是一个显著简化的子图,既保持性能,又揭示模型内部算法的结构。
对 ACDC 的验证
为验证 ACDC 是否确实能识别真正的电路,作者提出两个问题:
- Q1: ACDC 能否找到驱动行为的真实组件?
- Q2: 它是否能避免纳入与该行为无关的组件?
他们通过两项互补实验来回答以上问题。
实验 1: 重新发现已知电路
ACDC 在五个已有人工绘制电路的行为上进行了测试——如间接宾语识别 (IOI)、大于任务和文档字符串补全 。 模型中的每条边被标记为“在电路内”或“在电路外”。通过调整阈值 \( \tau \),研究人员绘制出ROC 曲线 , 展示真阳性与假阳性率的关系。
性能与两种其他方法进行对比:
- 子网络探测 (Subnetwork Probing, SP) ——一种基于梯度的掩码技术
- 用于剪枝的头重要性分数 (Head Importance Score for Pruning, HISP) ——按梯度大小对注意力头排序与剪枝

图3: 比较 ACDC、SP 和 HISP 的 ROC 曲线。越靠近左上角说明回路边恢复效果越佳。
ACDC 表现极具竞争力——且在若干案例中表现最佳。在 IOI 与“大于”任务中,ACDC 获得最高曲线下面积分数。尤其在 IOI 任务中,它精确恢复了先前人工发现的全部五类组件。

图1: 自动化发现的力量。左图: GPT‑2 Small 的完整计算图。右图: 由 ACDC 自动恢复的稀疏 IOI 电路——所有组件均匹配手动结果。
实验 2: 在缺乏真实标签的情况下评估新电路
对于没有预先绘制电路的任务,需要使用内在指标评估电路质量。一个理想的电路应:
- 保持保真度: 输出与完整模型几乎一致 (低 KL 散度) 。
- 保持简洁性: 边数尽可能少 (高稀疏性) 。
这些指标在归纳任务 (模型预测重复序列模式,如 “A B … A → B”) 中被检验。研究人员运行 ACDC、SP 和 HISP,绘制结果的规模与散度分布图。

图4: 归纳任务上的电路评估。左下角的点表示小型且高性能的电路。ACDC (红色) 形成帕累托前沿,表现优于其他方法。
当边数超过 20 条时,帕累托前沿上的所有点均来自 ACDC。这意味着在任意稀疏度水平下,ACDC 都找到了保真度最佳的电路——强有力地证明它能高效捕捉模型的真实计算结构。
优势、局限与未来方向
结果十分令人信服: ACDC 能准确重现已有人工解析的电路,并持续生成高效且高保真度的子图。这标志着机械可解释性正稳步扩展至现代大型模型。
但自动化也存在一些限制。作者指出:
- ACDC 的表现取决于超参数与度量指标的选择;
- 它难以稳定发现负向组件——即那些主动抵制错误预测的部分;
- 某些任务中使用零激活代替损坏激活能取得更好效果,说明算法行为受细微设计影响。
尽管存在这些细节差异,总体结论依然积极: ACDC 有效。 它将原本耗费大量人力和时间的探索过程,转化为一个系统化算法,能够自动发现和提取电路。
重要意义
机械可解释性研究的核心目标是理解模型的原因机制。让这一过程自动化,可使研究者探索更大规模、更复杂的模型和行为,以前手动分析根本不可行的任务。它将帮助研究者:
- 诊断并调试语言模型中的错误与失配行为
- 识别网络内部的涌现模式与算法原语
- 设计更具透明度和可解释性的架构
- 构建更安全、可控的 AI 系统
作者已在 github.com/ArthurConmy/Automatic-Circuit-Discovery 开源代码,欢迎全球研究者测试、扩展并改进 ACDC。
结论
论文 《迈向机械可解释性的自动化电路发现》 是 AI 透明化的重要进展。通过将既有的可解释性工作流程编码化并自动化其最耗时部分,ACDC 让我们更接近真正理解神经网络——不再仅将其视作神秘黑箱,而是可被发现、可被理解的算法系统。
人类洞察仍是核心——最终我们需解释这些电路意味着什么。但如今,算法能代劳繁重的工作,扫描复杂模型并揭示驱动其行为的子网络。
随着 AI 持续发展,这种手动理解与自动化发现的协同互动,或将成为可解释性研究的下一前沿: 更快、更深入、更清晰地洞察机器的心智。
](https://deep-paper.org/en/paper/2304.14997/images/cover.png)