现代 AI 模型——尤其是像 GPT-4 这样的大型语言模型——拥有惊人的能力。它们能够编写代码、总结研究论文、解释复杂的概念。然而,尽管这些成就令人瞩目,我们并不真正知道它们是如何做到的。每个模型内部都藏着一个由数十亿参数组成的迷宫,形成了一个极其复杂的网络,其逻辑几乎完全不透明。这使得 AI 系统常被称为“黑箱”。

窥探这个黑箱、揭示驱动模型行为的算法,正是机械可解释性 (mechanistic interpretability) 的使命。该领域的研究人员旨在对神经网络进行逆向工程——将人工神经元学到的模式和路径转化为可理解的算法。然而直到最近,这个过程仍严重依赖手动实验和直觉,专家们需要花费数月时间来追踪哪些内部组件驱动了特定的行为。

这种手动侦查工作虽然有效,却极其缓慢。随着 AI 模型日益庞大、复杂,显然我们需要一种可扩展的方法,使可解释性更加系统化。 这就是自动化的用武之地。

论文 《迈向机械可解释性的自动化电路发现》 (Towards Automated Circuit Discovery for Mechanistic Interpretability) 向前迈出了雄心勃勃的一步。它将研究人员寻找电路——即负责特定行为的内部计算路径——的工作流程进行系统化,并引入了一种可自动完成最耗时部分的算法。该方法称为 ACDC (Automatic Circuit DisCovery,自动化电路发现) , 能够识别神经网络中负责特定行为的相互连接组件。

本文将探讨 ACDC 的工作原理、其重要性,以及它对未来透明 AI 的意义。


解构机械可解释性工作流

在实现自动化之前,我们需先理解手动工作流程。作者总结出许多成功的可解释性项目在逆向工程 Transformer 模型内部电路时遵循的三个步骤。

第 1 步: 确定一个特定行为

第一步是明确研究对象。神经网络能执行数千种功能,但可解释性研究通常一次只聚焦一个可度量的行为。例如 GPT‑2 Small 模型在解决大于 (Greater‑Than) 任务上的能力——一个看似简单却极具代表性的能力。当给出提示:

“战争从 1517 年持续到 15”

GPT‑2 Small 会预测出“18”或“19”,正确选择了一个比 17 大的年份。为分析这一行为,研究人员定义了:

  1. 一个行为: 具体的研究现象 (如间接宾语识别、归纳模式或年份比较) 。
  2. 一个数据集: 能反复引发该行为的提示集合,例如针对“大于”任务的多组年份句子。
  3. 一个度量指标: 衡量该行为性能的量化指标,例如模型预测大于 17 和小于 17 数字的概率差。

通过结合这些元素,研究人员可以可靠地触发并研究模型处理单一行为的内部机制。

作者用于评估自动化电路恢复方法的基准任务表,包括 IOI、Docstring、大于、tracr-xproportion、tracr-reverse 和归纳任务,并附有每个任务的示例提示、输出和度量指标。

作者用于评估自动化电路恢复方法的基准任务表。


第 2 步: 将模型表示为图结构

Transformer 不仅仅是层的堆叠——它们构成了一个复杂的计算图 。 在该图中,每个节点代表一个组成部分,如注意力头或 MLP,边则表示信息流动的路径。由于 Transformer 的残差流 (residual stream) ,组件可在相邻层甚至远距离层之间交互,意味着早期特征可以直接影响后续计算。

该图的细节层次称为粒度 (granularity) ,可根据需求而变。在较粗粒度下,我们可把每个注意力头视作一个节点;在较细粒度下,则可把每个头拆分为其独立的查询、键和值向量。选择取决于所需的解释分辨率——粒度越高洞察越深,但计算成本也越大。


第 3 步: 通过激活补丁分离电路

定义好行为、数据集和图后,关键问题是: 哪些节点和边真正重要? 为此,研究人员使用激活补丁 (activation patching) ,也称为交换干预 (interchange interventions) 。

过程如下:

  1. 配对输入: 选择一个干净输入 (能触发行为) 和一个损坏输入 (不能触发行为) 。
  2. 捕获激活: 分别在两种输入上运行模型,记录网络中每条边的数值信号。
  3. 修补模型: 再次在干净输入上运行模型,但将某个节点或边的激活替换为来自损坏输入的对应激活。
  4. 衡量性能: 检查度量指标变化。如果性能显著下降,该组件至关重要;若几乎无变化,则贡献较小。

通过从输出层向后递归地重复该过程,研究人员可逐步剔除无关边,直到只剩核心子图——即电路。

这一方法非常严谨,但极其耗时。ACDC 的设计正是为了自动化这一环节。


ACDC: 自动化侦探工作

ACDC 将手动“修补并测试”的流程转化为算法化过程,系统地剪枝计算图。从输出端开始,依次测试每个连接,看移除它是否显著影响模型在任务上的性能。

一个三面板示意图展示 ACDC 过程。(a) 定义完整计算图。(b) 测试单条边并修补,若性能变化不大则剪除。(c) 递归重复该过程直至仅剩相关电路。

图2: ACDC 算法的概念性示意图。它迭代地剪除不重要连接,直到仅留下与任务相关的电路。

工作原理

  1. 初始化全图: 从所有节点和边开始,记为 \( H = G \)。
  2. 逆序迭代: 从输出向输入方向遍历。
  3. 测试每条边: 暂时移除一条边,并执行一次如激活补丁的带修补前向传播。
  4. 衡量影响: 计算 KL 散度变化,评估修补后输出分布与原模型输出的差异。
  5. 应用剪枝规则: \[ D_{KL}(G || H_{\text{new}}) - D_{KL}(G || H) < \tau \] 若差值小于阈值 \( \tau \),则认为该边不重要并永久移除。
  6. 递归重复: 持续测试所有边,直至剩下的图成为最小且可保留行为的电路。

最终结果是一个显著简化的子图,既保持性能,又揭示模型内部算法的结构。


对 ACDC 的验证

为验证 ACDC 是否确实能识别真正的电路,作者提出两个问题:

  • Q1: ACDC 能否找到驱动行为的真实组件?
  • Q2: 它是否能避免纳入与该行为无关的组件?

他们通过两项互补实验来回答以上问题。


实验 1: 重新发现已知电路

ACDC 在五个已有人工绘制电路的行为上进行了测试——如间接宾语识别 (IOI)大于任务和文档字符串补全 。 模型中的每条边被标记为“在电路内”或“在电路外”。通过调整阈值 \( \tau \),研究人员绘制出ROC 曲线 , 展示真阳性与假阳性率的关系。

性能与两种其他方法进行对比:

  • 子网络探测 (Subnetwork Probing, SP) ——一种基于梯度的掩码技术
  • 用于剪枝的头重要性分数 (Head Importance Score for Pruning, HISP) ——按梯度大小对注意力头排序与剪枝

五个任务 (IOI、tracr-reverse、tracr-xproportion、Docstring、大于) 的 ROC 曲线,比较 ACDC、SP 和 HISP 在已知电路边恢复上的表现。

图3: 比较 ACDC、SP 和 HISP 的 ROC 曲线。越靠近左上角说明回路边恢复效果越佳。

ACDC 表现极具竞争力——且在若干案例中表现最佳。在 IOI 与“大于”任务中,ACDC 获得最高曲线下面积分数。尤其在 IOI 任务中,它精确恢复了先前人工发现的全部五类组件。

左: GPT‑2 Small 完整且密集的计算图,其中小型 IOI 电路以红色高亮。右: ACDC 自动恢复出的干净简洁电路图,所有组件均与手动识别结果一致。

图1: 自动化发现的力量。左图: GPT‑2 Small 的完整计算图。右图: 由 ACDC 自动恢复的稀疏 IOI 电路——所有组件均匹配手动结果。


实验 2: 在缺乏真实标签的情况下评估新电路

对于没有预先绘制电路的任务,需要使用内在指标评估电路质量。一个理想的电路应:

  1. 保持保真度: 输出与完整模型几乎一致 (低 KL 散度) 。
  2. 保持简洁性: 边数尽可能少 (高稀疏性) 。

这些指标在归纳任务 (模型预测重复序列模式,如 “A B … A → B”) 中被检验。研究人员运行 ACDC、SP 和 HISP,绘制结果的规模与散度分布图。

在归纳任务上评估恢复电路的散点图,显示电路大小 (边数) 与性能 (KL 散度) 的关系。ACDC (红色) 点形成帕累托前沿。

图4: 归纳任务上的电路评估。左下角的点表示小型且高性能的电路。ACDC (红色) 形成帕累托前沿,表现优于其他方法。

当边数超过 20 条时,帕累托前沿上的所有点均来自 ACDC。这意味着在任意稀疏度水平下,ACDC 都找到了保真度最佳的电路——强有力地证明它能高效捕捉模型的真实计算结构。


优势、局限与未来方向

结果十分令人信服: ACDC 能准确重现已有人工解析的电路,并持续生成高效且高保真度的子图。这标志着机械可解释性正稳步扩展至现代大型模型。

但自动化也存在一些限制。作者指出:

  • ACDC 的表现取决于超参数与度量指标的选择;
  • 它难以稳定发现负向组件——即那些主动抵制错误预测的部分;
  • 某些任务中使用零激活代替损坏激活能取得更好效果,说明算法行为受细微设计影响。

尽管存在这些细节差异,总体结论依然积极: ACDC 有效。 它将原本耗费大量人力和时间的探索过程,转化为一个系统化算法,能够自动发现和提取电路。


重要意义

机械可解释性研究的核心目标是理解模型的原因机制。让这一过程自动化,可使研究者探索更大规模、更复杂的模型和行为,以前手动分析根本不可行的任务。它将帮助研究者:

  • 诊断并调试语言模型中的错误与失配行为
  • 识别网络内部的涌现模式与算法原语
  • 设计更具透明度和可解释性的架构
  • 构建更安全、可控的 AI 系统

作者已在 github.com/ArthurConmy/Automatic-Circuit-Discovery 开源代码,欢迎全球研究者测试、扩展并改进 ACDC。


结论

论文 《迈向机械可解释性的自动化电路发现》 是 AI 透明化的重要进展。通过将既有的可解释性工作流程编码化并自动化其最耗时部分,ACDC 让我们更接近真正理解神经网络——不再仅将其视作神秘黑箱,而是可被发现、可被理解的算法系统。

人类洞察仍是核心——最终我们需解释这些电路意味着什么。但如今,算法能代劳繁重的工作,扫描复杂模型并揭示驱动其行为的子网络。

随着 AI 持续发展,这种手动理解与自动化发现的协同互动,或将成为可解释性研究的下一前沿: 更快、更深入、更清晰地洞察机器的心智。