逆向工程 AI：深入探索自动化电路发现

现代 AI 模型——尤其是像 GPT-4 这样的大型语言模型——拥有惊人的能力。它们能够编写代码、总结研究论文、解释复杂的概念。然而，尽管这些成就令人瞩目，我们并不真正知道它们是如何做到的。每个模型内部都藏着一个由数十亿参数组成的迷宫，形成了一个极其复杂的网络，其逻辑几乎完全不透明。这使得 AI 系统常被称为“黑箱”。

窥探这个黑箱、揭示驱动模型行为的算法，正是机械可解释性 (mechanistic interpretability) 的使命。该领域的研究人员旨在对神经网络进行逆向工程——将人工神经元学到的模式和路径转化为可理解的算法。然而直到最近，这个过程仍严重依赖手动实验和直觉，专家们需要花费数月时间来追踪哪些内部组件驱动了特定的行为。

这种手动侦查工作虽然有效，却极其缓慢。随着 AI 模型日益庞大、复杂，显然我们需要一种可扩展的方法，使可解释性更加系统化。这就是自动化的用武之地。

论文 《迈向机械可解释性的自动化电路发现》 (Towards Automated Circuit Discovery for Mechanistic Interpretability) 向前迈出了雄心勃勃的一步。它将研究人员寻找电路——即负责特定行为的内部计算路径——的工作流程进行系统化，并引入了一种可自动完成最耗时部分的算法。该方法称为 ACDC (Automatic Circuit DisCovery，自动化电路发现) , 能够识别神经网络中负责特定行为的相互连接组件。

本文将探讨 ACDC 的工作原理、其重要性，以及它对未来透明 AI 的意义。

解构机械可解释性工作流

在实现自动化之前，我们需先理解手动工作流程。作者总结出许多成功的可解释性项目在逆向工程 Transformer 模型内部电路时遵循的三个步骤。

第 1 步: 确定一个特定行为

第一步是明确研究对象。神经网络能执行数千种功能，但可解释性研究通常一次只聚焦一个可度量的行为。例如 GPT‑2 Small 模型在解决大于 (Greater‑Than) 任务上的能力——一个看似简单却极具代表性的能力。当给出提示:

“战争从 1517 年持续到 15”

GPT‑2 Small 会预测出“18”或“19”，正确选择了一个比 17 大的年份。为分析这一行为，研究人员定义了:

一个行为: 具体的研究现象 (如间接宾语识别、归纳模式或年份比较) 。
一个数据集: 能反复引发该行为的提示集合，例如针对“大于”任务的多组年份句子。
一个度量指标: 衡量该行为性能的量化指标，例如模型预测大于 17 和小于 17 数字的概率差。

通过结合这些元素，研究人员可以可靠地触发并研究模型处理单一行为的内部机制。

作者用于评估自动化电路恢复方法的基准任务表，包括 IOI、Docstring、大于、tracr-xproportion、tracr-reverse 和归纳任务，并附有每个任务的示例提示、输出和度量指标。

作者用于评估自动化电路恢复方法的基准任务表。

第 2 步: 将模型表示为图结构

Transformer 不仅仅是层的堆叠——它们构成了一个复杂的计算图 。在该图中，每个节点代表一个组成部分，如注意力头或 MLP，边则表示信息流动的路径。由于 Transformer 的残差流 (residual stream) ，组件可在相邻层甚至远距离层之间交互，意味着早期特征可以直接影响后续计算。

该图的细节层次称为粒度 (granularity) ，可根据需求而变。在较粗粒度下，我们可把每个注意力头视作一个节点；在较细粒度下，则可把每个头拆分为其独立的查询、键和值向量。选择取决于所需的解释分辨率——粒度越高洞察越深，但计算成本也越大。

第 3 步: 通过激活补丁分离电路

定义好行为、数据集和图后，关键问题是: 哪些节点和边真正重要？ 为此，研究人员使用激活补丁 (activation patching) ，也称为交换干预 (interchange interventions) 。

过程如下:

配对输入: 选择一个干净输入 (能触发行为) 和一个损坏输入 (不能触发行为) 。
捕获激活: 分别在两种输入上运行模型，记录网络中每条边的数值信号。
修补模型: 再次在干净输入上运行模型，但将某个节点或边的激活替换为来自损坏输入的对应激活。
衡量性能: 检查度量指标变化。如果性能显著下降，该组件至关重要；若几乎无变化，则贡献较小。

通过从输出层向后递归地重复该过程，研究人员可逐步剔除无关边，直到只剩核心子图——即电路。

这一方法非常严谨，但极其耗时。ACDC 的设计正是为了自动化这一环节。

ACDC: 自动化侦探工作

ACDC 将手动“修补并测试”的流程转化为算法化过程，系统地剪枝计算图。从输出端开始，依次测试每个连接，看移除它是否显著影响模型在任务上的性能。

一个三面板示意图展示 ACDC 过程。(a) 定义完整计算图。(b) 测试单条边并修补，若性能变化不大则剪除。(c) 递归重复该过程直至仅剩相关电路。

图2: ACDC 算法的概念性示意图。它迭代地剪除不重要连接，直到仅留下与任务相关的电路。

工作原理

初始化全图: 从所有节点和边开始，记为 \( H = G \)。
逆序迭代: 从输出向输入方向遍历。
测试每条边: 暂时移除一条边，并执行一次如激活补丁的带修补前向传播。
衡量影响: 计算 KL 散度变化，评估修补后输出分布与原模型输出的差异。
应用剪枝规则: \[ D_{KL}(G || H_{\text{new}}) - D_{KL}(G || H) < \tau \] 若差值小于阈值 \( \tau \)，则认为该边不重要并永久移除。
递归重复: 持续测试所有边，直至剩下的图成为最小且可保留行为的电路。

最终结果是一个显著简化的子图，既保持性能，又揭示模型内部算法的结构。

对 ACDC 的验证

为验证 ACDC 是否确实能识别真正的电路，作者提出两个问题:

Q1: ACDC 能否找到驱动行为的真实组件？
Q2: 它是否能避免纳入与该行为无关的组件？

他们通过两项互补实验来回答以上问题。

实验 1: 重新发现已知电路

ACDC 在五个已有人工绘制电路的行为上进行了测试——如间接宾语识别 (IOI)、大于任务和文档字符串补全 。模型中的每条边被标记为“在电路内”或“在电路外”。通过调整阈值 \( \tau \)，研究人员绘制出ROC 曲线 , 展示真阳性与假阳性率的关系。

性能与两种其他方法进行对比:

子网络探测 (Subnetwork Probing, SP) ——一种基于梯度的掩码技术
用于剪枝的头重要性分数 (Head Importance Score for Pruning, HISP) ——按梯度大小对注意力头排序与剪枝

五个任务 (IOI、tracr-reverse、tracr-xproportion、Docstring、大于) 的 ROC 曲线，比较 ACDC、SP 和 HISP 在已知电路边恢复上的表现。

图3: 比较 ACDC、SP 和 HISP 的 ROC 曲线。越靠近左上角说明回路边恢复效果越佳。

ACDC 表现极具竞争力——且在若干案例中表现最佳。在 IOI 与“大于”任务中，ACDC 获得最高曲线下面积分数。尤其在 IOI 任务中，它精确恢复了先前人工发现的全部五类组件。

左: GPT‑2 Small 完整且密集的计算图，其中小型 IOI 电路以红色高亮。右: ACDC 自动恢复出的干净简洁电路图，所有组件均与手动识别结果一致。

图1: 自动化发现的力量。左图: GPT‑2 Small 的完整计算图。右图: 由 ACDC 自动恢复的稀疏 IOI 电路——所有组件均匹配手动结果。

实验 2: 在缺乏真实标签的情况下评估新电路

对于没有预先绘制电路的任务，需要使用内在指标评估电路质量。一个理想的电路应:

保持保真度: 输出与完整模型几乎一致 (低 KL 散度) 。
保持简洁性: 边数尽可能少 (高稀疏性) 。

这些指标在归纳任务 (模型预测重复序列模式，如 “A B … A → B”) 中被检验。研究人员运行 ACDC、SP 和 HISP，绘制结果的规模与散度分布图。

在归纳任务上评估恢复电路的散点图，显示电路大小 (边数) 与性能 (KL 散度) 的关系。ACDC (红色) 点形成帕累托前沿。

图4: 归纳任务上的电路评估。左下角的点表示小型且高性能的电路。ACDC (红色) 形成帕累托前沿，表现优于其他方法。

当边数超过 20 条时，帕累托前沿上的所有点均来自 ACDC。这意味着在任意稀疏度水平下，ACDC 都找到了保真度最佳的电路——强有力地证明它能高效捕捉模型的真实计算结构。

优势、局限与未来方向

结果十分令人信服: ACDC 能准确重现已有人工解析的电路，并持续生成高效且高保真度的子图。这标志着机械可解释性正稳步扩展至现代大型模型。

但自动化也存在一些限制。作者指出:

ACDC 的表现取决于超参数与度量指标的选择；
它难以稳定发现负向组件——即那些主动抵制错误预测的部分；
某些任务中使用零激活代替损坏激活能取得更好效果，说明算法行为受细微设计影响。

尽管存在这些细节差异，总体结论依然积极: ACDC 有效。 它将原本耗费大量人力和时间的探索过程，转化为一个系统化算法，能够自动发现和提取电路。

重要意义

机械可解释性研究的核心目标是理解模型的原因机制。让这一过程自动化，可使研究者探索更大规模、更复杂的模型和行为，以前手动分析根本不可行的任务。它将帮助研究者:

诊断并调试语言模型中的错误与失配行为
识别网络内部的涌现模式与算法原语
设计更具透明度和可解释性的架构
构建更安全、可控的 AI 系统

作者已在 github.com/ArthurConmy/Automatic-Circuit-Discovery 开源代码，欢迎全球研究者测试、扩展并改进 ACDC。

结论

论文 《迈向机械可解释性的自动化电路发现》 是 AI 透明化的重要进展。通过将既有的可解释性工作流程编码化并自动化其最耗时部分，ACDC 让我们更接近真正理解神经网络——不再仅将其视作神秘黑箱，而是可被发现、可被理解的算法系统。

人类洞察仍是核心——最终我们需解释这些电路意味着什么。但如今，算法能代劳繁重的工作，扫描复杂模型并揭示驱动其行为的子网络。

随着 AI 持续发展，这种手动理解与自动化发现的协同互动，或将成为可解释性研究的下一前沿: 更快、更深入、更清晰地洞察机器的心智。

解构机械可解释性工作流#

第 1 步: 确定一个特定行为#

第 2 步: 将模型表示为图结构#

第 3 步: 通过激活补丁分离电路#

ACDC: 自动化侦探工作#

工作原理#

对 ACDC 的验证#

实验 1: 重新发现已知电路#

实验 2: 在缺乏真实标签的情况下评估新电路#

优势、局限与未来方向#

重要意义#

结论#