可解释性研究真的有用吗？量化 NLP 中“为什么”的影响力

自然语言处理 (NLP) 的当前时代被一个巨大的悖论所定义。我们构建了那些在十年前几乎无法想象的模型——大语言模型 (LLMs) 。它们能写代码、创作诗歌，并能对复杂问题进行推理。然而，在很大程度上，我们几乎不知道它们实际上是如何工作的。它们是黑盒。

这在领域内造成了一种张力。一方面，是推动更高基准和效率的“构建者”；另一方面，是试图窥探黑盒内部以理解这些模型的机制、局限性和行为的“分析者”——即从事 可解释性与分析 (Interpretability and Analysis，简称 IA) 的研究人员。

但争议也正源于此: 可解释性研究真的重要吗?

一种常见的批评是，IA 研究虽然令人着迷，但缺乏“可行动性 (actionability) ”。批评者认为，知道 Transformer 中的某个神经元如何激活，并不一定能帮助你构建一个更好的 Transformer。如果目标是最先进的性能，那么 IA 是否仅仅是一种学术好奇心？

在一篇引人入胜的新论文 From Insights to Actions (从洞察到行动) 中，研究人员 Mosbach、Gautam、Vergara-Browne、Klakow 和 Geva 着手回答这个问题，他们没有凭直觉，而是用数据说话。他们进行了一项大规模的混合方法研究，涉及超过 185,000 篇论文和详细的社区调查，以量化 IA 研究对更广泛的 NLP 领域的影响。

在这篇文章中，我们将拆解他们的方法论，分析现代 NLP 的引文网络，并探索社区实际上是如何利用可解释性的发现来推动进步的。

研究范围

要了解像 IA 这样一个特定子领域的影响力，不能孤立地看引文计数。研究人员采用了一种双管齐下的方法:

文献计量分析: 他们构建了一个庞大的 NLP 论文引文图谱，以查看谁引用了谁，以及为什么引用。
社区调查: 他们询问了实际从事这项工作的人——博士生、教授和行业从业者——IA 如何影响他们的日常研究。

定义“可解释性与分析” (IA)

在衡量影响之前，我们必须定义主体。作者将 IA 广泛定义为任何旨在 更深入地理解 NLP 模型的工作。这包括:

可解释性 (Explainability) : 为什么模型会做出这个特定的预测？
机制可解释性 (Mechanistic Interpretability) : 内部计算是什么 (神经元、注意力头) ？
分析 (Analysis) : 调查训练动态、鲁棒性和更广泛的现象 (如缩放定律) 。

该领域的增长

首先，让我们看看原始数据。这个领域真的在增长吗？

图 1: 可解释性与分析 (IA) 是 NLP 中一个日益流行的子领域。上图显示 2020 年至 2023 年 IA 论文数量显著增长。下图显示与其他赛道相比，IA 论文的被引用情况。

如图 1 所示，IA 正在蓬勃发展。在 2020 年至 2023 年间，它是主要会议 (ACL/EMNLP) 各赛道中增长率最高的 (77.8%) 。这表明，尽管存在关于“实用性”的批评，社区仍在向这一方向投入大量资源。

方法论: 构建 NLP 地图

你如何科学地衡量“影响力”？作者构建了一个引文图谱，始于 2018 年至 2023 年在 ACL 和 EMNLP (两个顶级 NLP 会议) 上发表的所有论文。

然而，仅包含这些论文的图谱是不够的，因为科学不会孤立发生。他们需要知道这些论文引用了什么，以及谁引用了它们。利用 Semantic Scholar API，他们将这个初始集合扩展到包含所有参考文献和引文，从而形成了一个包含 185,384 篇论文 的图谱。

挑战在于，ACL/EMNLP 之外的论文并没有像“机器翻译”或“可解释性”那样整齐的标签。为了解决这个问题，作者构建了一个分类器。

图 2: 展示引文图谱构建过程的图表。解析原始数据，使用引文/参考文献构建图谱，并使用分类器预测未标记论文的投稿赛道。

如图 2 所示，他们在已标记会议论文的摘要和标题上训练了一个模型。这使他们能够预测庞大图谱中每一篇论文的“赛道” (例如，IA、生成、对话) 。这一步至关重要: 它让他们能够观察 IA 论文是仅被其他 IA 研究人员阅读，还是在影响更广泛的领域。

结果 1: 引文的真相

专业子领域的一个普遍担忧是“回声室”效应——即研究人员只为彼此写作并相互引用。数据显示，可解释性领域的情况并非如此。

引用成功指数 (CSI)

原始引文计数可能会产生误导，因为某些领域发表的论文本身就比其他领域多。研究人员使用了一种称为 引用成功指数 (Citation Success Index，CSI) 的指标。简而言之，如果你选取一篇随机的 IA 论文和一篇同年发表的来自其他赛道 (比如机器翻译) 的随机论文，IA 论文拥有更多引用的概率是多少？

图 3: 与其他赛道相比，可解释性与分析赛道的 CSI 分数是有利的 (> 50%) 。

图 3 显示，IA 论文的表现持续超出预期。由于 CSI 通常高于 50%，一篇平均水平的 IA 论文比大多数其他赛道的平均水平论文更有可能被高频引用。

谁在引用 IA？

这是关于实用性的最关键问题。如果 IA 对构建模型有用，那么“构建者” (建模、生成或效率领域的研究人员) 应该会引用 IA 论文。

图 4: 引文图谱中 IA 论文的引用来源。来自非 IA 工作的引用多于来自 IA 工作的引用。

图 4 中的结果令人震惊。可解释性论文的大部分引用来自 IA 赛道之外 (灰色条) 。这表明了“子领域之外的引文影响”。

作者发现, 高效方法 (Efficient Methods) 、机器学习 (Machine Learning) 和 大语言模型 (Large Language Models) 领域的论文频繁引用 IA 研究。这表明构建模型的人确实在关注对这些模型的分析。

中心性: NLP 的“桥梁”

除了计算引用次数，我们还可以查看网络的结构。在网络理论中, 介数中心性 (Betweenness Centrality，BC) 衡量一个节点充当另外两个节点之间最短路径上的桥梁的频率。如果一个领域具有高中心性，它就充当了知识粘合剂，连接了不同的子领域 (例如，连接“语言学”与“深度学习”) 。

图 10: 自 2020 年以来按赛道划分的 ACL 和 EMNLP 论文的介数中心性。IA 论文比大多数赛道的论文更具中心性。

图 10 显示，IA 论文具有非常高的中心性，仅次于“大语言模型”赛道本身。这证实了 IA 作为一个关键的知识枢纽，促进了整个 NLP 领域的思想流动。

结果 2: 社区视角

引文是一个滞后指标。它们告诉我们的是 2 或 3 年前发生的事情。为了了解当前的情绪，作者调查了 138 位 NLP 研究人员。重要的是，这些受访者中有 61% 主要不从事 IA 工作，这确保了观点不会因自我保护而产生偏见。

研究人员真的在使用 IA 吗？

调查询问了参与者在日常工作中通过 IA 概念 (如探测、注意力分析或因果干预) 的频率。

图 5: 关于使用 IA 研究概念频率的调查回复。即使是不从事 IA 工作的人也在使用其概念。

如图 5 所示，即使在那些不从事 IA 工作的人群中 (图表上半部分) ，使用率也很高。非 IA 研究人员的中位数是“有时”或“经常”使用这些概念。

调查显示，IA 通过以下方式影响研究人员:

产生想法: 60% 的非 IA 研究人员从 IA 论文中获得研究灵感。
心智模型: 65% 的人表示这改变了他们对模型能力的看法。
支撑/依据: 59% 的人用它来解释自己的结果。

IA 对进步是必要的吗？

作者提出了一个具有挑衅性的问题: “如果没有 IA，过去 5 年 NLP 的进步是否不可能发生？”

图 6: 关于如果没有 IA 发现，NLP 进展是否会变慢或不可能的调查回复。大多数人认为会变慢，但并非不可能。

图 6 凸显了一个微妙的观点。很少有研究人员认为进步是 不可能 的 (深橙色条很低) 。然而，绝大多数人同意进步会变慢 (带条纹的浅橙色条很高) 。

这符合深度学习的现实: 工程上的试错可以让你走得很远，但理解 为什么 有效 (分析) 可以加速优化过程。

IA 在哪里最重要？

并非所有子领域都同等受益。调查询问了 IA 在哪里最重要。

图 7: 关于 IA 对不同子领域重要性的调查回复。它对偏见和推理至关重要，对工程来说重要性较低。

图 7 提供了一个清晰的效用路线图。

高影响: 社会影响/偏见以及推理/事实性。在这些领域，我们不能信任黑盒；我们需要验证机制。
较低影响: 工程。如果你只是试图让模型训练得更快或扩大规模，深度的可解释性目前被认为不如纯粹的架构优化关键。

深入挖掘: 影响力的本质

作者并没有止步于数字；他们阅读了论文。他们手动注释了数百篇高影响力的论文，以了解贡献的本质。

他们发现，虽然许多有影响力的 IA 论文纯粹是分析性的 (描述一种现象) ，但很大一部分引入了 新颖的方法 。

表 7: 高影响力 IA 论文的热门主题。新颖的方法和表征分析是热门主题。

表 7 显示，“新颖的方法 (Novel Method) ”是有影响力的 IA 论文中的一个热门主题 (24-36%) 。这直接反驳了关于 IA 纯粹是被动观察的批评。

此外，他们查看了受 IA 深度影响的 非 IA 论文。他们发现，超过 33% 的此类论文基于 IA 的发现提出了新方法。例如:

偏见缓解: 去除模型偏见的新方法通常引用那些识别出网络中偏见存在位置的分析论文。
上下文学习: 改进提示工程的方法通常引用解释模型如何利用演示示例的分析论文。

这证实了“从洞察到行动”的循环: IA 研究人员发现一个洞察 (例如，“偏见存储在这些层中”) ，更广泛的 NLP 研究人员将其转化为行动 (例如，“让我们编辑这些层”) 。

未来: 行动号召

尽管有积极的影响，受访者也表达了明显的挫败感。他们觉得一些 IA 工作过于关注“玩具模型 (toy models) ”，或者提供的观察结果无法扩展到大规模 LLM。

基于此，作者为可解释性研究的未来提出了四大支柱:

统一 (大局观) : 停止孤立地看待行为。我们需要关于 Transformer 架构如何处理信息的一般理论。
可行动性: 不要只是描述模型。将分析与下游改进联系起来。如果你发现了一个缺陷，我们该如何修复它？
以人为本: 我们需要更好的评估。可解释性不应仅仅在数学上令人满意；它应该帮助真实的人 (用户或开发者) 理解系统。
鲁棒的方法: 该领域需要标准化。我们需要超越“直觉”和相关性证据，转向证明我们的解释是正确的因果证据。

结论

这篇研究论文为 NLP 社区提供了一个至关重要的现实检验。它驳斥了关于可解释性是一个孤立学术泡沫的愤世嫉俗观点。数据显示，IA 是现代 NLP 的一个中心支柱，被广泛引用和阅读。它充当了子领域之间的桥梁，并显著加速了进步，特别是在推理和偏见等高风险领域。

然而，作者也证实了批评者的观点: 为了在大规模 LLM 时代保持相关性，IA 必须努力变得更具可行动性。仅仅窥视黑盒并描述黑暗是不够的；我们必须带回一束光，帮助我们要构建下一代系统。

对于进入该领域的学生来说，这表明可解释性不是一个支线任务——它是 NLP 技能树的核心组成部分。无论你是想构建模型还是分析模型，理解“为什么”正日益成为掌握“如何做”的先决条件。

研究范围#

定义“可解释性与分析” (IA)#

该领域的增长#

方法论: 构建 NLP 地图#

结果 1: 引文的真相#

引用成功指数 (CSI)#

谁在引用 IA？#

中心性: NLP 的“桥梁”#

结果 2: 社区视角#

研究人员真的在使用 IA 吗？#

IA 对进步是必要的吗？#

IA 在哪里最重要？#

深入挖掘: 影响力的本质#

未来: 行动号召#

结论#