从涌现中学习：抑制“记忆型”神经元如何提升 AI 性能

在人工智能领域，近年来最引人入胜的发现之一是涌现 (emergence) ——当模型的规模扩大时，它不仅仅是性能略有提升，而是会产生全新的能力。当一个神经网络变得更大，拥有更多数据、参数和更长的训练时间时，它可以突然掌握小型网络无法企及的复杂推理或多语言能力。这是像 GPT-4 这样的大型模型以惊人能力震撼世界的关键原因之一。

但这引出了一个更深层的问题: 当我们扩大网络规模时，网络内部究竟发生了什么？ 我们可以测量性能的提升，但仍不完全理解驱动这些改进的机制。

香港科技大学的研究团队在 KDD ’24 上发表的一项新研究，为这一谜题提供了新的视角。该论文提出了一个令人瞩目的假设: 随着网络规模扩展，它们会逐步抛弃“单义神经元” (monosemantic neurons) ——这些神经元充当单一用途的记忆单元——并用更复杂的、将意义分布在多个特征上的多义神经元 (polysemantic neurons) 取而代之。换句话说，更大的网络停止了“死记硬背”，开始真正地理解。

接着，研究人员提出了一个有趣的问题: 如果大型模型的优越性能部分来源于它们自然减少记忆型神经元的过程，我们能否主动设计小型模型去实现同样的转变？论文的答案是一个名为 MEmeL (基于单义性的涌现学习) 的优雅机制。它能够在训练过程中检测并抑制单义神经元。本文将深入探讨这一方法以及它对深度学习未来的意义。

两种神经元的故事

在了解 MEmeL 之前，先来形象化地看看单义神经元和多义神经元的样子，以及它们的行为特征。

比较一个仅对单一特征 (“法语”) 激活的单义神经元和一个对多个相关特征激活的多义神经元的图表。下方是每种情况的激活图。

图 1: (a) 单义神经元专注于一个特征，例如“汽车”或“法语”；(b) 多义神经元会对多个相关特征做出反应；(c)、(d) 展示了 Pythia-v0 410M 语言模型的真实激活数据: 单义神经元对“法语”的激活强烈，而多义神经元的激活较低且分散。

单义神经元是专才——可以把它看作一个“只会一招的专家”。在语言模型中，它可能只在看到“法语”这个词时激活；在图像模型中，它可能只对猫的图片有反应。相比之下, 多义神经元是通才，会对多个相关概念 (如“狗”、“宠物”、“忠诚”) 产生激活。这类神经元帮助网络形成抽象而灵活的表示。

小型模型严重依赖单义神经元，因为这是高效编码少量信息的方式。然而，随着模型规模增大，会发生有趣的变化: 单义神经元越来越少，禁用其中一个几乎不会影响整体性能。

箱形图显示，在小型 70M 模型中，禁用一个单义的“法语”神经元会导致损失显著增加；在 1B 模型中损失较小；在 6.9B 模型中变化可忽略。

图 2: “法语神经元”实验 (不同模型规模) 。在小模型中 (a)，关闭该神经元会显著增加损失；在较大模型中 (b, c)，影响几乎消失。大型网络形成了更稳健、更分布式的表示。

结果很清楚: 大型模型不再依赖单个神经元来表示特征，而是将意义分散到更复杂的神经回路中——这一性质与更好的泛化能力和鲁棒性高度相关。

由此，作者提出核心观点: 性能提升可能源于单义性的被动减少 。既然这种被动过程有益，为什么不让它变得主动呢？

从观察到行动: 如何抑制单义性

作者提出了 MEmeL——一个轻量级模块，可在训练时插入任意神经网络层。它的工作流程分为两步:

实时检测单义神经元 , 采用快速统计指标；
抑制其影响 , 使用一种名为反向失活 (Reversed Deactivation) 的数学技术。

让我们分别来看。

阶段一: 使用单义性尺度 (MS) 检测单义神经元

实时识别单义神经元是个巨大挑战。以往方法需要繁琐的离线分析和人工标注数据集——要对数百万特征下的每个神经元反应进行分类。这对大型网络来说毫无可行性。

因此，作者提出了一个通用指标——单义性尺度 (Monosemantic Scale, MS) , 它体现单义行为的两个关键特征:

高偏差: 当被特定特征触发时，神经元激活值显著高于常态；
低频率: 此类峰值极少出现。

对于每个神经元 \( z_i \)，定义如下:

\[ \phi(z_i^{[m+1]}) = \frac{(z_i^{[m+1]} - \bar{z}_i)^2}{S^2} \]

其中，\( z_i^{[m+1]} \) 是当前输出，\( \bar{z}_i \) 是历史均值，\( S^2 \) 是方差。该指标衡量当前激活值相较以往的异常程度，本质上是动态 z-score。

高 \( \phi \) 值说明该神经元相对基线出现异常激活，是单义性的预警信号。作者还证明，这些统计值可在每次训练批次中以常数时间高效更新，因此可实现实时检测。

阶段二: 正确的抑制方法

一旦神经元被标记为单义神经元，最直接的念头是降低它的激活——比如用平均值替代。但这种朴素方案反而会适得其反。

图表显示朴素失活如何加剧单义性，以及反向失活如何修正。

图 3: 朴素失活 (e, f) 抑制了前向激活输出，但在反向传播时发出相反梯度信号，导致神经元更特化。反向失活 (g, l) 翻转梯度方向，有效削弱过度活跃神经元。

来看朴素失活 (Naive Deactivation) 的例子:

识别出一个单义的“猫”神经元 \( z \)，其输出很高 (如 7) ；
在送入下一层之前，用其平均值 \( \bar{z} = 1 \) 替代；
下游模型被迫依赖其他神经元——看似有益；
但反向传播时，梯度会按照原始值 7 的误差反向流动，促使网络下次进一步增加输出。

结果？这个“猫”神经元对猫更加执着，激活更强，单义性加剧。

为解决此问题，作者设计了反向失活 (Reversed Deactivation, RD) :

\[ z' = -z + (\bar{z} + z)_{ng} \]

其中下标 ng 表示“无梯度 (no gradient) ”——反向传播时视为常量。

这样，前向传播依然输出 \( \bar{z} \)，让下游网络学习冗余性；反向传播由于负号使梯度翻转，促使前层下次减少激活。结果: 过度活跃神经元被真正抑制，形成更分布式的表示。

这一巧妙机制同时达成两点:

网络减少对单一神经元表征特征的依赖；
神经元自身学会避免过度响应。

MEmeL: 灵活的即插即用模块

上述逻辑被封装进一个名为 MEmeL 的模块中。它可以在神经网络的任意层后插入，无需新增参数或修改架构。通过单义性尺度识别单义神经元，对其施加反向失活，输出调整后的激活值。

图表显示 MEmeL 插入在神经元层 z³ 和 z⁵ 之后，在输出前调整激活。

图 4: MEmeL 概览。(a) 展示通用神经网络；(b) MEmeL 插入到任意层 (如 \(z^3\)、\(z^5\)) 后；(c) 在模块内部，单义神经元 (红色方块) 由 MS 指标检测并经反向失活抑制，生成调整后的激活 \(z'\)。

由于 MEmeL 无任何新增可训练参数，因此轻量易用。更好的是，它仅需在训练期间使用——测试时可完全移除，实现零推理开销 。

实验: 跨任务验证 MEmeL

研究人员在三类任务与模型中验证了 MEmeL:

语言任务 : 在 GLUE 基准上微调 BERT；
视觉任务 : 在 ImageNet 上训练 Swin-Transformer；
物理模拟 : 用 ConvGRU 基于雷达数据预测降雨。

结果一致优异。

模型	MNLI-(M/MM)	QQP	QNLI	SST-2	CoLA	STS-B	MRPC	RTE	平均值
原始模型	84.6/83.4	71.2	90.5	93.5	52.1	85.8	88.9	66.4	79.6
MEmeL-Tune	84.8 /83.9	71.7	91.2	93.7	55.7	86.6	89.0	68.2	80.5

表 1: GLUE 基准结果。MEmeL-Tune 在语言理解任务中整体表现更好，验证了方法的有效性。

模型规模	Swin-T (28M)	Swin-S (50M)	Swin-B (88M)
原始模型	80.9	83.2	85.1
MEmeL-Tune	81.1	83.5	85.2

表 2: ImageNet 结果。MEmeL 提升了所有 Swin-Transformer 尺寸的 top-1 准确率。

模型	B-MAE	B-MSE
原始模型	1003.41	309.96
MEmeL-Tune	998.81	298.16

表 3: HKO-7 降水预测实验结果。更低数值代表预测更准确。

各任务中, MEmeL 均超越原始网络性能。朴素失活变体稍有下降，进一步说明简单抑制无效。

为直接评估单义性降低，作者比较了训练后单义性尺度的变化:

方法	平均下降率	平均更新率
原始模型	0.003%	0.052%
朴素方法 (a)	-0.017%	0.118%
朴素方法 (b)	-0.044%	0.161%
反向失活	0.013%	0.189%

表 4: 反向失活实现了正向单义性降低，验证其有效抑制。朴素方法产生负值，效果相反。

尽管数值不大，这些变化代表持续抑制单义行为的趋势，积累效应显著提升整体泛化与鲁棒性。

这意味着什么: 学会泛化，而非记忆

意义深远。扩大神经网络规模不仅是让模型变大，更是改变它们表示知识的方式。大型网络不依赖个体神经元去“记忆”，而是通过多个神经元形成关联概念。

MEmeL 让小模型能够模拟这种涌现特性。通过检测并抑制那些类似“一次一义”的记忆单元的神经元，网络可以更快学到丰富灵活的表示。尤其值得注意的是，该方法无需改动架构、无新增参数，并且训练结束后即可无代价地移除。

更广泛的启示

这项研究带来一个范式转变:

单义性是一把双刃剑: 使模型可解释、有助特征任务，但限制了泛化与涌现智能；
从涌现中学习: 理解大型模型内部自然生成的变化，并将其原则应用于小模型，可在有限计算条件下取得更高效的训练；
更聪明的扩展: 与其无休止地增加参数，不如引导学习过程——让表示更分布式、减少过度特化。

从本质上看，MEmeL 模块表明我们可以教会模型去理解，而不是记忆。

展望未来

作者也指出局限: 在大规模预训练中使用 MEmeL 成本仍高。但其实验证明，即便在资源有限的情况下，也能以极低计算开销获得显著性能提升。

他们还强调了与人类学习的类比: 小网络像儿童，依靠记忆 (单义性) ；大网络像成年人，依靠推理 (多义性) 。而 MEmeL 就像老师，引导这种进化提前发生，加快从记忆到理解的转变。

结论

通过研究涌现现象，研究人员揭示了模型扩展背后的隐机制: 单义神经元的减少。MEmeL 将这一观察转化为训练策略——检测过度特化的神经元，用反向失活引导它们向泛化转变。

结果显而易见: 在语言、视觉、物理任务中均获得一致改进，且仅靠一个轻量、理论稳健的模块即可实现。

简而言之, MEmeL 让神经网络像大型模型一样学习——而无需变得庞大 。它让我们看到未来的方向: 不再一味追求规模，而是关注更聪明的学习动态，让人工智能不仅成长，更能真正地思考。

两种神经元的故事#

从观察到行动: 如何抑制单义性#

阶段一: 使用单义性尺度 (MS) 检测单义神经元#

阶段二: 正确的抑制方法#

MEmeL: 灵活的即插即用模块#

实验: 跨任务验证 MEmeL#

这意味着什么: 学会泛化，而非记忆#

更广泛的启示#

展望未来#

结论#