引言

我们已经习惯了大型语言模型 (LLM) 的“魔力”。输入一个提示——无论是请求翻译句子、总结段落，还是分析评论的情感——模型都会照做。但在表面之下，神经网络内部究竟发生了什么？

虽然我们知道如何训练这些模型——给它们喂入海量数据集并进行指令微调——但我们通常将得到的模型视为一个“黑盒”。我们知道输入和输出，但模型在哪里以及何时决定执行特定任务的内部机制仍然是一个巨大的谜团。模型是在第一层就知道自己在做翻译吗？还是直到输出前的最后一刻才意识到？

来自爱丁堡大学和英伟达的研究人员发表了一篇题为 “Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models” (层层解析: 揭秘指令微调大语言模型中多任务学习发生的机制) 的精彩论文，试图绘制这幅内部地图。通过分析 60 多种不同的自然语言处理 (NLP) 任务，作者提供了 LLM 层级的功能图谱，揭示了通用知识究竟是在哪里转化为特定任务行动的。

背景: 指令微调的解剖

要理解这项研究，我们首先必须区分预训练 LLM 和 指令微调 LLM 。

预训练 LLM (如 Llama 2 基座模型) 在海量文本上进行训练，仅仅是为了预测下一个 token。它们理解语言模式，但并不一定擅长遵循特定指令。
指令微调 LLM (如 Llama 2-SFT) 经历了第二阶段的训练。它们被喂入涵盖许多不同任务的指令和答案对 (例如，“将此翻译成法语: [输入]” -> “[输出]”) 。这教会了模型充当一个多任务助手。

这篇论文的核心问题是: 指令微调如何改变模型的内部表征?

它是否改变了模型的整个大脑？还是只影响特定的区域？为了找出答案，研究人员采用了一种巧妙的对比技术。

方法论: “万事通” vs “专才”

分析 LLM 的标准方法通常涉及“探针 (probing) ”，即训练一个小型的分类器来查看特定层是否包含某些信息。然而，探针是有缺陷的，因为它依赖于在不同任务之间差异巨大的性能指标 (例如，你无法轻易将翻译任务的 BLEU 分数与分类任务的 F1 分数进行比较) 。

相反，作者使用了一种称为 MOSSA (模型导向的子群体和光谱分析) 的方法，并结合了 CKA (中心核对齐) 。

这种方法的直觉如下: 想象你有一个指令微调后的模型 (我们称之为实验模型 )。它是一个“万事通”——它知道如何做 60 多种任务。现在，想象你训练了一个单独的 Llama 2 副本，仅针对一个特定任务 (如情感分析) 进行训练。这就是对照模型——一个“专才”。

如果“万事通”第 15 层的表征 (数值模式) 看起来与“专才”第 15 层的表征完全相同，我们就可以得出结论: 第 15 层包含了该任务所需的特定知识。

用 CKA 测量相似度

为了从数学上测量两个层的相似程度，研究人员使用了中心核对齐 (CKA) 。CKA 允许我们通过观察激活值的几何结构来比较两个不同神经网络的隐藏状态，即使它们并没有完全对齐。

CKA 的计算公式如下:

用于测量神经网络表征之间相似度的中心核对齐 (CKA) 数学公式。

在这个方程中:

\(\mathbf{Y}_t\) 和 \(\mathbf{Z}_t\) 分别代表实验模型和对照模型的激活模式矩阵。
HSIC (希尔伯特-施密特独立性准则) 测量这些分布之间的统计依赖性。

本质上，CKA 分数为 1.0 意味着这些层在表征内容上是相同的，而 0.0 意味着它们完全不相关。

核心发现: 三级火箭

这篇论文最重要的贡献是将 LLM 的层级映射为三个不同的功能组。通过观察多任务模型 (Llama 2-SFT) 在哪里与单任务专家模型保持一致，作者发现指令微调后的模型以特定的顺序处理信息。

如下图所示，处理流程不是均匀的。它是分阶段演进的。

Llama 2 架构图，展示了三个功能区域: 共享层 (1-9)、过渡层 (10-15) 和精炼层 (16-32)。

1. 共享层 (第 1–9 层)

在网络的底部三分之一，模型进行通用处理。这里的表征在不同任务之间高度相似。无论模型是要翻译一首诗还是解决一个数学问题，前 9 层看起来基本相同。这表明这些层处理基础的语言特征——语法、句法和基本的通识知识——无论意图如何，这些都是“共享”的。

2. 过渡层 (第 10–15 层)

这是见证奇迹的地方。研究人员在网络中部确定了一个关键区域，模型在这里从通用理解转向特定任务执行。在这些层中，表征发生了巨大的变化，开始与“专才”对照模型对齐。这是 LLM 的“交换台”，在这里，“翻译这个”这样的指令被实际处理，并路由到特定的操作模式。

3. 精炼层 (第 16–32 层)

一旦任务被识别且正确的“模式”被激活，剩余的层就用于精炼输出。这些层继续与特定任务的对照模型保持高相似度，打磨 token 以确保答案正确。

实验与结果

为了验证这一三阶段理论，作者使用 Flan 2021 数据集进行了广泛的实验，该数据集涵盖了 60 多个 NLP 任务。他们将预训练的 Llama 2 基座模型与指令微调后的 Llama 2-SFT 进行了比较。

预训练 vs 指令微调

原始基座模型与微调后模型之间的差异是惊人的。请看下面的 CKA 相似度分布:

箱线图对比了 Llama 2 (蓝色) 和 Llama 2-SFT (橙色) 在各层上的 CKA 相似度分布。

在 Llama 2 (蓝色) 的箱线图中，我们看到随着层数加深，相似度急剧下降。这意味着基座模型在处理更深层时“遗忘”或丢失了任务的特定结构，这解释了为什么基座模型经常胡言乱语或无法遵循特定指令。

相比之下, Llama 2-SFT (橙色) 模型在中层和深层始终与单任务专家保持高相似度。它有效地在过渡层“锁定”了任务，并保持这种锁定状态。

任务类型的差异

并非所有任务都是生而平等的。有些任务，如情感分析，相对简单——主要依赖于表层的语义理解。其他任务，如翻译或摘要，则需要对文本进行复杂的结构操作。

研究按任务聚类分解了性能:

折线图展示了特定任务 (如指代消解、情感分析和翻译) 的 CKA 相似度趋势。

情感分析 (Sentiment Analysis): 注意基座模型 (蓝色) 和 SFT 模型 (橙色) 的表现都很高。这意味着预训练模型在没有太多微调的情况下就已经相当“懂”情感了。
翻译 (Translation) & 结构化数据转文本 (Struct-to-Text): 在这里，分歧是巨大的。基座模型 (蓝色) 与专家的相似度非常低，表明它天生难以处理这些任务。然而，SFT 模型 (橙色) 在过渡层 (大约第 10-15 层) 相似度飙升，并保持高位。这证明了指令微调对于复杂的生成任务最为关键。

可视化“过渡”

为了直观地证明过渡层是区分任务的地方，研究人员使用了 t-SNE，一种用于在 2D 空间可视化高维数据的技术。他们绘制了不同任务的激活模式。

t-SNE 可视化图展示了指令微调模型中层里的任务聚类如何变得清晰。

在顶行 (基座 Llama 2) 中，代表不同任务的点即使在深层也有些混杂。

在底行 (指令微调 Llama 2-SFT) 中，请看 Layer 15 和 Layer 20 。你可以看到清晰、独特的颜色岛屿正在形成。这可视化了模型将“翻译”与“阅读理解”区分开的那一刻。过渡层就像一个棱镜，将通用语言的白光分解成特定任务的单色光。

复杂性与维度

如果过渡层承担了切换任务的重任，它们在数学上应该更复杂。研究人员分析了解释这些层中方差所需的维度。

图表显示了解释表征方差所需的维度数量，SFT 模型在中层达到峰值。

如上图 (橙色线) 所示，SFT 模型的复杂性恰好在过渡层 (10-15) 飙升，并在精炼层达到平台期。模型正在激活大量的特征来管理任务的特定需求。

此外，他们还发现了与可读性的相关性。

热力图展示了 CKA 相似度与 Flesch-Kincaid 和 Coleman-Liau 等文本难度指标之间的相关性。

过渡层 (10-15) 与阅读难度 (Flesch-Kincaid) 表现出强正相关。这表明当输入文本更复杂时，模型会更加依赖这些特定任务的过渡层来解码指令并制定计划。

对未见任务的启示

深度学习的一个常见批评是模型可能只是在死记硬背训练数据。这种“共享 -> 过渡 -> 精炼”的结构是否适用于模型从未见过的任务？

研究人员在 7 个保留任务上测试了模型，这些任务不包含在训练集中 (例如，数学问题、语言可接受性) 。

图表显示了未见任务上的 CKA 相似度。SFT 模型最终在深层超过了基座模型。

结果 (橙色线) 显示，对于未见过的任务，SFT 模型在共享层的相似度实际上比基座模型更低。这虽然违反直觉，但却是积极的: 这意味着 SFT 模型在底层学到了更通用、更灵活的表征。

然而，随着进入过渡层和精炼层，SFT 模型超过了基座模型。即使是没练过的任务，指令微调后的架构也比原始基座模型更擅长路由和精炼信息。

结论

这项研究为揭开大型语言模型的神秘面纱迈出了关键一步。通过层层剥开 Llama 2，作者表明 LLM 中的“思考”是一个结构化的三步过程:

共享层: 收集通用语言语境。
过渡层: 解释指令并切换到特定任务模式。
精炼层: 执行任务并打磨输出。

这对 AI 的未来发展具有巨大意义。如果我们知道“过渡层”是发生关键适应的地方，我们或许能够开发出更高效的微调方法 (参数高效微调或 PEFT) ，只针对这些特定层，从而节省大量的计算资源。这也表明在模型压缩方面，相比于过渡层，我们或许可以更激进地剪枝共享层或精炼层。

指令微调不仅仅是教模型新事实；它从根本上重新连接了网络的中间部分，使其变成了一个多功能的交换台，能够将任何提示路由到正确的技能集。

引言#

背景: 指令微调的解剖#

方法论: “万事通” vs “专才”#

用 CKA 测量相似度#

核心发现: 三级火箭#

1. 共享层 (第 1–9 层)#

2. 过渡层 (第 10–15 层)#

3. 精炼层 (第 16–32 层)#

实验与结果#

预训练 vs 指令微调#

任务类型的差异#

可视化“过渡”#

复杂性与维度#

对未见任务的启示#

结论#

引言