引言

在当前的人工智能时代，像 Llama 2 和 GPT-4 这样的大型语言模型 (LLMs) 已经彻底改变了我们与技术交互的方式。然而，它们的能力伴随着高昂的代价: 硬件资源。仅仅加载一个 70 亿参数的模型就需要高达 10GB 的内存，这使得大多数消费级边缘设备或手机无法运行它。

为了解决这个问题，研究人员转向了 网络剪枝 (network pruning) ——一种压缩技术，通过移除模型中“不重要”的权重来减小其体积并加快推理速度。现代剪枝算法的效果惊人，能够在移除 50% 甚至更多参数的情况下，仅造成极小的智能损失。

但是，算法如何决定哪些权重是不重要的呢？它使用少量的文本样本，即 校准数据 (calibration data) , 来测试网络并计算“剪枝分数”。多年来，行业标准一直是盲目地使用 C4 数据集 (Colossal Clean Crawled Corpus) 来实现这一目的。在几乎所有主流的剪枝库中，这都是默认设置。

但 C4 真的是最佳选择吗？

在论文 “Is C4 Dataset Optimal for Pruning?” 中，来自华盛顿大学、萨里大学等机构的研究人员对这一现状提出了挑战。他们进行了一项全面的调查，研究了不同类型的数据——从预训练语料库到数学题，甚至随机字符串——如何影响剪枝后模型的质量。他们的结果令人惊讶，并表明我们一直以来在 LLM 剪枝方面可能都做得不够完美。

背景: 剪枝的机制

在深入实验之前，我们需要了解校准数据在剪枝中扮演的角色。

剪枝过程

在 LLM 的语境下，我们通常使用“后训练剪枝 (post-training pruning) ”。这意味着我们直接在完全训练好的模型上移除权重，而无需从头开始重新训练 (那将极其昂贵) 。

目前最流行的两种最先进的方法是 Wanda (Pruning by Weights and activations) 和 SparseGPT 。

如下表所示，这两种方法都依赖输入数据 (\(\mathbf{X}\)) 来做出决策。

Table 1: Pruning metrics of Wanda and SparseGPT showing the mathematical formulas used to calculate weight importance.

Wanda 通过将权重 (\(\mathbf{W}\)) 的大小乘以输入激活 (\(\mathbf{X}\)) 的范数来计算重要性。如果一个权重很大，但在输入数据上很少被激活，它仍可能被剪掉。
SparseGPT 使用更复杂的二阶近似，涉及 Hessian 矩阵 (由 \(\mathbf{X}\mathbf{X}^T\) 项表示) ，在权重被剪除时对其进行更新以补偿损失。

在这两种情况下, \(\mathbf{X}\) 是关键 。输入数据决定了哪些神经元会被激活。如果你改变了输入数据 (校准数据) ，你就改变了激活情况，进而改变了剪枝分数，最终改变了大脑的哪一部分会被切除。

现状

直到现在，社区很大程度上假设，因为模型通常是在 C4 数据集上进行预训练的，所以使用 C4 的随机切片进行校准是保持模型原始分布的最安全赌注。这篇论文验证了这一假设。

研究设计: 寻找最佳数据

研究人员使用 Llama 2-Chat 7B 模型设计了一个大规模的评估实验。他们使用各种校准数据集对模型进行剪枝，然后在一系列九项不同的任务中测试剪枝后模型的智能程度，任务包括算术推理、常识逻辑和自然语言推理。

他们将校准数据分为四个不同的类别:

预训练数据: 大型网络抓取数据集 (C4, Pile, OSCAR, RedPajama) 。
下游数据: 特定任务数据 (例如用于数学的 GSM8K，用于逻辑的 e-SNLI) 。
提示数据: 改变文本的格式 (零样本 vs. 少样本) 。
无意义数据: 随机字符串，用于测试语义是否有实际作用。

格式的作用

这篇论文的独特贡献之一是对 数据格式 的调查。LLM 对提示 (prompts) 非常敏感——我们知道当我们给它们提供示例 (上下文学习，In-Context Learning) 时，它们的表现会更好。作者假设在校准过程中使用“更聪明”的数据格式可能会产生“更聪明”的稀疏模型。

他们测试了三种特定格式:

零样本 (Zero-Shot) : 只有一个问题。
上下文学习 (ICL) : 一系列的问答对 (Question-Answer pairs) 。
思维链 (CoT) : 问答对，其中答案包含逐步的推理过程。

Figure 1: Examples of various calibration data formats examined in this paper, including pre-training data, downstream tasks, and nonsense data.

如图 1 所示，随着我们从原始网络文本转向结构化的思维链推理，信息的密度和质量都在增加。

主要发现

这项研究的结果推翻了模型压缩社区持有的几个假设。让我们分解一下主要的发现。

1. C4 并非王者

第一个主要发现是，C4 的表现一直不如其他预训练数据集。

当研究人员使用不同的预训练数据集对 Llama 2 进行剪枝并测试结果模型时, The Pile 显然是一个更好的选择。The Pile 是一个包含学术论文、GitHub 代码、医疗数据和网络文本的多样化数据集，而 C4 只是 Common Crawl (网页) 的清洗版本。

Table 2: Accuracy of Llama 2-Chat 7B model pruned with Wanda and SparseGPT to 50% sparsity. The Pile consistently outperforms C4.

观察表 2，我们看到了 9 项任务的平均准确率。

Wanda 剪枝: The Pile 达到了 38.19% 的平均准确率，而 C4 为 36.57% 。
SparseGPT: 趋势保持一致，The Pile 达到 39.70% , 而 C4 为 39.00% 。

虽然 1-2% 的差距看起来很小，但在压缩模型的世界里，这是显着的。这意味着只需将校准文件从 c4.train 切换到 pile.train，就能获得免费的性能提升。

当剪枝变得更加激进时，这种差距会显著扩大。当模型被剪枝到 70% 稀疏度 (移除 70% 的权重) 时，C4 开始比 The Pile 更快地崩溃。

Table 3: Accuracy of Llama 2-Chat 7B model pruned to 70% sparsity. The Pile shows significantly higher resilience than C4.

如表 3 所示，在 70% 稀疏度下，使用 C4 校准的模型平均准确率下降到 12.75% , 实际上变得毫无用处。然而，使用 The Pile 校准的模型保持了 17.13% 的平均准确率，在 e-SNLI 等特定任务中保持了巨大的领先优势。

2. 格式很重要: 上下文学习的力量

研究人员发现，如何展示数据与展示什么数据同样重要。

他们比较了格式化为简单问题 (零样本) 的校准数据与格式化为示例列表 (上下文学习或 ICL) 的数据。

Table 4: Comparison of Zero-shot, ICL, and ICL with Chain-of-Thought formats for calibration data. ICL consistently improves pruning performance.

表 4 揭示了明显的差异。使用 GSM8K 数据集 (数学题) :

零样本 校准导致模型的平均准确率为 20.49% 。
ICL (提供问答示例) 跃升至 38.03% 。

这表明，当校准数据模仿高质量推理 (问答对) 的结构时，剪枝算法能够更好地识别并保留负责该推理的权重。

有趣的是，添加 思维链 (CoT) ——即答案解释 为什么——虽然对算术任务特别有益，但在一般任务中并不总是优于标准的 ICL。这表明，虽然推理步骤有助于保留数学逻辑，但它们可能会引入对一般语言任务帮助较小的偏差。

3. “获胜数据集”的惊喜

也许最反直觉的发现是特定下游数据集的表现。人们可能认为，要获得一个好的通用模型，必须使用通用数据集 (如 The Pile) 。

然而，研究人员发现, SVAMP (一个小学数学应用题数据集) 是一个极其有效的校准源。

Table 5: Accuracy of models pruned using various downstream datasets. SVAMP (math data) surprisingly acts as a strong general-purpose calibration set.

在表 5 中，查看底部的“Average” (平均) 行。

The Pile (预训练数据) : 38.19% 平均准确率。
SVAMP (数学数据) : 38.71% 平均准确率。

一个完全由数学应用题组成的数据集产生了一个比包含人类知识总和的数据集 (The Pile) 更好的通用模型。这表明，解决逻辑和数学问题所触发的激活覆盖了一组对广泛智能至关重要的关键权重。

4. 数据需要有意义吗？

剪枝中的一个常见问题是语义内容是否重要，还是我们只需要用任何信号点亮神经元。研究人员通过使用以下数据测试了这一点:

省略号 (Ellipses) : 一个只包含 “……” 的文件。
随机字母数字 (Random Alphanumeric) : “a03x93js…”

Table 8: Comparison of Pile vs. Nonsense data (ellipses and random strings). Sensible text is required for effective pruning.

表 8 解决了这个问题。

The Pile: 38.19% 平均准确率。
随机字母数字: 27.79% 平均准确率。
省略号: 22.41% 平均准确率。

虽然随机数据比什么都没有 (省略号) 要好，但它导致性能大幅下降。校准数据必须是“有意义的 (sensible) ”——它需要看起来像真实的语言，才能正确激活模型中的语言处理通路。

进一步分析: 数量与步骤

该论文包含几项有趣的附带调查，进一步完善了我们对校准的理解。

思维链的深度重要吗？

如果展示推理步骤 (思维链) 有帮助，那么展示更多步骤会有更多帮助吗？作者构建了答案中包含确切的 3、4 或 5 个推理步骤的数据集。

Table 6: Accuracy using different numbers of CoT steps. No strong correlation exists between step count and model quality.

如表 6 所示，没有明显的线性关系。对于校准目的而言，5 步解释并不一定比 3 步解释更好。推理的存在是有帮助的，但推理的长度具有边际收益递减效应。

示例的数量

研究人员还证实，关于填充到上下文窗口中的示例数量，“越多越好”。

Table 7: Accuracy improves as more Question-Answer pairs are packed into the calibration sequence.

表 7 表明，用尽可能多的问答对填满上下文窗口 (2048 个 token) 会产生最好的结果 (准确率为 0.0425，而仅用 5 对时为 0.0288) 。这与“有意义的数据”这一发现相吻合——密集、信息丰富的上下文为剪枝算法提供了更好的信号。

结论与启示

这篇论文给模型压缩社区敲响了警钟。长期以来，校准数据的选择被视为一个次要的实现细节，C4 被作为不容置疑的默认选项。

关键要点:

停止默认使用 C4。 如果你要剪枝模型, The Pile 似乎是保持性能的绝对更好选择。
格式化你的数据。 不要只是喂入原始文本块。将校准数据结构化为问答对 (ICL) 能显著帮助剪枝算法识别重要权重。
数学让模型变聪明。 基于算术推理 (如 SVAMP) 的校准数据在保持通用能力方面出奇地有效，很可能是因为它激活了 LLM 中关键的推理回路。
数据质量 > 数据数量。 一小部分高质量、结构化、有意义的示例至关重要。你无法用随机噪声或低质量文本来复制这些结果。

随着我们将 LLM 部署到从笔记本电脑到智能手机的各种设备上，高效的剪枝变得没有商量余地。这项研究强调，更好的压缩之路不仅仅在于更好的算法 (我们如何剪枝的数学原理) ，还在于更好的数据 (我们用来决定剪枝什么的信号) 。这种“以数据为中心”的剪枝方法开启了优化的新前沿。

引言#

背景: 剪枝的机制#

剪枝过程#

现状#

研究设计: 寻找最佳数据#

格式的作用#

主要发现#

1. C4 并非王者#

2. 格式很重要: 上下文学习的力量#

3. “获胜数据集”的惊喜#

4. 数据需要有意义吗？#

进一步分析: 数量与步骤#

思维链的深度重要吗？#

示例的数量#

结论与启示#

引言