DecorateLM：如何通过“装饰”数据构建更好的大语言模型

在大语言模型 (LLM) 飞速发展的世界里，有一句被奉为圭臬的名言: “数据是新时代的石油”。但任何与引擎打交道的人都知道，你不能直接把原油倒进法拉利里还指望它赢得比赛。石油需要经过提炼。

多年来，训练 LLM 的策略主要就是“越大越好”。研究人员抓取整个互联网——数以十亿计的单词——并将它们喂给巨大的神经网络。但随着模型的增长，瓶颈出现了。互联网充满了嘈杂、非结构化和低质量的信息。使用“粗糙”的数据进行训练会导致幻觉、推理能力差和学习效率低下。

今天，我们将深入探讨一篇引人入胜的研究论文，题为 “DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models” (DecorateLM: 通过语言模型进行语料库评分、标记和编辑的数据工程) 。研究人员提出了一套综合系统，将原始、杂乱的数据转化为 AI 的原始、高辛烷值燃料。他们将这一过程称为 装饰 (Decorating) , 它包括三个关键步骤: 评分 (Rating) 、标记 (Tagging) 和编辑 (Editing) 。

问题: “垃圾进，垃圾出”的困境

LLM 的性能在很大程度上受到其预训练语料库的影响。如果你用高质量的教科书训练模型，它会变得聪明且表达清晰。如果你用随机的论坛评论训练它，它可能会染上坏习惯。

挑战在于规模。我们面对的是包含数万亿个 Token 的数据集。人类无法手动阅读和标记这些数据。以前的自动化方法使用的是简单的启发式方法 (如过滤掉短句) 或基本的分类器 (如“这是有毒内容吗？”) 。这些方法太过粗糙。它们将数据视为二元的: 要么保留，要么删除。它们不会告诉模型 为什么 一段文本是好的，也不会在文本“还行但很乱”时对其进行修复。

DecorateLM 登场

作者介绍了 DecorateLM , 这是一种旨在优化预训练语料库的数据工程方法。

其核心思想优雅但计算量巨大。由于我们无法负担使用像 GPT-4 这样的大型模型来处理整个互联网 (那将极其昂贵且缓慢) ，研究人员采用了 教师-学生 (Teacher-Student) 蒸馏方法。

教师 (GPT-4): 用于高精度地标注一小部分经过精心挑选的数据。
学生 (DecorateLM): 一个较小的、12 亿参数的模型，经过训练以模仿 GPT-4 的数据工程能力。
应用: 这个高效的“学生”模型随后处理海量的原始语料库，通过添加元数据和改进内容来“装饰”它。

图 1: 我们利用 GPT-4 构建带注释的训练语料库，并将数据工程专业知识整合到 DecorateLM 中。然后使用 DecorateLM 处理原始语料库中的 1000 亿个 Token，利用其评分和标记能力采样 450 亿个 Token，创建我们所说的“装饰语料库” (Decorated corpus) 。我们通过应用 DecorateLM 的编辑功能进一步增强装饰语料库，使其更适合 LLM 训练。

如上图 1 所示，该流程从一个小型注释数据集开始，训练 DecorateLM 模型，然后由该模型将原始语料库处理成 装饰语料库 (Decorated Corpus) 。这个增强后的数据随后用于训练最终的目标 LLM。

让我们分解一下应用于数据的三种独特的“装饰”: 评分、标记和编辑。

第一阶段: 评分 (量化质量)

你如何定义“好”的数据？研究人员不再局限于简单的“好与坏”，而是建立了 八个具体标准 来为每一段文本打分:

教育价值 (Educational Value): 这适合做教科书吗？
专业性 (Expertise): 它是否反映了深刻的专业知识？
事实与冷知识 (Fact & Trivia): 它是否包含准确的事实信息？
推理水平 (Reasoning Level): 理解它是否需要逻辑或思维链？
稀缺性 (Scarcity): 这个信息是小众的还是罕见的？
结构格式 (Structural Format): 数据是否组织良好 (列表、Markdown 等) ？
故事性 (Story-likeness): 它是叙事性的吗？
主观性 (Subjectivity): 它是基于观点的吗？

“成对比较”的技巧

要求 LLM “给这段文本打分，范围 0 到 100”通常会导致不一致的数字。为了解决这个问题，研究人员使用了 成对比较 方法。他们向 GPT-4 展示两段文本，并问: “关于教育价值，哪一个更好？”通过重复数千次并使用 Bradley-Terry 模型 , 他们将这些胜负关系转化为稳健的数值分数 (0-100) 。

DecorateLM 模型被训练来预测这些分数。令人惊讶的是，这个专门的 DecorateLM 模型最终在验证集上比 GPT-4 本身更加一致。

图 2: 模型评分与验证集真实标签 (Ground Truth) 之间的 Spearman 相关性。具体来说，X 轴代表数据的真实评分分数。Y 轴代表 GPT-4 和 DecorateLM 在评估验证集后的预测评分分数。与 DecorateLM 相比，GPT-4 生成的评分分数更加离散且不准确。

在图 2 中，我们看到了预测评分与真实值之间的相关性。底行 (DecorateLM) 显示出比顶行 (GPT-4 的原始预测) 更紧密、更线性的相关性，证明这个小型专用模型有效地学会了评分任务。

此外，这些评分并不是孤立的。高质量的文本往往具有共同特征。

图 3: 各种评分标准之间的 Spearman 相关系数。这些相关性符合直觉预期。例如，具有较高教育价值的数据通常表现出增强的推理水平，这反过来又增强了它们的可理解性。

如图 3 所示, 教育价值 和 推理水平 之间存在很强的相关性 (0.72) ，这在直觉上是合理的。然而, 主观性 (观点) 与 教育价值 呈低相关或负相关，这表明客观、基于事实的文本通常更适合知识传递。

第二阶段: 标记 (确保多样性)

如果你只选择“评分最高”的数据，你可能会得到一个完全由物理教科书组成的数据集，而忽略了历史或流行文化。为了防止这种情况，研究人员实施了一个分层标记系统。

他们设计了一个 3 级 的分类体系:

一级: 21 个主要类别 (例如，自然科学、艺术与文化) 。
二级: 255 个子类别。
三级: 793 个具体主题。

这种细粒度的标记允许精确控制训练数据的领域分布。

图 4: 标签词云。每个标签的大小与其在注释数据集中的频率成正比。标签根据其层级进行颜色编码: 一级标签为深蓝色，二级标签为中蓝色，三级标签为浅蓝色。

上面的词云可视化了所覆盖主题的广度。通过训练 DecorateLM 来预测这些标签，研究人员可以扫描原始语料库并准确识别其中包含的主题。

表 1: DecorateLM 和 GPT-4 在验证集上三个层级标记准确率的比较。GPT-4 由于缺乏设计好的标记体系的先验知识，通过多轮交互中的提示被提供了每一层级的相关标签。

如表 1 所示，DecorateLM 实现了与 GPT-4 相当的标记准确率，甚至在一级标签上略微超过了它。这种效率至关重要，因为它允许系统快速标记数十亿个 Token。

评估原始数据

利用这些评分和标签，研究人员分析了几个流行的开源数据集 (如 Dolma、C4 和 The Pile) 。

图 5: 使用 DecorateLM 评估数据集评分和标记质量。X 轴表示每个数据集在指定维度上的平均评分，而 Y 轴表示预定义标记系统的标签交叉熵。圆圈大小与数据集大小相关。

图 5 揭示了关于开源数据集的一个严峻事实。英文数据集 (Dolma, The Pile) 通常位于右侧 (较高的评分) 和 Y 轴较低的位置 (更好的标签一致性) 。中文数据集 (如 BD Wiki) 显示出较低的质量评分，凸显了非英语语料库对数据工程的迫切需求。

第三阶段: 编辑 (转换内容)

这可能是 DecorateLM 中最具创新性的部分。评分和标记允许你选择数据，但编辑允许你改进它。

网络上充满了“噪音”: 混乱的 HTML、奇怪的格式、非正式的俚语和脱节的逻辑。即使事实是好的，呈现方式 对于试图学习语言模式的模型来说可能很糟糕。

研究人员训练了一个“编辑”版的 DecorateLM。该模型接收原始文本并将其改写为:

更清晰、更简洁。
更有逻辑。
格式更好 (使用 Markdown、列表等) 。
正式且像教科书一样。

图 8: 人类对验证集上编辑后文本的偏好: DecorateLM vs. GPT-4。

这有效吗？图 8 显示了人类评估的结果。编辑模型 (DecorateLM) 显着提高了文本的清晰度、流畅度和逻辑连贯性。事实上，对于像“信息精度”这样的指标，编辑后的文本往往胜过原始文本。

编辑的影响可以通过 困惑度 (Perplexity) (衡量模型对文本感到“惊讶”程度的指标) 在数学上进行衡量。较低的困惑度通常意味着文本更自然、更容易学习。

图 7: 语料库的困惑度分布。

图 7 表明，编辑后的语料库 (橙色) 的困惑度分布明显低于原始语料库 (蓝色) 。这表明数据变得更加规律和可预测——这对于学习过程来说是理想的。

实验: 真的有效吗？

为了证明“装饰”数据能带来更好的模型，研究人员进行了一项严格的实验。他们采用了一个基线模型 (MiniCPM-1.2B) ，并使用不同版本的数据继续对其进行训练:

基线 (Baseline): 原始数据。
评分 (Rated): 基于质量分数采样的数据。
标记 (Tagged): 采样以平衡领域的数据。
编辑 (Edited): 为提高质量而重写的数据。
组合 (Combined): 以上所有方法的结合。

采样策略

研究人员并没有只是把数据扔进去。他们使用了基于分数的数学采样策略。

对于评分 , 他们使用了指数加权公式。质量得分 ($score_{i,t}$) 较高的数据被赋予更高的被选中概率 ($W_{i,t}$):

$() W _ { i , t } = e ^ { \\frac { \\mathrm { s c o r e } _ { i , t } - \\lambda } { \\tau } } , ()$

对于标签 , 他们对领域进行了反向加权。如果一个领域 (如“体育”) 在原始数据中很罕见，他们会增加其权重以确保模型不会忽略它:

$() \\begin{array} { r l r } { { W _ { a , b , c } = \\frac { N _ { \\mathrm { I = } a } ^ { \\alpha } } { \\sum _ { i = 1 } ^ { N _ { \\mathrm { I } } } N _ { \\mathrm { I = } i } ^ { \\alpha } } \\cdot \\frac { N _ { \\mathrm { I = } a , \\mathrm { I I } = b } ^ { \\beta } } { \\sum _ { i = 1 } ^ { N _ { \\mathrm { I = } a , \\mathrm { I I } } } N _ { \\mathrm { I = } a , \\mathrm { I I } = i } ^ { \\beta } } \\cdot } } \\ & { } & { \\frac { N _ { \\mathrm { I = } a , \\mathrm { I I = } b , \\mathrm { I I I } = c } ^ { \\gamma } } { \\sum _ { i = 1 } ^ { N _ { \\mathrm { I = } a , \\mathrm { I I = } b , \\mathrm { I I } } } N _ { \\mathrm { I = } a , \\mathrm { I I = } b , \\mathrm { I I I } = i } ^ { \\gamma } } , } \\end{array} ()$

结果

结果令人信服。在几乎所有基准测试中，使用装饰数据训练的模型都优于基线模型。

表 2: 不同策略下基准性能的比较。

在表 2 (上图) 中，请看 Avg. (平均) 列。

Base (基线): 36.1
Rat. (Agg.) & Edit (评分聚合 & 编辑): 38.4
Rat (Agg) & Tag & Edit (评分聚合 & 标记 & 编辑): 38.3 (但领域覆盖率更高)。

Rat. (Agg.) & Edit (评分和编辑) 方法在 MMLU 和 GSM8K (数学) 等一般推理任务中显示出最大的提升。

标记系统特别有助于 领域覆盖 (Domain Coverage)——确保模型了解小众话题。

图 9: MMLU-Tag 模型在 MMLU 各子任务上的表现。根据 Tag 方法增加相应标签采样权重的任务以红色突出显示。

图 9 显示了标记对特定主题的影响。当研究人员对特定标签 (如“解剖学”或“天文学”) 进行上采样时，模型在这些特定 MMLU 子任务 (橙色条) 上的表现通常超过基线 (蓝色条) 。

最后，专门看一下稀有领域:

表 4: 不同策略下稀有领域基准性能的比较。

表 4 显示，对于法律 (JECQA) 或医学 (MedQA) 等专业领域，评分、标记和编辑的组合方法产生了最佳结果，将 平均领域覆盖率 (Avg. DC) 从 37.5 显着提高到 45.0。

结论: 为精炼的模型提供精炼的数据

DecorateLM 论文为转变我们训练 LLM 的方式提供了有力的证据。我们正在从“大数据”时代迈向“智能数据”时代。

通过将先进模型 (如 GPT-4) 的直觉综合成高效的“数据工程师” (DecorateLM) ，我们可以处理浩瀚的信息海洋。

评分确保我们向专家学习，而不是向新手学习。
标记确保我们博览群书，而不仅仅是流行读物。
编辑确保学习材料清晰、简洁、结构合理。

这种三管齐下的方法允许较小的模型超水平发挥，并使大规模模型的训练更加高效。正如研究人员所指出的，装饰后的语料库不仅仅是变小了；它的知识密度更高了。在构建通用人工智能 (AGI) 的竞赛中，质量控制似乎是最终的加速器。

问题: “垃圾进，垃圾出”的困境#

DecorateLM 登场#

第一阶段: 评分 (量化质量)#

“成对比较”的技巧#

第二阶段: 标记 (确保多样性)#

评估原始数据#

第三阶段: 编辑 (转换内容)#

实验: 真的有效吗？#

采样策略#

结果#

结论: 为精炼的模型提供精炼的数据#