在大语言模型 (LLM) 飞速发展的世界里,有一句被奉为圭臬的名言: “数据是新时代的石油”。但任何与引擎打交道的人都知道,你不能直接把原油倒进法拉利里还指望它赢得比赛。石油需要经过提炼。
多年来,训练 LLM 的策略主要就是“越大越好”。研究人员抓取整个互联网——数以十亿计的单词——并将它们喂给巨大的神经网络。但随着模型的增长,瓶颈出现了。互联网充满了嘈杂、非结构化和低质量的信息。使用“粗糙”的数据进行训练会导致幻觉、推理能力差和学习效率低下。
今天,我们将深入探讨一篇引人入胜的研究论文,题为 “DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models” (DecorateLM: 通过语言模型进行语料库评分、标记和编辑的数据工程) 。研究人员提出了一套综合系统,将原始、杂乱的数据转化为 AI 的原始、高辛烷值燃料。他们将这一过程称为 装饰 (Decorating) , 它包括三个关键步骤: 评分 (Rating) 、标记 (Tagging) 和编辑 (Editing) 。
问题: “垃圾进,垃圾出”的困境
LLM 的性能在很大程度上受到其预训练语料库的影响。如果你用高质量的教科书训练模型,它会变得聪明且表达清晰。如果你用随机的论坛评论训练它,它可能会染上坏习惯。
挑战在于规模。我们面对的是包含数万亿个 Token 的数据集。人类无法手动阅读和标记这些数据。以前的自动化方法使用的是简单的启发式方法 (如过滤掉短句) 或基本的分类器 (如“这是有毒内容吗?”) 。这些方法太过粗糙。它们将数据视为二元的: 要么保留,要么删除。它们不会告诉模型 为什么 一段文本是好的,也不会在文本“还行但很乱”时对其进行修复。
DecorateLM 登场
作者介绍了 DecorateLM , 这是一种旨在优化预训练语料库的数据工程方法。
其核心思想优雅但计算量巨大。由于我们无法负担使用像 GPT-4 这样的大型模型来处理整个互联网 (那将极其昂贵且缓慢) ,研究人员采用了 教师-学生 (Teacher-Student) 蒸馏方法。
- 教师 (GPT-4): 用于高精度地标注一小部分经过精心挑选的数据。
- 学生 (DecorateLM): 一个较小的、12 亿参数的模型,经过训练以模仿 GPT-4 的数据工程能力。
- 应用: 这个高效的“学生”模型随后处理海量的原始语料库,通过添加元数据和改进内容来“装饰”它。

如上图 1 所示,该流程从一个小型注释数据集开始,训练 DecorateLM 模型,然后由该模型将原始语料库处理成 装饰语料库 (Decorated Corpus) 。 这个增强后的数据随后用于训练最终的目标 LLM。
让我们分解一下应用于数据的三种独特的“装饰”: 评分、标记和编辑。
第一阶段: 评分 (量化质量)
你如何定义“好”的数据?研究人员不再局限于简单的“好与坏”,而是建立了 八个具体标准 来为每一段文本打分:
- 教育价值 (Educational Value): 这适合做教科书吗?
- 专业性 (Expertise): 它是否反映了深刻的专业知识?
- 事实与冷知识 (Fact & Trivia): 它是否包含准确的事实信息?
- 推理水平 (Reasoning Level): 理解它是否需要逻辑或思维链?
- 稀缺性 (Scarcity): 这个信息是小众的还是罕见的?
- 结构格式 (Structural Format): 数据是否组织良好 (列表、Markdown 等) ?
- 故事性 (Story-likeness): 它是叙事性的吗?
- 主观性 (Subjectivity): 它是基于观点的吗?
“成对比较”的技巧
要求 LLM “给这段文本打分,范围 0 到 100”通常会导致不一致的数字。为了解决这个问题,研究人员使用了 成对比较 方法。他们向 GPT-4 展示两段文本,并问: “关于教育价值,哪一个更好?”通过重复数千次并使用 Bradley-Terry 模型 , 他们将这些胜负关系转化为稳健的数值分数 (0-100) 。
DecorateLM 模型被训练来预测这些分数。令人惊讶的是,这个专门的 DecorateLM 模型最终在验证集上比 GPT-4 本身更加一致。

在图 2 中,我们看到了预测评分与真实值之间的相关性。底行 (DecorateLM) 显示出比顶行 (GPT-4 的原始预测) 更紧密、更线性的相关性,证明这个小型专用模型有效地学会了评分任务。
此外,这些评分并不是孤立的。高质量的文本往往具有共同特征。

如图 3 所示, 教育价值 和 推理水平 之间存在很强的相关性 (0.72) ,这在直觉上是合理的。然而, 主观性 (观点) 与 教育价值 呈低相关或负相关,这表明客观、基于事实的文本通常更适合知识传递。
第二阶段: 标记 (确保多样性)
如果你只选择“评分最高”的数据,你可能会得到一个完全由物理教科书组成的数据集,而忽略了历史或流行文化。为了防止这种情况,研究人员实施了一个分层标记系统。
他们设计了一个 3 级 的分类体系:
- 一级: 21 个主要类别 (例如,自然科学、艺术与文化) 。
- 二级: 255 个子类别。
- 三级: 793 个具体主题。
这种细粒度的标记允许精确控制训练数据的领域分布。

上面的词云可视化了所覆盖主题的广度。通过训练 DecorateLM 来预测这些标签,研究人员可以扫描原始语料库并准确识别其中包含的主题。

如表 1 所示,DecorateLM 实现了与 GPT-4 相当的标记准确率,甚至在一级标签上略微超过了它。这种效率至关重要,因为它允许系统快速标记数十亿个 Token。
评估原始数据
利用这些评分和标签,研究人员分析了几个流行的开源数据集 (如 Dolma、C4 和 The Pile) 。

图 5 揭示了关于开源数据集的一个严峻事实。英文数据集 (Dolma, The Pile) 通常位于右侧 (较高的评分) 和 Y 轴较低的位置 (更好的标签一致性) 。中文数据集 (如 BD Wiki) 显示出较低的质量评分,凸显了非英语语料库对数据工程的迫切需求。
第三阶段: 编辑 (转换内容)
这可能是 DecorateLM 中最具创新性的部分。评分和标记允许你 选择 数据,但 编辑 允许你 改进 它。
网络上充满了“噪音”: 混乱的 HTML、奇怪的格式、非正式的俚语和脱节的逻辑。即使 事实 是好的,呈现方式 对于试图学习语言模式的模型来说可能很糟糕。
研究人员训练了一个“编辑”版的 DecorateLM。该模型接收原始文本并将其改写为:
- 更清晰、更简洁。
- 更有逻辑。
- 格式更好 (使用 Markdown、列表等) 。
- 正式且像教科书一样。

这有效吗?图 8 显示了人类评估的结果。编辑模型 (DecorateLM) 显着提高了文本的清晰度、流畅度和逻辑连贯性。事实上,对于像“信息精度”这样的指标,编辑后的文本往往胜过原始文本。
编辑的影响可以通过 困惑度 (Perplexity) (衡量模型对文本感到“惊讶”程度的指标) 在数学上进行衡量。较低的困惑度通常意味着文本更自然、更容易学习。

图 7 表明,编辑后的语料库 (橙色) 的困惑度分布明显低于原始语料库 (蓝色) 。这表明数据变得更加规律和可预测——这对于学习过程来说是理想的。
实验: 真的有效吗?
为了证明“装饰”数据能带来更好的模型,研究人员进行了一项严格的实验。他们采用了一个基线模型 (MiniCPM-1.2B) ,并使用不同版本的数据继续对其进行训练:
- 基线 (Baseline): 原始数据。
- 评分 (Rated): 基于质量分数采样的数据。
- 标记 (Tagged): 采样以平衡领域的数据。
- 编辑 (Edited): 为提高质量而重写的数据。
- 组合 (Combined): 以上所有方法的结合。
采样策略
研究人员并没有只是把数据扔进去。他们使用了基于分数的数学采样策略。
对于 评分 , 他们使用了指数加权公式。质量得分 (\(score_{i,t}\)) 较高的数据被赋予更高的被选中概率 (\(W_{i,t}\)):

对于 标签 , 他们对领域进行了反向加权。如果一个领域 (如“体育”) 在原始数据中很罕见,他们会增加其权重以确保模型不会忽略它:

结果
结果令人信服。在几乎所有基准测试中,使用装饰数据训练的模型都优于基线模型。

在表 2 (上图) 中,请看 Avg. (平均) 列。
- Base (基线): 36.1
- Rat. (Agg.) & Edit (评分聚合 & 编辑): 38.4
- Rat (Agg) & Tag & Edit (评分聚合 & 标记 & 编辑): 38.3 (但领域覆盖率更高)。
Rat. (Agg.) & Edit (评分和编辑) 方法在 MMLU 和 GSM8K (数学) 等一般推理任务中显示出最大的提升。
标记系统特别有助于 领域覆盖 (Domain Coverage)——确保模型了解小众话题。

图 9 显示了标记对特定主题的影响。当研究人员对特定标签 (如“解剖学”或“天文学”) 进行上采样时,模型在这些特定 MMLU 子任务 (橙色条) 上的表现通常超过基线 (蓝色条) 。
最后,专门看一下稀有领域:

表 4 显示,对于法律 (JECQA) 或医学 (MedQA) 等专业领域,评分、标记和编辑的组合方法产生了最佳结果,将 平均领域覆盖率 (Avg. DC) 从 37.5 显着提高到 45.0。
结论: 为精炼的模型提供精炼的数据
DecorateLM 论文为转变我们训练 LLM 的方式提供了有力的证据。我们正在从“大数据”时代迈向“智能数据”时代。
通过将先进模型 (如 GPT-4) 的直觉综合成高效的“数据工程师” (DecorateLM) ,我们可以处理浩瀚的信息海洋。
- 评分 确保我们向专家学习,而不是向新手学习。
- 标记 确保我们博览群书,而不仅仅是流行读物。
- 编辑 确保学习材料清晰、简洁、结构合理。
这种三管齐下的方法允许较小的模型超水平发挥,并使大规模模型的训练更加高效。正如研究人员所指出的,装饰后的语料库不仅仅是变小了;它的知识密度 更高 了。在构建通用人工智能 (AGI) 的竞赛中,质量控制似乎是最终的加速器。
](https://deep-paper.org/en/paper/2410.05639/images/cover.png)