如果以我的语言交流，我学得更好：为什么在 LLM 训练中合成数据优于人类黄金标准数据

在大型语言模型 (LLM) 飞速发展的世界中，存在一个被广泛接受的数据质量层级。位于顶端的是人类标注数据——即由专家精心制作的“黄金标准”。位于其下的是由模型生成的合成数据，通常被视为在人类数据稀缺时一种有用但稍显逊色的替代品。

但是，如果这个层级是错误的呢？

一篇题为 “I Learn Better If You Speak My Language” (如果以我的语言交流，我学得更好) 的迷人研究论文探索了一个反直觉的现象: 使用其他 LLM (如 GPT-4) 生成的响应来微调小型 LLM (如 Mistral 或 Llama-2) ，通常比使用人类编写的响应效果更好。

这不仅仅是因为 GPT-4 比普通人类标注员“更聪明”。研究人员发现，语言的风格与内容同样重要。具体来说，模型从感觉“熟悉”的数据中学习效果更好——即那些说它们语言的数据。

在这篇深度文章中，我们将拆解这篇论文，以理解为什么合成数据如此有效，探讨作为熟悉度度量标准的“困惑度 (perplexity) ”概念，并研究一种名为“最小改动 (Minimum Change) ”的新颖训练方法，该方法将这种效应最大化。

合成数据的悖论

为了理解这篇论文的核心贡献，我们首先需要看看监督微调 (SFT) 的标准做法。通常，如果你想教一个像 Llama-2-13B 这样的模型解决数学问题，你会给它提供一个包含问题和正确的人类验证答案的数据集。

然而，最近的趋势转向了“蒸馏”。这涉及使用一个庞大、强大的模型 (教师模型，例如 GPT-4) ，让它解决问题，并使用生成的答案来训练一个较小的模型 (学生模型) 。

研究人员观察到一个一致的模式: 在这些合成数据上训练的模型表现优于在原始人类数据集上训练的模型。

表1: 人类标注数据与 GPT-4/Claude 3.5 直接生成的数据对比。域内性能以灰色突出显示。当准确率比同一数据集和模型上的最高准确率低 15% 以上时，数据点会被高亮显示。Groundtruth、GPT-4 和 Claude 分别有 14、1 和 2 个红色数据点。

如上方的 表 1 所示，请注意“Groundtruth” (基准真值/人类数据) 行中普遍存在的红色高亮。这些表示低性能。在各个领域——数学、常识推理 (ECQA) 和代码生成——在人类基准真值上训练的模型始终落后于在 GPT-4 或 Claude 生成的响应上训练的模型。

“思维链”的迷思

为什么会发生这种情况？AI 社区的普遍观点是，像 GPT-4 这样的 LLM 只是更啰嗦。它们自然地产生“思维链” (CoT) 推理——一步步拆解问题——而人类标注员可能只提供答案或简短的解释。

假设是: 更多细节 = 更好的学习。

然而，这篇论文的作者挑战了这一假设。他们发现了一些反例，即更详细的响应并没有带来更好的训练效果。他们意识到，单凭细节无法解释这种性能差距。一定存在一个隐藏变量。

隐藏变量: 熟悉度和困惑度

研究人员提出了一个新的假设: 熟悉度 (Familiarity) 。

想象一下，你正在努力学习一个复杂的概念。如果老师用你已经知道的词汇和句子结构来解释，而不是使用你从未听过的古老措辞或俚语，你可能会学得更快。

研究人员假设 LLM 的工作方式也是如此。“目标 LLM” (正在被训练的模型) 对它自己 (以及其他 LLM) 的说话方式有着内在的偏好。

为了衡量这种“熟悉度”，他们使用了一个称为 困惑度 (Perplexity) 的指标。

什么是困惑度？

在自然语言处理中，困惑度衡量模型对一段文本序列感到“惊讶”的程度。

低困惑度: 模型很容易预测该文本。它“预期”到了那些词。文本感觉很熟悉。
高困惑度: 模型发现文本不可预测或“奇怪”。

研究人员测量了目标模型 (Mistral-7B 和 Llama-2-13B) 眼中的不同数据集的困惑度。

图2: 平均困惑度比较

图 2 为熟悉度假设提供了惊人的证据。

看 灰色柱 (Groundtruth/人类) 。它们始终是最高的。这意味着模型发现人类语言最令人“惊讶”或难以预测。
看 绿色/橙色柱 (GPT-4 和 Claude) 。困惑度明显较低。尽管这些是不同的模型，但它们与目标模型共享一种“统计方言”。
看 紫色/蓝色柱 (自身预测) 。当模型阅读自己的输出时，困惑度最低，这完全合乎逻辑。

相关性很明显: LLM 生成的文本比人类文本具有更低的困惑度。 模型们都在“说着同样的语言”。

调查假设: 是细节还是熟悉度？

为了证明驱动性能的是熟悉度 (低困惑度) ——而不只是 GPT-4 提供的额外细节——研究人员设计了一系列巧妙的消融研究。

实验 1: 风格比细节更重要吗？

他们使用 GPT-4 创建了几种不同变体的训练数据:

GPT-4 Answer Directly (GPT-4 直接回答) : 标准的合成数据。
GPT-4 Step-by-Step (GPT-4 分步) : 明确强制进行详细推理。
GPT-4 Transforming Ground Truth (GPT-4 转换基准真值) : 要求 GPT-4 用其详细的风格重写人类答案。
Rewrite Ground Truth (重写基准真值) : 要求 GPT-4 重写人类答案，但尽可能保留人类的逻辑/风格。

表2: 使用不同方法构建的数据训练的模型的性能比较。n_train = 1000。当准确率比同一数据集使用同一模型的最高准确率低 15% 以上时，数据点被标记为低性能。参见表 6 和表 7 以获取 GPT-4 和 Claude 3.5 的更多实验。

表 2 揭示了结果。请注意，“GPT-4 Answer Directly” (通常更短、更直接) 的表现经常与复杂的分步转换一样好，甚至更好。

至关重要的是，仅仅向人类基准真值添加细节 (分步转换) 并不总是产生最好的结果。来自 GPT-4 的“直接”回答，源于模型的自然分布，尽管其 token 长度比详细变体更短，却极其有效。这表明文本的自然度 (熟悉度) 是成功的关键驱动因素。

实验 2: 困惑度划分

为了完全隔离熟悉度，研究人员进行了一项对照实验。他们使用 GPT-4 生成了两组语义相同 (意义相同) 但措辞不同的答案:

低困惑度组: 目标模型认为可预测的措辞。
高困惑度组: 目标模型认为令人惊讶的措辞。

表3: GPT-4/Claude 3.5: 低困惑度答案与高困惑度答案。n_train = 1000

表 3 的结果是决定性的。在 低困惑度 数据上训练始终产生更好的准确率 (例如，在 Llama2 上，GSM8K 任务得分为 0.600 , 而高困惑度仅为 0.547 )。

请记住，信息内容是一样的。唯一的区别在于语言风格对学生模型的熟悉程度。这证实了论文的标题: 如果以它的语言交流，模型学得更好。

“最小改动”方法

研究人员已经确定了两件事:

模型更喜欢它们自己的输出 (最高熟悉度/最低困惑度) 。
然而，较小的模型 (如 Llama-2) 经常出错，所以我们不能只是让它们在自己的原始预测上训练 (自训练) ，而不经过筛选，否则它们会学习错误。

这引出了一种名为 “最小改动 (Minimum Change) ” 的实用技术的开发。

概念

最小改动的目标是两全其美:

高熟悉度: 尽可能多地保留目标模型原始预测的内容。
高正确性: 使用更强的模型 (GPT-4) 仅修复逻辑错误。

与其要求 GPT-4 从头开始编写答案 (这会产生 GPT-4 风格的文本) ，不如要求 GPT-4 充当编辑。

图3: 最小改动数据修正示例

如 图 3 所示，流程如下:

初始预测: 学生模型 (例如 Mistral) 尝试回答问题。它可能算错了数学题。
最小改动修正: GPT-4 阅读学生的尝试。它被指示修复数学错误，但尽可能少地更改单词。
微调: 学生模型随后在这个修正后的版本上进行训练。

因为文本源自学生模型，它保持了高度的熟悉度 (低困惑度) 。但因为 GPT-4 编辑了它，它是符合事实的。

提示词 (Prompt)

如何让 LLM 只“编辑”而不重写？你必须在提示词中非常具体。

图4: 最小改动提示词示例

图 4 展示了使用的提示词。关键指令是: “最小改动的预测修正错误并尽可能保留原始词汇。”

为什么不直接用目标模型来修复自己？

你可能会问，为什么要卷入 GPT-4？为什么不让 Llama-2 将人类基准真值重写成它自己的风格？

研究人员尝试了这一点 (称之为“Groundtruth Style Transfer”，基准真值风格迁移) ，但失败了。较小的模型通常缺乏足够的指令遵循能力来重写文本而不破坏逻辑或产生幻觉。

图5: Llama2 基准真值风格迁移失败示例图6: 基准真值转换提示词

图 5 展示了一个失败的例子。当 Llama-2 试图重写基准真值时，它有时会偏离正确的逻辑。GPT-4 作为可靠的“监督者”是必要的，以确保在风格保持熟悉的同时逻辑保持健全。

结果

那么，最小改动方法与标准合成数据相比如何呢？

表5: 比较 GPT4 和最小改动的实验结果。n_train = 1000

表 5 将“最小改动”方法与“GPT-4 直接回答”进行了比较。

性能: 最小改动方法实现了与直接 GPT-4 数据相当 (有时甚至更优) 的性能。
效率: 看一下“平均 Token 长度”一列。最小改动响应明显更短 (例如, 133 个 token 对比 164 个 token) 。

这是一个巨大的胜利。模型使用简洁且计算处理成本更低的训练数据达到了顶级的准确率，仅仅是因为该数据对它来说是“熟悉”的。

结论与启示

这项研究改变了我们对合成数据为何如此有效的理解。这不仅仅是将知识从更聪明的老师蒸馏给更笨的学生。这是关于翻译。

人类语言是多样、混乱且高困惑度的。LLM 语言是统计性、可预测且低困惑度的。当我们强迫 LLM 从人类黄金标准数据中学习时，我们是在要求它跨越一道“语言障碍”。

对于学生和从业者来说，主要的收获是:

不要过度纠结细节: 如果推理的风格对模型来说是陌生的，简单地添加思维链推理并不是万灵药。
困惑度很重要: 在策划数据集时，考虑数据对你的模型来说有多“令人惊讶”。较低的困惑度 (在不牺牲准确性的情况下) 有助于更快、更稳健的学习。
“最小改动”混合法: 最有效的训练数据可能是模型自己的输出，经过更高智能的轻微修正。这保留了模型的“统计方言”，同时确保了真实性。

随着我们向前发展，可能会看到从人类标注向“人类验证，模型生成”工作流的转变，其中人类 (或高级 AI 监督者) 的主要角色是核查模型自己的幻觉，而不是从头开始编写答案。

这篇论文表明，未来的 AI 模型不仅向我们学习——当我们让它们自言自语，并给予一点点指导时，它们学得最好。

合成数据的悖论#

“思维链”的迷思#

隐藏变量: 熟悉度和困惑度#

什么是困惑度？#

调查假设: 是细节还是熟悉度？#

实验 1: 风格比细节更重要吗？#

实验 2: 困惑度划分#

“最小改动”方法#

概念#

提示词 (Prompt)#

为什么不直接用目标模型来修复自己？#

结果#

结论与启示#