2.5% 法则：为何合成数据仍需人工干预

引言

在当前的人工智能领域，数据就是新时代的石油，但油井正趋于干涸。从 BERT 的早期时代到 GPT-4 的大规模应用，语言模型 (LM) 的增长一直依赖于训练数据的指数级增加。然而，我们正逼近一个关键的瓶颈: 高质量的人工标注数据昂贵、生产缓慢，且难以针对专业任务进行规模化扩展。

面对这种“数据饥渴”，研究人员和工程师们转向了一个充满希望的替代方案: 合成数据 (Synthetic Data) 。如果现代的大型语言模型 (LLM) 如此聪明，为什么不让它们为下一代模型生成训练数据呢？这听起来像是一个完美的永动机——AI 教 AI，从而消除了对昂贵人工劳动力的需求。

但这真的这么简单吗？我们可以完全把人类从循环中剔除而不产生后果吗？

Dhananjay Ashok 和 Jonathan May 撰写的一篇精彩的研究论文 “A Little Human Data Goes A Long Way” (少量人类数据作用大) 正是调查了这个问题。研究人员聚焦于事实核查 (Fact Verification, FV) 和问答 (Question Answering, QA) 任务，探索了当逐步用合成数据替换人工数据时会发生什么。

他们的发现揭示了性能上一个令人惊讶的“悬崖边缘”。虽然你可以利用大量的自动化数据，但完全消除人类的洞察力会导致严重的失败。更重要的是，他们发现只需添加极其微量的“一点点”人类数据——哪怕只有 125 个样本——就能挽救模型的性能。

在这篇深度文章中，我们将剖析他们的方法论，分析“合成悬崖”，并探讨人工标注与机器标注的经济权衡。

背景: 合成数据的承诺与隐忧

在理解解决方案之前，我们必须先理解问题所在。对于复杂的自然语言处理 (NLP) 任务，模型通常需要监督微调 (supervised fine-tuning) 。这意味着要向模型展示数千个“输入”和“正确输出”的例子。

例如:

事实核查 (FV) : 给定一段证据文本 (如新闻文章) ，确定某个特定主张是真还是假。
问答 (QA) : 给定一个段落，根据该文本回答特定问题。

传统上，创建这些数据集需要人类阅读文本、构思主张或问题，并进行标记。这既缓慢又昂贵。

合成方法

替代方案是使用强大的 LLM (如 GPT-4 或 GPT-3.5) 作为标注者。你向 LLM 提供一段证据文本并提示它: “根据这段文本生成一个真实的主张” 或 “为这段话编写一个问答对。” 瞬间，你就能以极低的成本获得无限的训练数据。

然而，之前的研究结果好坏参半。虽然合成数据在预训练中有帮助，但完全依赖它来执行特定任务可能会导致“模型坍塌”或退化。本论文首次系统地调查了 FV 和 QA 任务中人工数据与合成数据的比例问题。

核心方法: 人机结合

研究人员旨在模拟这样一种场景: 开发人员拥有固定的训练数据预算，但可以选择数据来源。为此，他们选择了涵盖科学、新闻、社交媒体和小说等领域的八个多样化数据集。

生成流程

团队使用了一种称为少样本上下文学习 (Few-Shot In-Context Learning) 的方法。他们使用一个强大的“提示模型” (GPT-3.5-Turbo) ，并向其展示三个真实的人类示例 (证据、主张、标签) 。然后，他们提供一个新的证据文本，并要求模型生成一个新的数据点。

这为每个人类数据集产生了一个“影子数据集”——大小相同，证据文本相同，但标签和问题是合成生成的。

实验: 增量替换

这是研究的核心部分。研究人员在固定大小的数据集 (例如 5,000 个示例) 上训练了多个较小的模型 (如 Llama-3 和 Mistral) 。

他们不仅仅比较“全人工”与“全合成”。相反，他们改变了合成比例 (Synthetic Fraction) , 从 0.0 (全人工) 到 1.0 (全合成) 。

合成比例 0.5: 2,500 个人工点 + 2,500 个合成点。
合成比例 0.9: 500 个人工点 + 4,500 个合成点。
合成比例 1.0: 5,000 个合成点。

这使他们能够绘制出一条性能曲线，以此观察模型确切在何时开始失效。

结果: “合成悬崖”

实验结果揭示了几乎所有测试数据集中都存在的一个惊人模式。

1. 稳定区 (0% 到 90%)

乍一看，合成数据看起来无比强大。当研究人员将合成比例从 0% 增加到 80% 甚至 90% 时，模型的性能几乎没有下降。在某些情况下，它在统计上与完全由人工训练的模型保持一致。

这对效率来说是一个巨大的胜利。这表明你可以使用 LLM 廉价地生成绝大多数训练数据，而不会牺牲准确性。

2. 崩塌 (90% 到 100%)

然而，在光谱的最末端，情况发生了巨大变化。当数据集接近 100% 合成 (纯自动化) 时，性能急剧下降。

Change in model performance as the proportion of synthetic points in the training data is increased.

上方的 图 1 展示了这一现象。看上面的图表 (事实核查的准确率) 。Factify (蓝色) 和 SciFact (绿色) 等数据集的线条在很长一段时间内保持相对平坦。但看 x 轴的最右侧。当合成比例从 0.9 变为 1.0 时，曲线急剧下降。

下方的图表 (QA 的 BLEU 分数) 显示 CoQA 和 ROPES 等数据集的下降更为剧烈。传达的信息很明确: 你可以替换大多数人类，但你不能替换所有人类。

3. 2.5% 的魔力

为了更好地理解这种崩塌，研究人员放大了 95% 到 100% 之间的区间。他们测试了不同的分割点: 95% 合成、97.5% 合成和 100% 合成。

Model performance as the synthetic proportion of the training data varies from 0.95 to 1.

图 2 展示了这个特写视图。

x 轴代表合成比例 (0.95 到 1.0) 。
y 轴代表性能的变化。

注意斜率。97.5% 合成 (其中 2.5% 是人工数据) 与 100% 合成之间的差异是巨大的。对于一个包含 5,000 个点的数据集，2.5% 仅仅是 125 个数据点 。

这是论文的“头条”发现: 包含哪怕只有 125 个人工生成的示例，也能防止完全合成训练带来的性能崩塌。 极少量的人类信号就能稳定数千个合成示例带来的噪音。

经济权衡: 人工数据值多少钱？

如果一点点人类数据是必要的，我们如何决定它是否“值得”这笔费用？人工标注很昂贵 (支付工人薪酬) ，而合成标注很便宜 (API 成本) 。

研究人员通过提出以下问题来量化这一点: 需要多少额外的合成点才能匹配仅添加 200 个人工点带来的性能提升?

想象一下你有一个纯合成的数据集。你有两个选择来提高准确性:

付钱给人类创建 200 个新示例。
付钱给 OpenAI/Anthropic 生成 \(N\) 千个新的合成示例。

On the WANLI dataset, adding 200 real data points is as effective as adding an order of magnitude more synthetic data points.

图 4 在 WANLI 数据集上可视化了这种权衡。

蓝线显示了添加更多合成数据带来的缓慢、对数级的改进。
红点显示了添加小批次人工数据时的性能跳跃。

注释 (+16550) 表明，为了匹配这些人工点提供的准确性增益，你需要 16,550 个额外的合成点。

“价格比”

这有助于研究人员计算盈亏平衡点。如果生成一个合成点的成本是 0.01 美元，而一个人工点的成本是 0.50 美元，那么人工点贵了 50 倍。然而，如果人工点提供了 80 倍的价值 (就数据效率而言) ，那么人工标注实际上是更具成本效益的解决方案。

Additional synthetic data points needed to match the performance gain of 200 human data points.

表 1 (上图) 详细列出了其他数据集的情况。

对于 FairyTaleQA , 这个数字是天文数字 (281,951) 。这表明对于某些复杂的任务，合成数据触及了一个无论生成多少数据都无法突破的“天花板”。人工数据解锁了合成数据无法达到的性能。

为什么会发生这种情况？数据的“恐怖谷”

为什么合成数据在极端情况下表现较差？仅仅是因为幻觉吗？作者对数据的语言属性进行了详细分析以找出原因。

1. 合成数据太啰嗦

LLM 研究中最一致的发现之一是模型喜欢长篇大论。

Synthetic questions are longer than human generated ones.

图 5 比较了 CoQA 数据集中问题的长度。蓝色条 (真实) 向左偏移，表明问题更短、更有力。橙色条 (合成) 向右偏移。合成数据倾向于辞藻华丽和啰嗦，这可能会混淆被训练用于简洁推理的模型。

2. “懒惰”的人类偏见

有趣的是，研究人员发现合成模型在某些方面实际上比人类更全面——但这反而对它们不利。

当人类根据文本编写问题时，他们在认知上是“吝啬”的 (或者说图省事) 。为了快速完成任务，他们倾向于挑选位于段落最开头的答案。合成模型没有疲劳感，会从整个文本中均匀地挑选信息。

Synthetic data typically chooses more diverse sources.

图 22 展示了答案在证据文本中的“相对位置”。

蓝色 (真实) : 注意在 0.0 (文本开头) 处的巨大尖峰。人类喜欢第一句话。
棕色 (合成) : 分布更平坦、更分散。

虽然合成分布看起来“更好” (更多样化) ，但基于人类数据训练的下游模型期望的是人类分布。合成数据太完美了，缺乏我们通常希望系统复制的人类交流中的特定偏见和模式。

3. 抽取性

研究还发现，合成的主张和问题与源文本有更高的 n-gram 重叠。简单来说, AI 标注员喜欢复制粘贴 。人类更可能重述、抽象或使用同义词。这种“抽象性”迫使模型学习实际的语义，而不仅仅是模式匹配单词。

鲁棒性: 这只是侥幸吗？

人们可能会想，这些结果是否仅限于英语或所使用的特定模型。作者在这方面也做了充分的验证。

多语言验证

他们在多语言数据集 X-Fact 上运行了相同的实验，涵盖了阿拉伯语、格鲁吉亚语和印尼语。

Change in model performance on multilingual datasets.

图 9 显示这一趋势在全球范围内都成立。无论是阿拉伯语还是印尼语，将合成数据增加到 100% 都会导致性能下降。有趣的是，“下降”点因语言而异，这可能与该语言是否属于“低资源”语言有关，但人工数据的必要性保持不变。

不同的模型

他们还验证了这不仅仅是使用 GPT-4 或 Llama-2 的产物。

Results hold consistently on Fact Verification datasets when using Mistral7B.

图 11 证实，即使使用不同的微调模型 (如 Mistral 7B) 或不同的提示模型 (GPT-4) ，100% 合成处的悬崖效应依然存在。

结论与启示

论文 “A Little Human Data Goes A Long Way” 对“规模即一切”的说法进行了至关重要的修正。随着我们走向一个由 AI 生成内容主导的世界，这项研究强调了人类认知不可替代的价值。

给学生和从业者的关键要点:

不要 100% 使用合成数据: 如果你在构建数据集，利用 AI 生成 90% 的数据可以节省大量资金。但你必须为那最后的 10% (甚至只是最后的 2.5%) 投资人工标注。
“黄金集”策略: 一个明智的工作流程是使用大规模合成数据集进行大部分训练 (繁重的工作) ，然后使用少量高质量的人类数据集对模型进行微调或“对齐”。
成本效益分析: 不要假设合成数据总是更便宜。如果你需要 200,000 个合成示例才能匹配 200 个人工示例的质量，API 成本实际上可能会超过人工成本。
质量胜于数量: 人类数据的独特属性——抽象性、简洁性，甚至是我们的特定偏见——提供了当前 LLM 难以模拟的信号。

归根结底，AI 并没有在数据循环中取代人类；它正在改变我们的角色。我们正从生产每一个数据点的“工厂工人”，转变为提供高质量范例以指导机器的“工匠”。少量的人类数据确实作用巨大。

引言#

背景: 合成数据的承诺与隐忧#

合成方法#

核心方法: 人机结合#

生成流程#

实验: 增量替换#

结果: “合成悬崖”#

1. 稳定区 (0% 到 90%)#

2. 崩塌 (90% 到 100%)#

3. 2.5% 的魔力#

经济权衡: 人工数据值多少钱？#

“价格比”#

为什么会发生这种情况？数据的“恐怖谷”#

1. 合成数据太啰嗦#

2. “懒惰”的人类偏见#

3. 抽取性#

鲁棒性: 这只是侥幸吗？#

多语言验证#

不同的模型#

结论与启示#

引言