引言
在当前的人工智能格局中,我们正遭遇一个瓶颈: 高质量的人工生成数据正变得稀缺且昂贵。为了规避这一问题,业界已转向合成数据——即由大语言模型 (LLM) 生成的文本,用于训练其他 LLM。这是一个极具吸引力的解决方案,承诺以极低的成本提供无限的数据。
然而,这种解决方案将数据集视为静态商品。我们倾向于假设,如果一个“教师”模型 (如 GPT-4 或大型 LLaMa 模型) 生成数据,“学生”模型就会简单地学会变得更聪明。但学习不仅仅关乎事实和推理能力;它还关乎风格、偏见、毒性和偏好。当一个学生模型在合成数据上训练时,它会从教师那里继承复杂的潜在特征网络。
这将我们引向了 Cohere For AI 的研究人员提出的一个关键问题: 如果模型从其数据中继承属性,我们可以控制它们继承哪些属性吗?
在论文 “LLM See, LLM Do” 中,作者对两种现象进行了全面研究:
- 被动继承 (Passive Inheritance) : 在合成数据上训练带来的意外副作用 (例如,毒性或偏见增加) 。
- 主动继承 (Active Inheritance) : 一种新颖的方法,通过精心策划合成数据生成过程,明确引导模型朝向理想的特征发展——如更高的词汇多样性或更低的毒性。
本文将拆解他们的发现,解释“人如其食 (you are what you eat) ”如何适用于 LLM,以及我们如何让这些模型进行严格的“节食”,以便在不需要复杂强化学习的情况下改善它们的行为。
背景: 从合成数据中学习
在深入实验之前,我们需要了解在合成数据上训练的标准设置,通常称为知识蒸馏 (Knowledge Distillation) 。
在典型场景中,你有一个教师模型 (通常是一个大型、强大的 LLM) 和一个学生模型 (通常较小) 。你向教师输入提示 (prompts) ,它生成答案 (合成数据) ,然后你在这些答案上微调学生模型。目标是让学生模仿教师的表现。
在数学上,优化学生参数 \(\theta\) 以最大化给定提示 \(x\) 下教师生成文本 \(\hat{y}\) 的似然性。这通常被称为行为克隆。

这种标准方法的问题在于它是一笔“打包交易”。学生学习了教师的推理,但也学习了教师的坏习惯、偏见和风格怪癖。大多数优化目标只关心正确预测下一个 token,而不关心该 token 是否有助于实现像“礼貌”或“创造力”这样的不可微目标。
第一部分: 被动继承 —— 意想不到的后果
作者首先着手准确描绘在没有任何过滤的情况下在合成数据上训练时会发生什么。他们将此称为被动继承 。
他们尝试了各种模型组合,使用 LLaMa2-7B、LLaMa2-13B 和 Mixtral-8x7B 既作为教师也作为学生。他们使用 Alpaca 数据集 (中立、通用的指令) 中的提示来生成合成训练数据。
画像工具箱 (The Profiling Toolbox)
为了衡量变化,研究人员不仅关注准确性基准。他们编制了一个包含四个类别、超过 26 个指标的“画像工具箱”。

如表 1 所示,他们关注:
- 文本特征: 长度、可读性 (Gunning-Fog 指数) 和词汇多样性 (MTLD) 。
- 社会偏见: 关于种族、性别、宗教等的刻板印象。
- 毒性: 生成有害内容的概率。
- 校准: 模型对自己不知道的内容的认知程度。
被动继承的结果
发现令人惊讶。尽管 Alpaca 的提示通常是中立的,但微调后的学生模型在其行为画像上发生了巨大变化。

1. 毒性增加: 也许最令人担忧的发现 (如图 2 最右侧图表所示) 是,在微调合成数据后,毒性指标通常变得更糟。在某些情况下,毒性增加了高达 40%。研究人员推测,在以实用性为导向的数据 (如指令遵循) 上微调可能会导致模型“遗忘”其初始的一些安全对齐,这种现象被称为对齐税或灾难性遗忘。
2. “长度爆炸”: 看图 2 中间的图表。“长度”指标显示出巨大的增长——在某些情况下超过 100%。当模型在合成数据上训练时,它们往往变得更加啰嗦。这与其他表明 LLM 存在“冗长偏见 (verbosity bias) ”的研究一致,即通常将更长的答案等同于更好的答案。
3. 不可预测的偏见转移: 社会偏见 (左图) 没有遵循清晰的模式。在教师上训练并不一定意味着学生采用了教师的确切偏见画像。有时偏见会减少;有时会激增,特别是在残疾状况等特定类别中。这强调了被动继承是不稳定的;你不能仅仅根据教师来轻易预测学生的社会行为。
偏好与“回声室效应”
研究人员还调查了 LLM 作为裁判 (LLM-as-a-Judge) 。 使用强大的 LLM 来评估较弱的 LLM 正变得普遍。但是在合成数据上训练会影响模型“喜欢”什么吗?

如图 3 所示,模型确实有“特定的类型”。当学生在特定教师的数据上训练时,其偏好会与该教师更紧密地对齐 (橙色和蓝色线条发生偏移) 。
这产生了循环风险。如果我们使用 GPT-4 生成数据来训练模型,然后使用 GPT-4 评估该模型,我们本质上是在创造一个回声室,在这个回声室中,模型因模仿教师的特定怪癖而获得奖励,这可能会偏离人类的偏好 (灰色虚线) 。
第二部分: 主动继承 —— 引导模型
被动继承的不稳定性提出了一个问题: 如果模型对其训练数据的属性如此敏感,我们能否利用这一点为我们所用?
作者没有被动接受教师输出的任何内容,而是提出了主动继承 (Active Inheritance) 。 这种方法涉及为每个提示生成多个候选回答,并在训练前根据所需属性对其进行过滤。
方法: 针对性采样
这个过程简单而强大。它依赖于数据创建阶段的“Best-of-K”或拒绝采样策略。
- 生成 (Generate) : 对于单个提示 \(x\),使用一个或多个教师模型生成 \(k\) 个不同的回答。
- 打分 (Score) : 使用画像函数 \(f\) (来自前面提到的工具箱) 为每个回答打分。这个函数可以是任何东西: 毒性分类器、词汇多样性计数器或长度度量。
- 选择 (Select) : 只保留最大化 (或最小化) 分数的回答。
- 训练 (Train) : 在这个经过策划的数据集上微调学生模型。
在数学上,选择样本的概率从均匀分布变为确定性地选择最佳候选者:

这种方法允许针对不可微目标进行优化。你很难为“词汇多样性”编写损失函数并通过神经网络进行反向传播。但你可以很容易地在输出中测量它并对其进行过滤。
它有效吗?
简短的回答是肯定的。作者通过针对三个特定属性来测试这一点: 增加长度、增加词汇多样性 (词汇丰富度) 和减少毒性 。

图 1 完美地总结了结果。与随机基线 (绿色条) 相比,主动继承方法 (蓝色条) :
- 提升了长度 约 115%。
- 增加了多样性 约 40%。
- 降低了毒性 约 30% (而随机采样实际上增加了毒性) 。
详细结果
让我们更仔细地看看这些数字。作者比较了“单源” (从一个模型生成样本) 和“多源” (从 Command-R+、Gemma 和 Aya 等多样化的模型池中生成样本) 。

毒性的胜利: 表 3 显示了毒性的显著降低。通过简单地生成多个选项并在训练前丢弃有毒选项,学生模型学会了变得更安全。对于 LLaMa2-7B (多源) ,毒性得分从 71.7 降至 42.7。这是在没有复杂的人类反馈强化学习 (RLHF) 的情况下实现的——仅仅是通过巧妙的数据策划。
多样性的提升: 词汇多样性 (MTLD) 也看到了显著的收益。这一点至关重要,因为对 LLM 的一个常见批评是它们听起来像机器人或重复。主动继承迫使它们从语言最丰富的例子中学习。
单源 vs. 多源: 群体的智慧
问一位老师十次好,还是问十位不同的老师一次好?

结果 (图 6) 表明, 多源采样通常会带来更好的结果,特别是在长度和毒性方面。从不同的架构 (“群体的智慧”) 中获取多样化的“思想”池,为最佳训练数据提供了更丰富的搜索空间。然而,即使是单源策略 (问 LLaMa2 十次) 也显著优于基线,证明即使是单个模型在其输出中也会产生足够的方差以允许优化。
数量 vs. 质量
我们需要生成多少个样本才能看到好处?生成 5 个候选者够吗,还是我们需要 25 个?

图 4 揭示了一个细微的差别。
- 对于长度 (右) : 从 5 个样本中过滤与从 25 个样本中过滤没有巨大差异。模型很容易捕捉到“变得更长”的信号。
- 对于多样性 (左) : 样本池的大小很重要。随着我们从 5 个样本增加到 25 个样本,蓝色条显著增长。找到一个真正语言多样化的回答更难,因此拥有更多候选者会增加找到“宝石”进行训练的可能性。
结论与启示
“LLM See, LLM Do” 论文从根本上挑战了对合成数据的被动看法。它证明了数据集不是信息的静态存储库;它们是可塑的工具,可以精确地塑造 AI 模型的行为方向。
主要收获:
- 被动风险: 盲目地在合成数据上训练是有风险的。它可能会无意中增加毒性并导致社会偏见发生不可预测的转变。
- 主动控制: 我们不需要复杂的 RL 管道来引导模型行为。简单、基于指标的合成数据过滤 (主动继承) 是一种高效的控制机制。
- 不可微目标: 那些难以通过数学方法训练的属性 (如“有趣”或“安全”) ,可以通过数据选择轻松地进行训练。
这项研究使模型对齐变得更加大众化。它表明,你不需要庞大的人工标注团队或复杂的 PPO (近端策略优化) 设置来改进模型。你只需要做一个挑食者。通过严格选择我们的模型“吃”什么,我们可以主动塑造它们成为什么样的模型。
](https://deep-paper.org/en/paper/file-3254/images/cover.png)