引言

在当前的人工智能领域，“越大越好”往往是人们的信条。我们构建更大的模型，并投喂海量的数据。例如，微调像 Alpaca 这样的模型需要 5.2 万条指令样本；像 MetaMath 这样的数学推理模型则使用了近 40 万条样本。

虽然这种暴力方法行之有效，但它制造了一个巨大的瓶颈: 数据稀缺。

对于现实世界的应用——比如专业的医疗文本编辑、法律文档优化或利基市场的技术写作——获取成千上万条高质量的标注样本往往是不可能的，或者成本极其高昂。这就引出了一个关键问题: 我们真的需要所有这些数据吗? 还是说我们只是在给模型投喂它并不真正需要的冗余信息？

这正是论文 “DEFT-UCS: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection for Text-Editing” (DEFT-UCS: 通过无监督核心集选择实现预训练语言模型在文本编辑任务上的数据高效微调) 所要解决的核心问题。

研究人员引入了一个名为 DEFT-UCS 的框架。该方法不再盲目地在所有可用数据上进行训练，而是智能地选择一个更小的、具有代表性的“核心集” (core-set) 。结果令人瞩目: 他们在仅使用原始训练数据 32.5% 的情况下，就在文本编辑任务上达到了最先进的性能。

在这篇文章中，我们将剖析 DEFT-UCS 的工作原理，解释为什么“无监督”选择是一个颠覆性的改变，并看看那些表明我们可以“事半功倍”的证据。

背景: 效率差距

在深入探讨该方法之前，我们需要了解当前高效训练的现状。

研究人员已经花了很多时间来优化计算效率。像 PEFT (参数高效微调) 这样的技术允许我们只更新模型权重的一小部分，从而节省 GPU 显存和时间。

然而, 数据效率——即减少所需的训练样本数量——已被证明更为棘手。现有的选择“最佳”数据的方法通常会陷入两个陷阱:

需要标签: 许多选择指标需要知道“基本真理” (ground truth) 来判断一个数据点是否有用。
需要参考模型: 有些方法需要先训练一个“代理”模型来计算损失或误差范数等指标，如果你一开始就是为了节省资源，这种做法就违背了初衷。

文本编辑的挑战

作者将研究重点放在 文本编辑 上。这包括以下任务:

语法纠错 (修复错误)
简化 (使复杂的文本更易读)
连贯性 (改善流畅度)
中性化 (消除偏见)

目前这些任务的最先进 (SoTA) 模型是 CoEDIT , 这是一个在 82,000 个基于指令的样本上微调过的 Flan-T5 版本。DEFT-UCS 的目标是在不使用全部 8.2 万条数据集的情况下匹配 CoEDIT 的性能。

核心方法: 无监督核心集选择

这篇论文的核心是 DEFT-UCS 框架。这个缩写代表 Data Efficient Fine-Tuning via Unsupervised Core-Set Selection (通过无监督核心集选择实现数据高效微调) 。

其逻辑简单而强大: 如果你有一个海量的数据集，其中许多样本可能是重复的或信息量低的。如果我们能通过数学方法识别出独特的、高价值的样本，而无需人工先对其进行标注，我们就可以只在一小部分数据上进行训练。

架构

该框架通过将可用数据分为两个池来运作:

\(D_{base}\) : 一个小的、随机的“种子”数据集 (例如总量的 10-30%) ，以确保任务的基本覆盖。
\(D_c\) (核心集) : 从剩余数据中精心挑选的子集，由算法选择以最大化学习效果。

图 1: 我们的 DEFT-UCS 框架利用无监督核心集选择 (UCS) 来找到核心数据集 D_c，以及初始种子数据 D_base，以生成微调后的 PLM。

如图 1 所示，该过程并行工作。一股数据流 (\(D_{base}\)) 直接进入模型。剩余的数据 (\(D_{remain}\)) 通过 UCS 算法 提取高价值的核心集 (\(D_c\)) 。两者结合起来微调预训练语言模型 (PLM) 。

算法分步解析

UCS 算法如何在不知道标签的情况下挑选出“好”数据呢？它使用的是 聚类 (Clustering) 。

第一步: 嵌入 (Embedding)

首先，系统将数据集中的所有文本句子转换为数值向量 (嵌入) 。嵌入模型的选择至关重要，因为它决定了数据的分组方式。

作者比较了三种嵌入策略:

Sentence-T5: 专为句子级相似度设计。
BART: 使用 CLS (分类) 标记。
Flan-T5: 平均化词标记。

图 5: 比较使用 Sentence-T5 嵌入 (a)、BART CLS 嵌入 (b) 和平均 Flan-T5 词嵌入 (c) 作为句子表示进行 K-Means 聚类后，任务相关数据在聚类中的分布。

图 5 说明了为什么选择 Sentence-T5 。在图表 (a) 中，我们可以看到明显的色带，这意味着嵌入成功地将相似的任务 (如语法纠错或简化) 分组在一起。相比之下，BART 和 Flan-T5 (图表 b 和 c) 导致了“混乱”的聚类，不同的任务混杂在一起。

第二步: K-Means 聚类

一旦数据被嵌入，算法就会应用 K-Means 聚类 。这将数据分为 \(K\) 个簇 (在本文中，\(K=7\)，以匹配编辑任务的数量) 。

这种无监督的分组至关重要。它确保了当我们选择数据时，是从所有类型的任务中进行选择，而不是意外地忽略了像“中性化”这样的特定类别。

第三步: 采样 (“简单”与“困难”之争)

现在来到了最有趣的理论贡献部分。一旦你有了一簇数据点，你该选哪些？

简单样本 (Easy Samples) : 这些是靠近簇质心 (中心) 的数据点。它们极具该特定任务的代表性。
困难样本 (Hard Samples) : 这些是远离质心的数据点。它们代表了边缘情况、异常值或复杂的例子。

在深度学习中，关于模型是从“典型” (简单) 数据学得更好，还是从“困难”数据学得更好，一直存在争议。

DEFT-UCS 算法计算每个点到其簇质心的余弦距离 (Cosine Distance) 。然后，它根据超参数 \(\alpha\) (简单样本的权重) 和 \(\beta\) (困难样本的权重) 选择特定数量的样本 (\(A\)) 。

实验与结果

为了测试这个框架，研究人员使用 Flan-T5 Large 作为基础模型。他们将 DEFT-UCS 方法与以下方法进行了比较:

CoEDIT: 在完整的 8.2 万数据集上训练的最先进 (SoTA) 模型。
LIMA: 一种随机采样方法 (选择高质量数据但不进行聚类) 。
零样本基线: Llama2-7B、BLOOM-560M 和标准的 Flan-T5 (未微调) 。

他们在涵盖六项编辑任务的八个数据集上评估了这些模型。

表 1: 我们在其上评估 DEFT-UCS 模型的涵盖六项编辑任务的数据集列表。

定量性能

使用的主要指标是 SARI (专为文本编辑/简化设计) 和 ROUGE-L (测量文本重叠) 。

结果令人印象深刻。如下图 2 所示，DEFT-UCS 模型 (由星号表示) 迅速追上了 CoEDIT 基线 (菱形) ，即使在使用的数据显著更少的情况下也是如此。

图 2: CoEDIT 模型 (Raheja et al., 2023)、LIMA 启发模型 M_LIMA 和我们的 DEFT-UCS 模型在 SARI (a) 和 ROUGE-L (b) 分数方面的比较。

在上面的图表中，注意 DEFT-UCS 的性能曲线是如何急剧上升的。在某些任务 (如 JFLEG 和 WNC) 上，DEFT-UCS 在数据使用量远未达到 100% 之前，就已经匹配或超过了基线性能。

获胜策略: 困难采样

最重要的发现之一是数据数量与采样类型之间的关系。

研究人员分析了哪种采样方法 (随机、简单或困难) 在不同数据集上产生的“胜率”最高。

图 4: 在 D_base 较少的情况下，在我们的 DEFT-UCS 中利用困难采样能带来表现更好的模型 (胜率) ；随着 D_base 的增加，随机采样能带来表现更好的模型。

图 4 揭示了一个微妙的见解:

当数据稀缺时 (低 \(D_{base}\)) : 困难采样 (蓝色柱状图) 占据主导地位。当你只有几次机会教模型时，向它展示困难的、边缘情况的例子比展示通用的例子更有价值。
当数据充足时: 随机采样再次变得具有竞争力，这可能是因为海量的数据自然覆盖了边缘情况。

“最佳平衡点”: 32.5% 数据

通过优化超参数，作者确定了一个“最佳平衡点 (Sweet Spot) ”。通过使用分层的基础集 (\(D_{base}\)) 加上从聚类中针对性选择的 困难样本 , 他们创建了一个仅使用原始 CoEDIT 数据集 32.5% 的模型。

图 3: 利用 UCS 中的困难采样产生了一个最佳的、整体的 DEFT-UCS 模型，该模型仅需 D_CoEDIT 的 32.5% 即可在 SARI (a) 和 ROUGE-L (b) 分数上击败 6/8 的评估数据集。

这个模型在大约 2.6 万个样本上训练 (而不是 8.2 万个) , 在 8 个评估数据集中的 6 个上，表现超过或匹配了完全训练的 CoEDIT 模型。

定性分析

数字固然重要，但实际生成的文本看起来如何呢？研究人员提供了示例，将他们的高效模型的输出与更大的通用大语言模型进行了比较。

表 6: 针对给定输入，每个模型生成的编辑后句子示例。我们观察到非指令微调的 LM (如 BLOOM-560M 和 LLAMA-7B) 在零样本推理中大多表现挣扎。

表 6 强调了一个关键点: 像 Llama2-7B 或 BLOOM 这样的通用 LLM (见右列) 通常在零样本设置下无法完成具体的编辑指令。它们倾向于产生幻觉或重复文本。DEFT-UCS 模型 (中间列) 尽管训练集很小，却完美地遵循了诸如“修复语法错误”或“移除非中性观点”之类的指令，产生的输出与资源密集型的 CoEDIT 模型几乎相同。

人类评估

最后，为了确保指标没有误导性，研究人员进行了人类评估。三名评估员对输出进行了盲审。

表 3: 来自人类评估的感知准确率。

如表 3 所示，DEFT-UCS 模型达到了 83.8% 的感知准确率 , 在这个特定的样本集中实际上超过了 CoEDIT 模型 (70.5%) 。这证实了数据修剪不仅保持了指标分数——它还保持了 (甚至可能提高了) 人类可读的质量。

结论与启示

DEFT-UCS 论文挑战了微调需要海量数据的假设。通过使用 无监督核心集选择 , 研究人员证明了我们可以识别出对学习贡献最大的“高价值”数据点。

关键要点:

效率: 我们可以在不损失准确性的情况下减少约 70% 的训练数据。
无监督方法: 我们不需要标签来决定保留哪些数据，这使其适用于新的、混乱的领域。
困难样本很重要: 在数据量较低的情况下，在“最难”的样本 (那些离聚类中心最远的样本) 上进行训练，比在“平均”样本上训练能产生更好的泛化能力。

对于学生和从业者来说，这意味着策略的转变。与其花几周时间收集成千上万个平庸的数据点，不如花精力收集一个较小的、高质量的种子集，并使用聚类算法从无标签的数据池中挖掘信息量最大的样本。在大语言模型的世界里，如果你选择得当，少真的即是多。

引言#

背景: 效率差距#

文本编辑的挑战#

核心方法: 无监督核心集选择#

架构#

算法分步解析#

第一步: 嵌入 (Embedding)#

第二步: K-Means 聚类#

第三步: 采样 (“简单”与“困难”之争)#

实验与结果#

定量性能#

获胜策略: 困难采样#

“最佳平衡点”: 32.5% 数据#

定性分析#

人类评估#

结论与启示#

引言