在机器学习领域,有一句广为流传的口头禅: “数据越多越好。”如果你的模型表现不佳,标准的建议往往是向其投放更多的训练样本。但在自然语言处理 (NLP) 等专业领域,获取高质量的数据既不容易也不便宜。
对于特定主题论点挖掘 (Topic-Dependent Argument Mining, TDAM) 来说尤其如此。教机器识别一个特定的句子是支持还是反对某个复杂主题 (如“核能”或“最低工资”) ,需要细致入微的理解。你不能简单地抓取网络数据然后听天由命;你通常需要人类专家来标注数据。这个过程既昂贵又耗时。
那么,如果我们构建数据集的方式一直是错的呢?
一篇题为 “Diversity Over Size” (多样性胜过规模) * 的精彩研究论文挑战了“越多越好”的现状。研究人员调查了数据集的构成*——特别是主题的多样性——是否比样本的绝对数量更重要。他们的发现令人惊讶: 通过优先考虑主题多样性,我们或许能够将数据集规模减少近 90%,同时保留 95% 的性能。
在这篇文章中,我们将剖析他们的方法论、新基准数据集的创建,以及这对未来高效模型训练意味着什么。
问题所在: 论点挖掘的高昂成本
要理解研究人员的动机,我们需要先定义任务。 特定主题论点挖掘 (TDAM) 涉及在文档中搜索与特定查询或主题相关的论点。
例如,如果主题是*“电子烟”,模型需要查看像“目前,没有科学证据证实电子烟能帮助吸烟者戒烟”*这样的句子并进行分类。这是一个“支持 (Pro) ”论点?一个“反对 (Con) ”论点?还是“无 (None) ” (非论点) ?
这比标准的情感分析更难,因为它需要语境。一个听起来消极的句子实际上可能支持某项特定政策,反之亦然。因此,创建 TDAM 数据集成本高昂。研究人员指出,之前的一项研究仅为了标注约 25,000 个样本就花费了超过 2,700 美元。
随着 Transformer 模型 (如 BERT 和 GPT) 的发展,对更大规模数据集的渴望也随之增长。但依赖海量数据集有三个主要缺点:
- 不切实际: 让专家标注数十万个样本几乎是不可能的。
- 成本高昂: 众包不仅昂贵,而且需要严格的质量控制。
- 训练时间: 更多的数据意味着更长、更昂贵的训练周期。
研究人员提出了一条不同的路径: 多样性采样 (Diversity Sampling) 。 与其为少数几个主题收集数千个示例,不如为数百个主题收集少量示例?
数据: 介绍 FS150T 语料库
为了验证他们的假设,研究人员需要一个受控环境。他们不能直接使用现有的数据集,因为这些数据集通常在太多方面存在差异 (来源不同、标注准则不同) 。
因此,他们构建了一个名为 FS150T-Corpus (少样本 150 主题语料库) 的新数据集。
目标是创建一个与标准基准——UKP 语料库——具有可比性,但结构截然不同的数据集。
- UKP 语料库 (标准) : 包含 8 个主题,每个主题有数千个样本。
- FS150T-Corpus (新) : 包含 150 个主题,但每个主题只有 144 个样本。
两个数据集的训练样本总数大致相同 (约 17,000 个) ,但分布完全不同。FS150T-Corpus 专为“少样本 (few-shot) ”学习场景设计,在这种场景下,模型必须学会从少量数据中进行泛化。
研究人员还使用了另外两个数据集进行验证: IAM-Corpus 和 IBM-Corpus 。 你可以看到这些数据集的详细分类如下。注意与 UKP 语料库相比,FS150T-Corpus 拥有大量的主题,尽管总规模相似。

为了让你更直观地了解这些数据是什么样的,让我们看几个样本。该任务要求模型阅读一个“主题”和一个“句子”,然后分配一个“类别” (标签) 。

如上表所示,论点是复杂的。对于“核能”这一主题,讨论开采铀矿费用的句子被标记为“反对 (contra) ”。模型必须理解其中的经济含义才能做出这种分类。
核心方法: 规模与多样性实验
研究人员设计了一系列实验来回答三个问题:
- 样本实验: 我们实际上需要每个主题多少个样本?
- 主题实验: 增加新主题对模型泛化有多大帮助?
- 数据集实验: 哪种数据集结构总体上能产生更好的模型?
他们采用了四种不同的模型来测试这些场景:
- ERNIE 2.0: 一个中等规模的语言模型 (1.1 亿参数) ,在类似论点挖掘的任务上进行过预训练。这代表了一种标准的、高效的监督学习方法。
- FLAN-T5 XL: 一个大型语言模型 (LLM) ,拥有 13 亿参数,经过指令微调。
- Llama2-70B & ChatGPT: 巨大的最先进 LLM,用于“零样本”设置 (要求模型在未针对特定数据进行训练的情况下进行分类) 。
1. 样本实验
在这个阶段,研究人员逐步增加训练样本的数量,看看模型的改进速度有多快。
新的 FS150T-Corpus 上的结果如下图所示。

从图 1 中得出的关键结论:
- ERNIE 的崛起 (蓝线) : 中等规模模型 ERNIE 2.0 学习速度极快。只需很少的样本,它的准确率 (F1 分数) 就直线上升。
- 平台期: 注意到在某一点之后,增加更多数据产生的收益递减。线条变得平坦。
- 微调与零样本: 绿线和红线代表 Llama2 和 ChatGPT (零样本) 。虽然它们起步强劲 (因为不需要训练) ,但微调后的小型模型 (ERNIE 和 FLAN-T5) 最终超过了它们。这证明对于像 TDAM 这样的专业任务,你仍然需要一些训练数据来击败通用的巨型模型。
研究人员在其他数据集上也发现了类似的模式,例如 IBM-Corpus (下图) 。

在 IBM-Corpus 上,差距甚至更加明显。ERNIE 2.0 (蓝色) 非常迅速地达到了高性能。
效率发现: 研究人员计算了达到“可接受”性能 (定义为模型最大潜力的 95%) 所需的样本数量。
- 对于 FS150T-Corpus,ERNIE 2.0 只需要 11% 的数据 (总共约 1,920 个样本) 。
- 这意味着对于传统的数据集布局,近 90% 的标注工作可能都是浪费金钱。
2. 主题实验
这是“多样性胜过规模”论点的核心。研究人员固定了样本数量,并稳步增加这些样本所来源的主题数量。
如果“主题”无关紧要,那么无论 1,000 个样本是来自 5 个主题还是 50 个主题,性能应该保持不变。但事实并非如此。

请看 图 4 的第一行 (ERNIE 2.0) 。存在一致的上升趋势。
- 解读: 随着主题数量 (x 轴) 的增加,模型的 F1 分数 (y 轴) 也在提高,即使训练数据的总量是固定的。
- 鲁棒性: 通过接触来自许多不同领域 (政治、科技、经济) 的论点,模型学会了更好地、更通用地表达“论点”的样子。它不再死记硬背与单一主题相关的特定关键词,而是开始理解论证结构。
3. 数据集实验
最后,研究人员让两种数据集理念相互较量。
- 模型 A: 在 UKP 语料库 (主题少,样本多) 上训练。
- 模型 B: 在 FS150T-Corpus (主题多,样本少) 上训练。
然后,他们在两个数据集上测试了这两个模型。这就是“跨数据集”评估,是泛化能力的终极测试。

结论 (表 4) : 看看 FLAN-T5 XL 的结果。
- 当在 UKP 语料库上训练并在其自身上测试时,得分 .7881 。
- 当在 FS150T-Corpus 上训练并在 UKP 语料库 (一个它从未见过的数据集) 上测试时,得分 .8270 。
这是一个惊人的结果。在多样化、浅层的数据集 (FS150T) 上训练,实际上产生了一个比在特定目标数据上训练更好的 UKP 任务模型。多样化的数据集教会了模型如此好的泛化能力,以至于它的表现超过了在特定目标分布上训练的模型。
详细分析: 稳定性与基线
值得注意的是,虽然中等规模模型 (ERNIE) 始终受益于多样性,但较大的模型 (FLAN-T5 XL) 在小样本量下表现得有些波动。
研究人员发现,FLAN-T5 XL 最初在数据量非常少的情况下表现挣扎,可一旦有了足够的样本,其表现就会飙升。然而,纯粹就稳定性而言,较小的 ERNIE 模型表现出惊人的鲁棒性。
研究人员还将他们的结果与强大的基线进行了比较。下面是包含标准差的样本实验的详细视图。

在 图 5 中,蓝线 (ERNIE) 始终很高且稳定 (阴影区域狭窄) 。橙线 (FLAN-T5) 起点较低但攀升很高。平坦的线 (绿色/红色) 是零样本模型。它们是一致的,但它们触及了一个“性能天花板”,如果不进行微调就无法突破。
这加强了经济学论点: 如果你想要最先进的性能,你必须进行微调。如果你必须微调,你应该使用多样化的数据集。
结论与启示
这篇研究论文为我们思考 NLP 中的数据收集提供了一个关键的转折点。
“多样性胜过规模”原则表明:
- 停止过度标注: 你不需要 3,000 个关于“枪支管制”的论点示例。几百个之后,模型很可能已经学到了关于该特定主题的所有内容。
- 分散预算: 与其花钱请标注员标注更多相同的内容,不如把预算花在寻找新的、独特的主题上。
- 效率: 遵循这种方法,你可以构建一个样本数量仅为通常数量 10-15% 的数据集 (节省数千美元) ,同时达到最大性能的 95%。
给学生和从业者的建议: 如果你正在设计一个机器学习项目,特别是涉及高级推理 (如论点挖掘或立场检测) 的项目,不要沉迷于数据量。要关注数据的多样性。
在一个“浅而广”的主题海洋上训练的模型,将比在一个“深而窄”的信息井中训练的模型更聪明、更健壮、更具适应性。研究人员不仅向社区提供了代码和 FS150T 数据集,还为低预算、高性能的 AI 开发提供了蓝图。
](https://deep-paper.org/en/paper/2205.11472/images/cover.png)