主动学习真的值得吗？文本分类领域的现实检验

如果你曾在专业环境中从事过监督式机器学习项目，你很可能遇到过标注瓶颈 (labeling bottleneck) 。你手头有海量的原始文本数据——客户评论、医学摘要或新闻文章——但你用于人工标注的预算却少得可怜。你根本负担不起标注 100,000 个样本的费用。

这时, 主动学习 (Active Learning，简称 AL) 登场了。

主动学习的承诺非常诱人。与其随机标注数据点，不如让算法像个聪明的学生一样，明确要求老师 (人工标注员) 只标注那些最令人困惑或信息量最大的样本。理论上，通过标注“正确”的数据，你可以用极少的预算达到很高的模型准确率。

但这里有一个令人不安的问题: 它在实践中真的有效吗?

如果你从研究论文中选择一种流行的主动学习策略，并将其应用于你的特定数据集，你能相信它会胜过简单的随机采样吗？一篇题为 “On the Fragility of Active Learners for Text Classification” (论文本分类中主动学习器的脆弱性) 的研究论文，由 Abhishek Ghose 和 Emma Thuong Nguyen 撰写，正面解决了这个问题。他们对现代 AL 技术进行了严格的压力测试，其结果给所有构建 NLP 管道的人敲响了警钟。

在这篇文章中，我们将拆解这篇论文的方法论，探索这些学习器的“脆弱性”，并通过数据来看看主动学习究竟是灵丹妙药，还是一场掷骰子游戏。

从业者的困境

要理解这篇论文的重要性，我们首先需要了解当今数据科学家面临的困境。

当你阅读 AL 文献时，经常会看到图表显示 AL 策略的准确率飙升，而“随机采样”则远远落在后面。基于此，你可能会决定实施一种复杂的策略，如 对比主动学习 (CAL) 或 判别主动学习 (DAL)。

然而，AL 缺乏 “先决条件检查 (prerequisite checks) ” 。在标准统计学中，你在运行 t 检验之前会检查正态性。但在 AL 中，没有任何测试可以让你在未标注的数据集上运行，然后说: “啊，是的，Margin (边缘) 策略在这里肯定有效。”

从业者被迫进行一场盲赌。他们选择一种技术，希望它能胜过随机采样，并经常以“常开模式 (Always ON) ”运行它——假设即使它没有太大帮助，也肯定不会损害模型。这篇论文通过提出以下问题挑战了这一假设:

AL 实际上多久能胜过随机采样一次？
预测模型的选择是否比 AL 策略更重要？
“常开模式”是一个安全的默认设置吗，还是说 AL 实际上可能比随机猜测更差？

方法论: 大规模网格搜索

为了回答这些问题，研究人员并没有只在一个数据集上测试一个模型。他们创建了一个巨大的配置空间，以模拟现实世界从业者可能使用的各种设置。

他们特别关注文本分类 , 利用了当今工业界普遍使用的现代预训练表示。

AL 实验剖析

让我们看看他们是如何构建实验环境的。他们改变了五个关键维度:

数据集 (Datasets) : 五个不同的文本数据集 (包括情感分析、新闻分类和医学摘要) 。
表示 (Representations) : 文本如何转换为数字 (词向量、Universal Sentence Encoder、MPNet 等) 。
分类器 (Classifiers) : 进行预测的实际模型 (线性 SVM、随机森林和 RoBERTa) 。
查询策略 (Query Strategies，QS) : 选择标注哪些数据的算法。
批次/种子大小 (Batch/Seed Sizes) : 我们从多少数据开始，以及一次标注多少数据。

如图 1 所示，这种组合爆炸导致了 350 种独特的配置 。由于 AL 涉及随机性，他们将每种配置运行了 3 次，总共进行了 1,050 次实验试验 。

批量主动学习循环

值得花点时间了解一下这些实验中主动学习循环究竟是如何运作的。作者提供了一个清晰的算法分解。

Algorithm 1: Batch Active Learning.

算法 1 详细描述了该过程:

初始化: 从一小部分随机选择的已标注“种子”数据集开始。
训练 (\(M_t\)): 在当前已标注数据上训练模型。关键在于，作者在每一步都进行了适当的模型选择 (超参数调优) 和校准。 这是其他论文经常跳过的一步，但这对于公平比较至关重要。
选择 (\(Q\)): 使用查询策略查看海量的未标注数据池 (\(X_U\)) 并挑选一批大小为 \(b\) 的实例。
标注: “标注”这些实例 (从数据集中揭示它们的真实类别) 。
循环: 将新数据添加到训练集并重复，直到预算耗尽。

查询策略 (竞争者)

该论文将随机采样 (基线) 与四种非随机策略进行了对比，这些策略涵盖了从既定的经典方法到最先进的方法:

边缘采样 (Margin Sampling，2001) : 一种经典的不确定性方法。它选择模型最“困惑”的样本 (即前两个预测类别的概率差最小) 。
CAL (对比主动学习，2021) : 选择那些预测概率分布与其最近邻居差异最大的样本。
DAL (判别主动学习，2019) : 训练一个二分类器来区分已标注和未标注数据，然后挑选看起来与我们已有数据“最不同”的未标注点。
REAL (主动学习的代表性误差，2023) : 使用聚类来寻找模型可能出错的区域并从中采样。

衡量成功: 相对提升

我们要如何知道 AL 是否获胜？我们不能仅仅看准确率，因为无论我们如何选择数据，随着数据的增加，准确率自然会上升。

我们需要衡量 AL 相对于随机采样提供的提升 (lift) 。作者定义了一个称为 \(\delta\) (delta) 的指标，它代表 F1-Macro 分数的百分比相对提升。

Equation defining delta relative improvement

如果 \(\delta > 0\): 主动学习策略胜出 (优于随机) 。
如果 \(\delta \approx 0\): 该策略无用 (与随机相同) 。
如果 \(\delta < 0\): 该策略有害 (比随机更差) 。

结果: 关于脆弱性的故事

这项研究的结果挑战了“AL 总是有帮助”的说法。纵观 1,050 次试验，主动学习的表现令人惊讶地不稳定。

1. 收益 (与损失) 的全景图

让我们看看提升的“热图”。在下图中，作者绘制了不同预测管道 (行) 和训练集大小 (列) 下的预期相对提升 (\(\delta\))。

绿色表示 AL 有帮助。
白色表示 AL 无效。
粉色/洋红色 表示 AL 有害。

Figure 3: Expected relative improvement in Fl-macro score over random. (a)-(e) show this for different predictors and QS, at different training sizes (see titles). These correspond to Equation 2. (f) and (g) show marginalized improvements for different predictors and QSes respectively; see equations 3 and 4.

从图 3 中的关键观察:

粉色海洋: 看热图的左侧 (Train size 1000) 。这里有大量的粉色，特别是对于 LinearSVC 和随机森林 (RF) 管道。这意味着在学习的早期阶段——正是你最需要 AL 发挥作用的时候——它的表现往往比随机采样还要差。
收敛归零: 当我们向右移动 (Train size 5000) 时，颜色逐渐变白。这是意料之中的；随着标注数据的增加，策略之间的差异变得不那么重要，因为你已经覆盖了数据分布。
RoBERTa 的例外: 看热图的最后一行 (RoBERTa)。它始终是浅绿色的。这表明使用强大的端到端深度学习模型能为 AL 带来更一致的积极结果，尽管收益并不大 (大约 1-2%) 。

2. “常开模式”的危险

业界的一个常见做法是在后台保持主动学习器运行。其逻辑是: “最坏的情况也就是和随机采样一样。”

数据证明这种逻辑是错误的。

作者计算了相对提升 (\(\delta\)) 严格为负的次数百分比。

Table 1: The %-age of times model Fl-macro scores are worse than random are shown. Also shown are the average delta when scores are at least as good as random, and average delta in general. These are relevant to the “Always ON” mode, discussed in S 5.2. See Table 6 in S G for standard deviations.

令人震惊的统计数据: 总体而言，AL 策略在 51.82% 的时间里表现不如随机采样。

如果你看 Average delta (平均 delta) 这一列，总体平均值是 -0.74 。这意味着，如果你在没有进行先决条件检查的情况下盲目地将这些 AL 技术应用于各种任务，平均而言，与除了随机选择之外什么都不做相比，你实际上是在轻微地损害模型的性能。

这造成了一个悖论: 当你标签很少时，你需要 AL。但在标签很少时，AL 也是最不稳定的，很可能表现不佳。当你拥有足够的标签 (4000-5000 个) 以确保 AL 稳定 (处于“正向”区域) 时，收益却微乎其微。

3. 可视化收敛过程

为了可视化这种行为，我们可以查看 agnews 数据集的学习曲线。

Figure 2: Fl macro scores on the test set at each iteration, for the dataset agnews and batch size of 200. The x-axes show size of the labeled data, the y-axes show the F1-macro scores on the test data.

在图 2 中，比较红线 (随机) 和其他线条。

在 LinearSVC 和 RF (随机森林) 图中，线条交织在一起。有时随机在上面，有时 Margin (绿色) 在上面。这很混乱。
在 RoBERTa 图 (右下角) 中，你可以看到更清晰的分离，AL 策略 (特别是 Margin 和 REAL) 略微浮动在红色随机线之上。

这直观地展示了“脆弱性”。除非你使用特定的设置 (如 RoBERTa) ，否则“胜利”是无法保证的。

4. 谁更重要: 算法还是管道？

如果你想提高主动学习的结果，你应该从 Margin Sampling 切换到 CAL 吗？还是应该将你的分类器从 随机森林 切换到 RoBERTa？

研究人员使用了统计检验 (肯德尔 W 系数) 和特征重要性分析来回答这个问题。他们发现, 改变预测管道比改变查询策略有更大的影响。

与分类器和文本表示的选择相比，AL 算法的选择 (DAL vs REAL vs Margin) 出人意料地不那么重要。这对学生和研究人员来说是一个重要的见解: 停止痴迷于最新潮的采样算法，先优化你的底层模型。

5. 文本表示的作用

说到表示，该论文揭示了关于 Universal Sentence Encoder (USE) 与 MPNet 之间一个有趣的细微差别。

在标准基准测试 (如 MTEB) 上，MPNet 通常被认为是更优秀的嵌入模型。然而，在主动学习的背景下，结果却有所不同。

Figure 4: Effect of text representations on the relative improvement.

图 4 显示了不同嵌入相对于随机采样的相对提升。

WV (词向量) : 开始时非常差，但随后有所改善。
MP (MPNet) : 开始时非常差 (负值) ，然后缓慢爬升。
USE: 开始时更接近零，且改善得更快。

作者假设，虽然 MPNet 更精确，但 USE 可能具有更“模糊”的嵌入空间，这有助于采样器在 AL 过程的早期更好地覆盖数据集的概念空间。有时，稍微不那么精确的表示反而有助于采样器更好地探索数据。

为什么 RoBERTa 是个例外？

在整个实验中，RoBERTa (端到端 Transformer 模型) 是唯一显示出主动学习带来持续、积极收益的预测器 (如表 1 中 RoBERTa 行所示，只有 7.71% 的负面事件) 。

为什么？

作者认为，因为 RoBERTa 是一个端到端分类器，它对数据分布有更“连贯”的视角。与将嵌入 (USE) 与分类 (SVM) 分开的管道不同，RoBERTa 在微调过程中同时调整其内部表示和决策边界。这使得它能够更好地估计未标注样本的信息量。

然而，即使是 RoBERTa，收益也很小——相对于随机采样大约只有 1% 的提升 。这值得运行复杂 AL 查询的计算成本吗？这取决于你的预算。

结论: “热启动”问题

这篇论文对主动学习领域提出了必要的批评。它并没有声称 AL 永远无效；显然，它在特定场景下 (特别是使用像 RoBERTa 这样的 Transformer 时) 是有效的。然而，它暴露了这些方法的脆弱性 。

对于学生和从业者来说，关键的要点是:

不要盲目信任: 不要假设 AL 在你的特定数据集上会胜过随机采样。
“热启动”差距: 目前无法知道 AL 何时开始胜过随机采样。你可能需要 500 个标签，或者 2000 个。在达到那个点之前，你的表现可能比随机还要差。
管道优先: 你的分类器和表示的选择比特定的主动学习查询策略更重要。
没有“先决条件检查”: 该领域迫切需要诊断工具——即那种可以观察数据集并在我们花钱标注之前预测哪种 AL 策略会有效的无监督指标。

在这些诊断工具出现之前，主动学习仍然是一场高风险的赌博。如果你决定使用它，请密切监控你的表现，或许——仅仅是或许——不要害怕坚持使用老式的随机采样。

从业者的困境#

方法论: 大规模网格搜索#

AL 实验剖析#

批量主动学习循环#

查询策略 (竞争者)#

衡量成功: 相对提升#

结果: 关于脆弱性的故事#

1. 收益 (与损失) 的全景图#

2. “常开模式”的危险#

3. 可视化收敛过程#

4. 谁更重要: 算法还是管道？#

5. 文本表示的作用#

为什么 RoBERTa 是个例外？#

结论: “热启动”问题#