如果你曾在专业环境中从事过监督式机器学习项目,你很可能遇到过标注瓶颈 (labeling bottleneck) 。 你手头有海量的原始文本数据——客户评论、医学摘要或新闻文章——但你用于人工标注的预算却少得可怜。你根本负担不起标注 100,000 个样本的费用。
这时, 主动学习 (Active Learning,简称 AL) 登场了。
主动学习的承诺非常诱人。与其随机标注数据点,不如让算法像个聪明的学生一样,明确要求老师 (人工标注员) 只标注那些最令人困惑或信息量最大的样本。理论上,通过标注“正确”的数据,你可以用极少的预算达到很高的模型准确率。
但这里有一个令人不安的问题: 它在实践中真的有效吗?
如果你从研究论文中选择一种流行的主动学习策略,并将其应用于你的特定数据集,你能相信它会胜过简单的随机采样吗?一篇题为 “On the Fragility of Active Learners for Text Classification” (论文本分类中主动学习器的脆弱性) 的研究论文,由 Abhishek Ghose 和 Emma Thuong Nguyen 撰写,正面解决了这个问题。他们对现代 AL 技术进行了严格的压力测试,其结果给所有构建 NLP 管道的人敲响了警钟。
在这篇文章中,我们将拆解这篇论文的方法论,探索这些学习器的“脆弱性”,并通过数据来看看主动学习究竟是灵丹妙药,还是一场掷骰子游戏。
从业者的困境
要理解这篇论文的重要性,我们首先需要了解当今数据科学家面临的困境。
当你阅读 AL 文献时,经常会看到图表显示 AL 策略的准确率飙升,而“随机采样”则远远落在后面。基于此,你可能会决定实施一种复杂的策略,如 对比主动学习 (CAL) 或 判别主动学习 (DAL)。
然而,AL 缺乏 “先决条件检查 (prerequisite checks) ” 。 在标准统计学中,你在运行 t 检验之前会检查正态性。但在 AL 中,没有任何测试可以让你在未标注的数据集上运行,然后说: “啊,是的,Margin (边缘) 策略在这里肯定有效。”
从业者被迫进行一场盲赌。他们选择一种技术,希望它能胜过随机采样,并经常以“常开模式 (Always ON) ”运行它——假设即使它没有太大帮助,也肯定不会损害模型。这篇论文通过提出以下问题挑战了这一假设:
- AL 实际上多久能胜过随机采样一次?
- 预测模型的选择是否比 AL 策略更重要?
- “常开模式”是一个安全的默认设置吗,还是说 AL 实际上可能比随机猜测更差?
方法论: 大规模网格搜索
为了回答这些问题,研究人员并没有只在一个数据集上测试一个模型。他们创建了一个巨大的配置空间,以模拟现实世界从业者可能使用的各种设置。
他们特别关注文本分类 , 利用了当今工业界普遍使用的现代预训练表示。
AL 实验剖析
让我们看看他们是如何构建实验环境的。他们改变了五个关键维度:
- 数据集 (Datasets) : 五个不同的文本数据集 (包括情感分析、新闻分类和医学摘要) 。
- 表示 (Representations) : 文本如何转换为数字 (词向量、Universal Sentence Encoder、MPNet 等) 。
- 分类器 (Classifiers) : 进行预测的实际模型 (线性 SVM、随机森林和 RoBERTa) 。
- 查询策略 (Query Strategies,QS) : 选择标注哪些数据的算法。
- 批次/种子大小 (Batch/Seed Sizes) : 我们从多少数据开始,以及一次标注多少数据。

如图 1 所示,这种组合爆炸导致了 350 种独特的配置 。 由于 AL 涉及随机性,他们将每种配置运行了 3 次,总共进行了 1,050 次实验试验 。
批量主动学习循环
值得花点时间了解一下这些实验中主动学习循环究竟是如何运作的。作者提供了一个清晰的算法分解。

算法 1 详细描述了该过程:
- 初始化: 从一小部分随机选择的已标注“种子”数据集开始。
- 训练 (\(M_t\)): 在当前已标注数据上训练模型。关键在于,作者在每一步都进行了适当的模型选择 (超参数调优) 和校准。 这是其他论文经常跳过的一步,但这对于公平比较至关重要。
- 选择 (\(Q\)): 使用查询策略查看海量的未标注数据池 (\(X_U\)) 并挑选一批大小为 \(b\) 的实例。
- 标注: “标注”这些实例 (从数据集中揭示它们的真实类别) 。
- 循环: 将新数据添加到训练集并重复,直到预算耗尽。
查询策略 (竞争者)
该论文将随机采样 (基线) 与四种非随机策略进行了对比,这些策略涵盖了从既定的经典方法到最先进的方法:
- 边缘采样 (Margin Sampling,2001) : 一种经典的不确定性方法。它选择模型最“困惑”的样本 (即前两个预测类别的概率差最小) 。
- CAL (对比主动学习,2021) : 选择那些预测概率分布与其最近邻居差异最大的样本。
- DAL (判别主动学习,2019) : 训练一个二分类器来区分已标注和未标注数据,然后挑选看起来与我们已有数据“最不同”的未标注点。
- REAL (主动学习的代表性误差,2023) : 使用聚类来寻找模型可能出错的区域并从中采样。
衡量成功: 相对提升
我们要如何知道 AL 是否获胜?我们不能仅仅看准确率,因为无论我们如何选择数据,随着数据的增加,准确率自然会上升。
我们需要衡量 AL 相对于随机采样提供的提升 (lift) 。 作者定义了一个称为 \(\delta\) (delta) 的指标,它代表 F1-Macro 分数的百分比相对提升。

- 如果 \(\delta > 0\): 主动学习策略胜出 (优于随机) 。
- 如果 \(\delta \approx 0\): 该策略无用 (与随机相同) 。
- 如果 \(\delta < 0\): 该策略有害 (比随机更差) 。
结果: 关于脆弱性的故事
这项研究的结果挑战了“AL 总是有帮助”的说法。纵观 1,050 次试验,主动学习的表现令人惊讶地不稳定。
1. 收益 (与损失) 的全景图
让我们看看提升的“热图”。在下图中,作者绘制了不同预测管道 (行) 和训练集大小 (列) 下的预期相对提升 (\(\delta\))。
- 绿色 表示 AL 有帮助。
- 白色 表示 AL 无效。
- 粉色/洋红色 表示 AL 有害。

从图 3 中的关键观察:
- 粉色海洋: 看热图的左侧 (Train size 1000) 。这里有大量的粉色,特别是对于 LinearSVC 和随机森林 (RF) 管道。这意味着在学习的早期阶段——正是你最需要 AL 发挥作用的时候——它的表现往往比随机采样还要差。
- 收敛归零: 当我们向右移动 (Train size 5000) 时,颜色逐渐变白。这是意料之中的;随着标注数据的增加,策略之间的差异变得不那么重要,因为你已经覆盖了数据分布。
- RoBERTa 的例外: 看热图的最后一行 (
RoBERTa)。它始终是浅绿色的。这表明使用强大的端到端深度学习模型能为 AL 带来更一致的积极结果,尽管收益并不大 (大约 1-2%) 。
2. “常开模式”的危险
业界的一个常见做法是在后台保持主动学习器运行。其逻辑是: “最坏的情况也就是和随机采样一样。”
数据证明这种逻辑是错误的。
作者计算了相对提升 (\(\delta\)) 严格为负的次数百分比。

令人震惊的统计数据: 总体而言,AL 策略在 51.82% 的时间里表现不如随机采样。
如果你看 Average delta (平均 delta) 这一列,总体平均值是 -0.74 。 这意味着,如果你在没有进行先决条件检查的情况下盲目地将这些 AL 技术应用于各种任务,平均而言,与除了随机选择之外什么都不做相比,你实际上是在轻微地损害模型的性能。
这造成了一个悖论: 当你标签很少时,你需要 AL。但在标签很少时,AL 也是最不稳定的,很可能表现不佳。当你拥有足够的标签 (4000-5000 个) 以确保 AL 稳定 (处于“正向”区域) 时,收益却微乎其微。
3. 可视化收敛过程
为了可视化这种行为,我们可以查看 agnews 数据集的学习曲线。

在图 2 中,比较红线 (随机) 和其他线条。
- 在 LinearSVC 和 RF (随机森林) 图中,线条交织在一起。有时随机在上面,有时 Margin (绿色) 在上面。这很混乱。
- 在 RoBERTa 图 (右下角) 中,你可以看到更清晰的分离,AL 策略 (特别是 Margin 和 REAL) 略微浮动在红色随机线之上。
这直观地展示了“脆弱性”。除非你使用特定的设置 (如 RoBERTa) ,否则“胜利”是无法保证的。
4. 谁更重要: 算法还是管道?
如果你想提高主动学习的结果,你应该从 Margin Sampling 切换到 CAL 吗?还是应该将你的分类器从 随机森林 切换到 RoBERTa?
研究人员使用了统计检验 (肯德尔 W 系数) 和特征重要性分析来回答这个问题。他们发现, 改变预测管道比改变查询策略有更大的影响。
与分类器和文本表示的选择相比,AL 算法的选择 (DAL vs REAL vs Margin) 出人意料地不那么重要。这对学生和研究人员来说是一个重要的见解: 停止痴迷于最新潮的采样算法,先优化你的底层模型。
5. 文本表示的作用
说到表示,该论文揭示了关于 Universal Sentence Encoder (USE) 与 MPNet 之间一个有趣的细微差别。
在标准基准测试 (如 MTEB) 上,MPNet 通常被认为是更优秀的嵌入模型。然而,在主动学习的背景下,结果却有所不同。

图 4 显示了不同嵌入相对于随机采样的相对提升。
- WV (词向量) : 开始时非常差,但随后有所改善。
- MP (MPNet) : 开始时非常差 (负值) ,然后缓慢爬升。
- USE: 开始时更接近零,且改善得更快。
作者假设,虽然 MPNet 更精确,但 USE 可能具有更“模糊”的嵌入空间,这有助于采样器在 AL 过程的早期更好地覆盖数据集的概念空间。有时,稍微不那么精确的表示反而有助于采样器更好地探索数据。
为什么 RoBERTa 是个例外?
在整个实验中,RoBERTa (端到端 Transformer 模型) 是唯一显示出主动学习带来持续、积极收益的预测器 (如表 1 中 RoBERTa 行所示,只有 7.71% 的负面事件) 。
为什么?
作者认为,因为 RoBERTa 是一个端到端分类器,它对数据分布有更“连贯”的视角。与将嵌入 (USE) 与分类 (SVM) 分开的管道不同,RoBERTa 在微调过程中同时调整其内部表示和决策边界。这使得它能够更好地估计未标注样本的信息量。
然而,即使是 RoBERTa,收益也很小——相对于随机采样大约只有 1% 的提升 。 这值得运行复杂 AL 查询的计算成本吗?这取决于你的预算。
结论: “热启动”问题
这篇论文对主动学习领域提出了必要的批评。它并没有声称 AL 永远无效;显然,它在特定场景下 (特别是使用像 RoBERTa 这样的 Transformer 时) 是有效的。然而,它暴露了这些方法的脆弱性 。
对于学生和从业者来说,关键的要点是:
- 不要盲目信任: 不要假设 AL 在你的特定数据集上会胜过随机采样。
- “热启动”差距: 目前无法知道 AL 何时开始胜过随机采样。你可能需要 500 个标签,或者 2000 个。在达到那个点之前,你的表现可能比随机还要差。
- 管道优先: 你的分类器和表示的选择比特定的主动学习查询策略更重要。
- 没有“先决条件检查”: 该领域迫切需要诊断工具——即那种可以观察数据集并在我们花钱标注之前预测哪种 AL 策略会有效的无监督指标。
在这些诊断工具出现之前,主动学习仍然是一场高风险的赌博。如果你决定使用它,请密切监控你的表现,或许——仅仅是或许——不要害怕坚持使用老式的随机采样。
](https://deep-paper.org/en/paper/2403.15744/images/cover.png)