引言

在深度学习时代，数据就是新的石油。但如果没有准确的标签，原始数据就毫无用处。虽然我们很希望让领域专家来标注每一张图片或每一份文档，但这通常极其昂贵且缓慢。于是众包 (Crowdsourcing) 应运而生: 这种方法将任务分发给大量的非专家工人 (例如在 Amazon Mechanical Turk 上) 。

众包具有成本效益，但它带来了两个令人头疼的主要问题:

噪声 (Noise) : 众包工人会犯错。
稀疏性 (Sparsity) : 工人通常只回答了可用问题中的极小一部分。

为了处理噪声，我们通常使用标签聚合 (Label Aggregation) (投票机制) 来从多个工人的结果中推断出真实标签。然而，当数据稀疏时，聚合算法就会陷入困境。如果一张特定的图片只有一两个不可靠的工人进行过标注，多数投票法就会失效。

这就引出了标签补全 (Label Completion) ——这是一个预处理步骤，我们尝试在聚合投票之前，智能地“填补”标签矩阵中的空白。

在这篇文章中，我们将深入探讨一篇 2025 年的论文，题为 “TLLC: Transfer Learning-based Label Completion for Crowdsourcing” (TLLC: 面向众包的基于迁移学习的标签补全) 。针对标签补全中的一个特定问题: 当一个工人几乎没有标注任何东西时，你如何对他的行为进行建模？ 作者提出了一个巧妙的解决方案，那就是迁移学习 (Transfer Learning) 。

问题: 工人建模不充分

目前最先进的方法试图通过对每个工人的“个性”或可靠性进行建模来预测缺失的标签。如果我们知道工人 A 擅长识别狗但不擅长识别猫，我们就可以相应地加权他们的投票，或者预测他们可能会投出什么票。

然而，这陷入了一个“第二十二条军规”式的两难境地。要建立一个好的工人 A 的模型，我们需要大量来自他们的数据。但在现实场景中，工人通常只标注极少量的实例。这导致了工人建模不充分 (insufficient worker modeling) 。模型无法捕捉到工人的特征，从而导致对缺失标签的预测效果很差。

解决方案: TLLC

研究人员提出了基于迁移学习的标签补全 (Transfer Learning-based Label Completion, TLLC) 。其核心思想简单而强大: 与其从头开始为每个工人训练一个模型 (这会因缺乏数据而失败) ，我们不如先在来自整个人群的高置信度数据 (源域) 上训练一个“通用”模型。然后，我们将这个知识丰富的模型迁移到个体工人 (目标域) 身上并进行微调。

这使得模型能够从群体中学习通用特征，同时仍能适应个体工人的特定习惯。

TLLC 框架

让我们来看看 TLLC 方法的整体工作流程。

TLLC 的整体框架，展示了从构建数据到补全的 5 个步骤。

如图 1 所示，该过程分为五个明显的步骤:

构建 (Construct) 源域和目标域。
在源域上预训练 (Pretrain) 一个孪生网络 (Siamese network) 。
将网络迁移 (Transfer) 给特定工人。
学习 (Learn) 嵌入 (embeddings) 。
补全 (Complete) 缺失的标签。

让我们详细分解这些步骤。

第 1 步: 构建源域和目标域

在进行任何训练之前，我们需要整理数据。 目标域 (Target Domain) 很简单——就是特定工人标注的数据。

源域 (Source Domain) 则比较棘手。我们需要一个高质量的大型数据集来预训练我们的网络。但我们没有真实标签 (ground truth) ；我们只有充满噪声的众包投票。作者使用了一种受*置信学习 (confident learning) *启发的技术来过滤数据。

首先，他们计算实例的初始聚合标签 \(\hat{y}_i\) (通常是多数投票结果) 以及该标签的概率 (置信度) 。

初始聚合标签的公式。给定噪声集下标签概率的公式。

接下来，他们计算每个类别的平均置信度阈值 \(\mu\)。这设定了一个质量标准: 如果一张图片被标记为“猫”，其置信度分数是否高于所有“猫”图片的平均置信度？

平均置信度阈值的公式。

最后，他们通过仅保留置信度分数超过该类别平均阈值的实例来构建源域 (\(X_S\)) 。

过滤源域集合的公式。

通过这样做，研究人员实际上创建了一个“银标准 (Silver Standard) ”数据集——它不是完美的真实标签，但是从人群中能获得的最高置信度的数据。

第 2 步和第 3 步: 通过孪生网络进行工人建模

有了数据之后，我们如何对工人进行建模？作者选择了孪生网络 (Siamese Network) 架构。

孪生网络旨在通过测量相似性来工作。它们接受两个输入并输出一个距离度量——如果两个图像具有相同的标签，网络就会学习将它们在嵌入空间中拉近。如果它们标签不同，网络就会将它们推远。

迁移学习的转折点:

预训练: 网络首先在高质量的源域上进行训练。由于这个数据集很大，网络可以学习到数据稳健的特征表示 (嵌入) 。
迁移与微调: 这个预训练网络的权重随后被复制到特定工人的网络中。然后，仅使用该特定工人标注的少数实例( 目标域 )对该网络进行微调。

这种方法解决了稀疏性问题。即使一个工人只标记了 5 个项目，由于经过了预训练，他们的特定模型也是建立在对数据的丰富理解之上的。

训练使用均方误差 (MSE) 损失函数来最小化两个项目的预测距离与其实际关系 (相同类别为 0，不同类别为 1) 之间的差异。

孪生网络中使用的 MSE 损失函数公式。

第 4 步和第 5 步: 标签补全

一旦工人特定的网络训练完成，它就可以为任何实例生成一个新的嵌入向量 (记为 \(z\)) 。

为了预测工人的缺失标签:

作者计算该工人标记为类别 A、类别 B 等的所有实例的质心 (平均位置) 。
他们在这些质心周围定义了一个“安全半径” (平均距离) 。
对于一个未标记的实例，他们将其映射到这个空间中。

如果未标记的实例落入特定类别的质心附近 (距离小于计算出的平均距离) ，算法就会将该标签分配给该实例。

补全的正式条件为:

标签补全条件的公式。

在这里，实例 \(z_i\) 与类别质心 \(\bar{z}_q\) 之间的距离必须小于阈值 \(\bar{d}_q\)。

实验与结果

为了证明这种方法的有效性，作者将 TLLC 与最先进的基准方法进行了测试，其中包括一种称为 WSLC (基于工人相似度的标签补全) 的方法。他们使用了真实世界的数据集: Income (二分类) 、Leaves (6 分类) 和 Music_genre (10 分类) 。

它能提高准确率吗？

主要指标是聚合准确率 (Aggregation Accuracy) ——在使用 TLLC 填充缺失标签后，我们能多准确地确定真实标签？

条形图展示了 Income、Leaves 和 Music 数据集上的聚合准确率。

如图 2 所示，TLLC (绿色/条纹柱) 始终优于或持平于基准 WSLC (蓝色柱) 。

Income 和 Leaves: TLLC 在几乎所有的聚合方法 (MV, GTIC 等) 上都显示出显著的改进。
Music_genre: 表现具有竞争力，尽管差距较小。

为什么迁移学习很重要？

论文中最有力的证据是嵌入的可视化。作者选取了一位标注实例非常少的工人，并可视化了在使用和不使用迁移学习的情况下，网络是如何“看待”数据的。

有无迁移学习情况下的嵌入可视化。

右图 (无迁移学习) : 数据点是一团混乱。模型没有看到足够的数据来区分各个类别。
左图 (有迁移学习) : 类别 (颜色) 清晰且聚类分明。尽管这位特定的工人提供的数据很少，但预训练使模型能够理解数据集的结构。

保留工人特征

标签补全的一个风险是“同质化”——让每个工人看起来都像平均水平。然而，有效的众包依赖于多样性。

图表显示补全前后标注质量的变化。

图 6 展示了工人的标注质量。橙色线 (WSLC) 表明基准方法倾向于拉平曲线，使糟糕的工人看起来更好，好的工人看起来更差——它将他们平均化了。蓝色线 (TLLC) 更接近绿色线 (真实质量) ，这意味着 TLLC 在填充缺失数据的同时，尊重了每个工人的独特能力水平。

结论

TLLC 方法解决了众包中的一个关键空白: 无法对那些尚未完成足够工作的工人进行建模。通过将集体的高置信度数据作为源域 , 将个体工人作为目标域 , 研究人员成功应用迁移学习稳定了这一过程。

核心要点:

不要从零开始: 在稀疏数据环境中，利用全局数据集为个体预训练模型。
先过滤: 使用置信学习来创建一个干净的源域对于有效的预训练至关重要。
嵌入很有效: 孪生网络允许我们要基于几何相似性来补全标签，这通常比单纯的概率更稳健。

这项研究为更高效的众包平台铺平了道路，这些平台可以用更少的标注获得准确的结果，从而节省时间和金钱。

引言#

问题: 工人建模不充分#

解决方案: TLLC#

TLLC 框架#

第 1 步: 构建源域和目标域#

第 2 步和第 3 步: 通过孪生网络进行工人建模#

第 4 步和第 5 步: 标签补全#

实验与结果#

它能提高准确率吗？#

为什么迁移学习很重要？#

保留工人特征#

结论#

引言