超越群体智慧：人机协作（Human-LLM）混合框架如何彻底变革文本标注

“群体智慧” (Wisdom of Crowds) 是一个和统计学一样古老的概念。这个想法很简单: 如果你让足够多的人猜测罐子里软糖的数量，他们猜测的平均值往往惊人地接近真实值——甚至比任何单一专家的猜测都要准确。

在机器学习 (ML) 和自然语言处理 (NLP) 领域，我们严重依赖这一原则。我们利用 Amazon Mechanical Turk 或 Lancers 等平台来收集标记数据。当任务很简单时，比如点击按钮判断图片中是否包含猫，聚合这些答案很容易: 只需采取多数票即可。

但是，当任务复杂且开放式时会发生什么？如果我们让十个不同的人将一句日文翻译成英文，我们会得到十个不同但都有效的句子。在传统意义上，我们无法对文本字符串进行“平均”。你不能简单地在数学上对单词“The wheelchair is unnecessary” (轮椅是不必要的) 和“I don’t need a wheelchair” (我不需要轮椅) 取平均值。

这把我们带到了众包与生成式 AI 的前沿交叉点。最近的一篇论文 “Human-LLM Hybrid Text Answer Aggregation for Crowd Annotations” (用于众包标注的人机混合文本答案聚合) 提出了一个令人着迷的解决方案。与其在人类工作者或大型语言模型 (LLM) 之间做选择，为什么不利用 LLM 来聚合人类的智慧呢？

在这篇文章中，我们将剖析这篇论文，了解一种名为 CAMS (创建者-聚合者多阶段) 的新框架是如何工作的，LLM 作为“聚合者”的表现如何，以及为什么数据标注的未来很可能是混合模式的。

问题所在: 当多数投票法失效时

在深入解决方案之前，我们必须明确定义问题。在数据标注中，我们要处理两种主要类型的任务: 类别型 (Categorical) 和 基于文本型 (Text-based) 。

类别标记: 这是封闭式的。情感是积极还是消极？图片是狗还是猫？这里的聚合是直接的统计分析。
文本答案标注: 这是一个挑战。任务包括翻译、摘要或解释模型为何做出某个决定。

论文清晰地直观对比了这两个世界:

类别标签聚合与文本答案聚合的对比。

如上图第二部分所示, 文本答案聚合任务涉及的输入在句法和词汇上差异很大，但共享相同的语义。一名工作者说 “For me it is not necessary” (对我来说没必要) ，而另一名说 “I never need wheelchair” (我从不需要轮椅) 。

聚合系统的目标是生成一个估计答案 (\(\hat{z}_i\)) ，该答案比任何单一工作者的尝试都能更好地捕捉“标准答案 (Ground Truth) ”。在上面的例子中，聚合后的答案变成了“I don’t need a wheelchair at all” (我根本不需要轮椅) ，这综合了人群的意图。

传统方法: 单阶段框架

从历史上看，研究人员使用的是 单阶段框架 (Single-Stage Framework) 。过程是线性的:

请求者向人群发送一个问题 (\(q\))。
多名“众包创建者” (工作者) 提交他们的答案 (\(a\))。
一种数学算法 (模型聚合器) 试图挑选出最好的一个。

传统单阶段众包框架图解。

在这种传统设置 (图 1) 中，“模型聚合器”通常是像 序列多数投票法 (SMV) 或 序列最大相似度法 (SMS) 这样的算法。这些算法将文本转换为向量嵌入，并寻找在几何上与所有其他答案“最接近”的答案 (质心) 。

这种方法的局限性是显而易见的: 模型聚合器是 抽取式 (extractive) 的。它只能从人群提供的现有答案中挑选一个。如果每个工作者都写了一个略有缺陷的句子，算法只能挑选“最不坏”的那个。它无法重写句子来修正语法或结合两个不同答案的最佳部分。

新方法: CAMS 框架

研究人员提出了一种范式转变。随着像 GPT-4 这样的大型语言模型 (LLM) 的出现，我们现在拥有了擅长阅读多段文本并进行综合的系统。

他们引入了 创建者-聚合者多阶段 (Creator-Aggregator Multi-Stage, CAMS) 框架。该框架将标注过程视为具有不同角色的流水线，重要的是，它允许人类和 LLM 同时参与聚合阶段。

创建者-聚合者多阶段 (CAMS) 框架图解。

让我们分解图 2 所示的架构:

1. 众包创建者 (\(W_{C.C.}\))

这是标准层。人类工作者生成初始的原始答案。对于翻译任务，十个不同的工作者可能会提供十种不同的翻译。这些是“原材料”。

2. 聚合者 (The Aggregators)

这是创新层。系统不是将原始答案直接输入数学选择算法，而是将它们传递给 聚合者 。这些聚合者阅读原始答案，并用自己的语言生成一个新的、精炼的答案。这是 生成式 (abstractive) 聚合——他们可以创造输入中不存在的新句子。

论文为此阶段引入了两类工作者:

众包聚合者 (\(W_{C.A.}\)): 受雇查看翻译列表并写出最佳版本的人类。
LLM 聚合者 (\(W_{L.A.}\)): 被提示阅读原始翻译列表并推断正确的原始含义，以生成高质量答案的 LLM (如 GPT-4) 。

3. 模型聚合器 (The Model Aggregator)

最后，所有答案——来自创建者的原始答案、来自人类聚合者的精炼答案以及来自 LLM 聚合者的合成答案——都被汇集在一起。一个数学模型聚合器 (如 RASA 或 SMS) 将进行最终选择。

通过结合这些资源，该系统创建了一个“人机混合体”。它不完全依赖 LLM 从头开始做这项工作，也不完全依赖嘈杂的人类数据。它使用 LLM 来清理人类数据，然后使用数学方法挑选出赢家。

数学引擎: 如何挑选最佳答案

即使有了 CAMS 框架，我们也最终需要一种数学方法来选择最终输出。论文使用了三种特定的“模型聚合器”。理解这些对于理解后续的结果至关重要。

1. 序列多数投票法 (Sequence Majority Voting, SMV)

这是基线方法。它使用句子编码器 (如通用句子编码器) 将每个文本答案转换为数值向量。它计算所有答案的平均向量 (质心) 。然后，它选择与该平均值最接近的特定答案。它假设多数人是正确的。

2. 序列最大相似度法 (Sequence Maximum Similarity, SMS)

SMS 稍微稳健一些。对于每个答案，它使用余弦相似度计算它与所有其他答案的相似程度。它将这些相似度得分相加。总相似度得分最高的答案获胜。这就像一场人气竞赛，每个答案都为它的邻居投票。

3. 可靠性感知序列聚合 (Reliability Aware Sequence Aggregation, RASA)

RASA 是最先进的方法。它假设并非所有工作者都是平等的。有些人始终表现出色；其他人可能是发垃圾信息的或能力不足。

迭代学习: RASA 在估计“真实”答案和估计每个工作者的“可靠性”之间交替进行。
加权: 如果一名工作者持续提供接近估计真值的答案，他们的可靠性得分 (\(\theta\)) 就会上升。在下一轮中，他们的答案将具有更大的权重。

作者假设将这些模型应用于混合答案池 (人类 + LLM) 将产生优越的结果。

实验设置

为了测试这一点，研究人员使用了涉及日语到英语翻译的真实众包数据集 (J1, T1, T2) 。

众包创建者: 来自 CrowdWSA 数据集的工作者。
众包聚合者: 从名为 Lancers 的平台招募的新工作者。
LLM 聚合者: GPT-4 和 Gemini Pro。 (注: 我们将主要关注 GPT-4 的结果，因为它们通常更优越) 。

评估指标:

GLEU & METEOR: 这些是标准的 NLP 指标，用于通过将输出与“金标准” (专家翻译) 进行比较来评估翻译质量。分数越高越好。
嵌入相似度 (Embedding Similarity): 衡量输出与金标准在语义上的接近程度。

结果: 人 vs. 机器 vs. 混合

论文提供的结果具有启发性，挑战了关于生成式 AI 的一些常见假设。

问题 1: 个体谁更聪明？

首先，研究人员查看了由众包创建者、众包聚合者或 LLM 聚合者生成的单一答案的平均质量。

显示个体答案质量统计数据的表格。

表 3 (上图) 揭示了几个关键见解:

LLM 平均表现更好: 看“MEAN” (平均值) 列。对于数据集 J1，众包创建者的平均 GLEU 分数为 0.1868。LLM 聚合者 (GPT-4) 达到了 0.2729。LLM 明显优于普通人类工作者。
人类有更高的上限: 看“MAX” (最大值) 列。最好的众包聚合者达到了 1.0000 的满分。LLM 的峰值为 0.2756。这意味着虽然人类充满噪声，但最好的人类往往比 LLM 更好。
多样性问题: 看“STD” (标准差) 列。LLM 的标准差极小 (0.0018)。这意味着 LLM 非常一致。然而，在聚合任务中, 一致性可能是一个弱点 。我们需要多样性。如果 LLM 犯了一个错误，它倾向于重复犯同样的错误。人类由于其高方差，提供了更广泛的潜在答案范围，增加了“真理”存在于答案堆中的机会。

问题 2: 混合方法有效吗？

论文的核心是确定结合这些力量是否比单独使用它们产生更好的结果。

下表比较了不同的配置。

Group I: 仅众包创建者 (老方法) 。
Group II: 仅聚合者 (众包或 LLM) 。
Group IV: 混合模式 (创建者 + 聚合者 + LLM) 。

使用 GLEU 指标的文本答案聚合结果。

关注表 5 中的 SMS 和 RASA 列 (更强的算法) :

混合模式胜出: 代表 Group IV (\(A_{C.C}\)、\(A_{C.A}\) 和 \(A_{L.A}\) 的组合) 的行始终得分最高。例如，在数据集 J1 中使用 SMS，混合模型的得分为 0.3003 , 击败了仅 LLM 的得分 0.2846 和仅众包创建者的得分 0.2489。
协同效应: 这证明了 LLM 受益于人群的“噪声”。原始的人类答案提供了上下文和细微差别，模型聚合器可以利用这些信息将 LLM 的输出引向真理。
模型选择很重要: SMV (多数投票) 在所有情况下表现都很差。这证实了简单的平均对于复杂文本或混合数据不起作用。你需要像 SMS 或 RASA 这样的复杂算法来大海捞针。

敏感性分析: 你需要多少个 LLM？

一个有趣的实际问题是: “我应该运行多少个 LLM 智能体？”由于 LLM 是非确定性的 (温度 > 0) ，你可以对同一个提示问 5 次并得到 5 个略有不同的答案。

显示不同数量 LLM 聚合者下的 GLEU 结果图表。

图 3 显示了当我们把 LLM 聚合者的数量从 1 增加到 9 时的表现。

表现各异: 并没有一条直线向上的趋势。有时更多的智能体有帮助；有时表现会停滞。
风险规避: 然而，数据表明只使用一个 LLM 聚合者是有风险的 (参见某些线条在 x=1 处的下陷) 。使用小型的 LLM 调用集成 (例如 3 到 5 个) 可以确保稳定性。

讨论: 为什么这很重要？

这篇论文意义重大，因为它重构了“AI 取代工作”的叙事。与其将 LLM 视为人群的替代品，不如将 LLM 视为 协作者 。

“大海捞针”效应

作者指出了一个至关重要的观察结果: “答案聚合方法的目的之一是从原始众包答案中估计出好的工作者和好的答案 (大海捞针) 。”

因为人类的“MAX” (最大) 表现非常高 (如个体结果所示) ，系统的目标是确保那些杰出的人类离群值被识别出来。LLM 提高了质量的下限 (剔除糟糕的答案) ，而人类群体提高了上限 (提供偶尔出现的完美洞察) 。然后，模型聚合器 (RASA/SMS) 充当桥梁，选择那些与 LLM 的一致推理相符的高质量人类洞察。

成本效益

虽然这篇博客侧重于质量，但论文也简要触及了成本。LLM 聚合者每个实例的成本不到 0.01 美元，而众包聚合者的成本约为 0.36 美元。这是三十倍的差异。通过使用混合模型——也许使用许多 LLM 和较少的高质量人类——请求者可以有效地平衡预算和准确性。

结论

“创建者-聚合者多阶段” (CAMS) 框架代表了众包的下一次进化。通过将大型语言模型视为更广泛流水线中的一种特定类型的“工作者”，我们可以取得人类或 AI 单独都无法实现的结果。

对于 NLP 和众包领域的学生来说，关键要点很明确:

不要相信平均值: 在文本标注中，简单的多数投票 (SMV) 是不够的。
多样性是燃料: LLM 的低方差是一个限制。人类的噪声实际上是一个特性，而不完全是缺陷，因为它提供了稳健聚合算法工作所需的多样性。
混合是未来: 最强大的系统将算法的可靠性 (RASA)、LLM 的一致性以及人类创造力的巅峰表现结合在一起。

随着我们向前发展，我们可以期待看到更多这种“人在回路” (或者更确切地说是“AI 在人类回路中”) 的架构，定义我们如何构建为下一代模型提供动力的基准真相数据集。

问题所在: 当多数投票法失效时#

传统方法: 单阶段框架#

新方法: CAMS 框架#

1. 众包创建者 (\(W_{C.C.}\))#

2. 聚合者 (The Aggregators)#

3. 模型聚合器 (The Model Aggregator)#

数学引擎: 如何挑选最佳答案#

1. 序列多数投票法 (Sequence Majority Voting, SMV)#

2. 序列最大相似度法 (Sequence Maximum Similarity, SMS)#

3. 可靠性感知序列聚合 (Reliability Aware Sequence Aggregation, RASA)#

实验设置#

结果: 人 vs. 机器 vs. 混合#

问题 1: 个体谁更聪明？#

问题 2: 混合方法有效吗？#

敏感性分析: 你需要多少个 LLM？#

讨论: 为什么这很重要？#

“大海捞针”效应#

成本效益#

结论#