像 GPT-4 这样的大型语言模型 (LLM) 已经迅速从新奇事物转变为必不可少的生产力工具。我们用它们起草邮件、总结会议记录和调试代码。普遍的观点是,这些模型充当了“副驾驶 (co-pilots) ”的角色,在提高效率的同时,人类仍然是掌控全局的驾驶员。

但是,当任务不仅仅关乎速度,而是涉及特定领域的专家判断时,会发生什么?当一位专家依靠 LLM 进行复杂分析时,他们是真的在使用工具,还是工具在潜移默化地影响他们对现实的认知?

乔治梅森大学的研究人员最近发表了一篇题为 “The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead?” (LLM 效应: 人类是真的在使用 LLM,还是反被其影响?) 的论文,直面了这个问题。通过设计一项涉及政策专家和“印度 AI 政策”的严谨研究,作者揭示了工作流速度与分析独立性之间一个引人入胜——也略带令人担忧——的权衡。

在本文的深入探讨中,我们将剖析 LLM 如何引入“锚定偏差 (anchoring bias) ”,为什么它们难以处理细微差别,以及数据揭示出的 AI 效率背后的真实代价。

核心问题: 效率 vs. 偏差

这项研究背后的动机非常直接。LLM 正越来越多地被部署在需要高度专业知识的领域,如法律分析、医疗诊断和政策研究。这些领域通常依赖“主题建模 (Topic Modeling) ”——即从海量文档中识别潜在主题。

传统上,这是一个缓慢且劳动密集型的过程,由人类完成。LLM 承诺将其自动化,或者至少显著加快速度。然而,研究人员假设,在这个工作流中引入 LLM 可能会触发锚定偏差

锚定偏差是 Tversky 和 Kahneman 于 1974 年首次描述的一种认知现象。它指的是个体在做决定时,过度依赖最初获得的信息 (即“锚点”) 。如果 LLM 首先提出了一组主题或标签,人类专家可能会下意识地将自己的分析锚定在这些建议上,从而可能忽略 AI 遗漏的独特或微妙的见解。

为了验证这一点,研究人员设计了一个两阶段实验,以衡量 LLM 的效率提升及其带来的认知影响。

研究设计: 双组记

该研究聚焦于一个具体且复杂的领域: 分析有关印度 AI 政策演变的访谈。这些内容信息密度大、细微差别多,且需要领域专业知识才能正确解读——这是测试人机协作的完美试验台。

研究人员招募了四名政策专家,并将研究分为两个截然不同的阶段:

  1. 主题发现 (Topic Discovery) : 阅读文档以创建一个相关主题列表。
  2. 主题分配 (Topic Assignment) : 使用该列表为新文档中的特定段落打标签。

关键在于,专家们被分成了两种设置:

  • 对照组 (Control Setting) : 专家独自工作,仅依靠自己的判断。
  • 实验组 (Treatment Setting) : 专家会收到 LLM 生成的建议 (主题或标签) 作为指导。

研究人员使用了“大声思维 (Think Aloud) ”协议,要求专家在工作时口述他们的思维过程。这种定性数据与定量日志相结合,为观察 AI 如何 影响他们的决策提供了一个窗口。

我们用户研究两个阶段的概述。在两个阶段中,标注者阅读文档并提出相关主题列表,分为有 (实验组) 和无 (对照组) LLM 建议两种情况。在第一阶段结束时,标注者商定出一份最终主题列表,我们将其用于主题分配阶段。在第二阶段,所有标注者执行将主题分配给另一组文档的任务,同样分为有 (实验组) 和无 (对照组) LLM 建议两种情况。

如上图 1 所示,该研究旨在每一步都对比“仅人类”工作流与“人类加 AI”工作流的产出。

第一阶段: 主题发现与“细微差别差距”

在第一阶段,目标是识别访谈记录中实际存在哪些主题。对照组阅读文本并从零开始生成主题。实验组则收到一份由 GPT-4 生成的主题列表,并以此作为起点。

这一阶段的结果凸显了当前 LLM 的一个关键局限性: 缺乏细微差别。

共识过程

在各自工作之后,人类标注者聚在一起合并他们的列表,创建一个“最终主题列表” (H) 。他们比较了对照组列表 (C) 、实验组列表 (T) 和原始 LLM 列表 (L) 。

来自不同设置下的标注者在第一阶段的主题列表整合过程。最终主题列表 (H) 与 LLM 主题有一些重叠,这是因为实验组团队选择使用了许多模型生成的主题和定义。最重要的是,LLM 生成的列表没有以任何形式涵盖对照组认为重要的 5 个主题。

图 2 展示了这一整合过程。虽然存在显著重叠,但专家们发现 LLM 经常提供宽泛、笼统的标签。例如,LLM 可能会建议“性别研究”,而人类更倾向于“性别议题”,以捕捉文本中提到的具体不平等现象。

LLM 错过了什么

第一阶段最能说明问题的数据点是 LLM 完全未能察觉的内容。专家们确定了最终列表中的 20 个核心主题。LLM 成功识别或涵盖了其中的 15 个。然而, 有 5 个主题被 AI 完全遗漏了。

表 1: LLM 主题列表 (L) 与最终主题列表 (H) 的比较显示,模型在其整体主题生成任务中未能涵盖的主题数量非常少。

表 1 总结了这种差异。虽然在 20 个主题中遗漏 5 个看起来并非灾难性的,但这 5 个主题的性质至关重要。缺失的主题包括具体且敏感的领域,如 “治安与监控 (Policing & Surveillance) ”“公民社会倡导 (Civil Society Advocacy) ”

为什么 LLM 会错过它们?研究人员分析了这些主题在文本中出现的频率。

表 2: 两组文档中缺失主题的主题分配覆盖率百分比。注意,对于第二阶段,我们使用的是对照组的结果。

表 2 揭示了答案: 这些主题在文档中的普及率 (覆盖率) 较低。“交通”仅出现在 1.8% 的文本中;“治安与监控”为 6.0%。

这表明模型存在一种“多数票”偏差。LLM 非常擅长总结对话的主体部分 (宽泛、普遍的主题) ,但未能捕捉到频率低但影响大的信号。在政策分析中,对监控担忧的简短提及可能是访谈中最具政治意义的部分,但 LLM 却将其平滑处理掉了。

第二阶段: 主题分配与锚定偏差

研究的第二阶段涉及将最终主题列表应用于新文档。在这里,速度与偏差之间的权衡变得无可否认地清晰。

研究人员使用了拉丁方设计 (Latin Square design) ,这意味着每位专家既作为对照组 (处理一份文档) ,也作为实验组 (处理另一份文档) 。这确保了表现上的差异是由于 AI 辅助造成的,而非个别专家的技能差异。

表 3: 对于第二阶段,每位专家获得两份文档进行标注;一份用于他们的对照组设置,另一份用于他们的实验组设置。通过这种组合,我们确保每份文档在两种设置下至少被标注一次。

专家们使用自定义界面 (Label Studio) 为段落分配主题。实验组看到了 LLM 预先高亮的建议,他们可以选择接受、拒绝或修改。

图 3: 使用模拟访谈的 Label Studio GUI 示例。为了保护受访者的匿名性,访谈内容将不予发布。

效率大爆发

首先,对于 AI 倡导者来说有个好消息: 效率提升巨大。

当没有 AI 辅助 (对照组) 时,专家的平均标注速度为每分钟 96.4 个词 。 当有 LLM 辅助 (实验组) 时,速度跃升至每分钟 225.0 个词

表 5: 对照组与实验组之间平均标注速度的比较,单位为每分钟字数。

如表 5 所示,这是133.5% 的速度提升 。 在职业环境中,这种差异是变革性的。它能将为期一周的分析项目变成两天的任务。

隐性成本: 锚定偏差

然而,改变的不仅仅是速度。研究人员使用科恩卡帕系数 (Cohen’s Kappa, \(\kappa\)) ——一种衡量标注者间一致性的统计指标——分析了人类与 LLM 之间的一致性水平。

逻辑如下: 如果人类真的是独立的,无论是否看到建议,他们与 LLM 的一致性应该大致相同。如果仅仅因为看到了建议,他们就更多地同意 LLM,那就是偏差的证据。

表 6: 主题分配第二阶段结果。在左表中,百分比代表专家与 LLM 在不同设置下的一致性水平 (Cohen’s \\(\\kappa\\)) 。右表显示了每位专家在每份文档和设置下的标注速度 (字/分钟) 。对照组设置以蓝色高亮显示,而实验组设置以粉色高亮显示。一个值得注意的趋势是——当标注者拥有 LLM 建议时,他们倾向于极度赞同 LLM,并且与这种高度的 LLM 一致性相关联,标注速度往往显著增加。

表 6 展示了该研究的“确凿证据”。

请看“标注者与 LLM 的一致性 (Annotator Agreement with LLM) ”下的列。

  • 对照组 (蓝色) : 当专家独自工作时,他们与 LLM “基准”的一致性相对较低 (例如,A2 在 D5 上为 36.6%) 。这表明他们独立的专家判断经常与 AI 的逻辑不同。
  • 实验组 (粉色) : 当同样的专家看到 LLM 的建议时,他们的一致性飙升 (例如,A4 在 D5 上为 84.4%) 。

统计分析证实这是非随机的 (\(p < 0.001\)) 。专家们不仅仅是变快了;他们正在积极改变自己的决定以与 AI 保持一致。

“大声思维”的记录支持了这一点。在对照组设置中,专家们纠结于艰难的决定,争论一段话是关于“隐私”还是“监控”。在实验组中,专家们通常看一眼建议,觉得“足够好”,然后继续。批判性思维的摩擦被消除,取而代之的是验证的便捷。

问卷结果: 信任 vs. 现实

最后,研究人员在研究前后对专家进行了问卷调查,以评估他们对这项技术的看法。

有趣的是,尽管第一阶段展示了偏差和主题遗漏,专家们对这次合作仍持非常积极的看法。

表 8: LLM 工具的分析后问卷调查问题及相应的回应分布。

如分析后问卷 (表 8) 所示:

  • 100% 的参与者更倾向于使用 LLM 推荐来完成任务。
  • 100% 的人认为将其集成到工作流中“非常容易”。
  • 大多数人将体验评价为“好”。

这突显了一种危险的脱节。用户感觉更高效、更满意,但他们没有意识到自己的决策过程在多大程度上已经被机器改变或“锚定”了。他们将该工具视为有益的助手,却没有意识到它实际上正在有效地掌舵。

结论: 权衡与取舍

这篇论文为许多人怀疑的一种现象提供了关键的实证证据。“LLM 效应”是真实的。

  1. 效率不可否认: 使用 LLM 使专家分析的速度提高了一倍以上。
  2. 偏差不可避免: 在专家思考之前向其展示答案,会从根本上改变他们的答案。
  3. 细微差别丢失: LLM 为了宽泛、概括性的主题,抹平了罕见但关键的细节 (如“治安与监控”) 。

这对学生和专业人士的启示是重大的。如果你使用 LLM 来总结论文、分析数据或编写代码,你的工作速度可能会快得多。但也很有可能你会收敛到模型所代表的“平均”观点,从而可能错过高水平研究中往往最重要的那些特异、离群的见解。

作者的结论是,虽然我们不应抛弃这些工具,但我们需要设计更好的工作流——也许是“人类优先”的系统,即在 AI 填补空白之前由专家建立框架——以确保我们在获得引擎速度的同时,不会失去专家的掌控力。