披露的偏见：得知 AI 协助写作如何改变对你的评价

引言

我们已经进入了数字创作的新时代。过去，“写作辅助”仅仅意味着拼写错误单词下的红色波浪线。随着 GPT-4 等大型语言模型 (LLM) 的出现，写作已演变为一个共创过程。人类提示，AI 起草，人类润色，AI 再进行打磨。这种范式的转变引发了关于作者身份、创造力和质量的深刻问题。

然而，一个关键的心理学问题仍未得到解答: 当读者知道一篇文章是由 AI 共同撰写时，他们会有何反应？

如果你读了一篇精彩的文章，但当你发现初稿是由 ChatGPT 写的，你的看法会改变吗？我们是仅仅根据纸面上的文字来评估文本质量，还是会受到其背后创作过程知识的偏见影响？

在论文 “How Does the Disclosure of AI Assistance Affect the Perceptions of Writing?” 中，来自普渡大学和康涅狄格大学的研究人员设计了一个巧妙的两阶段实验来回答这些问题。他们试图了解披露不仅是否重要，而且它如何改变人们对质量、原创性甚至雇佣潜力的看法。

背景: 人机共创范式

在深入实验之前，了解背景至关重要。生成式 AI 已经超越了简单的语法检查，成为了“构思”和“内容生成”的工具。先前的研究表明，区分人类和 AI 生成的文本越来越困难，对于普通读者来说通常几乎是不可能的。

然而，随着 AI 融合的加深，对透明度的呼声也越来越高。道德准则和学术政策通常要求披露 AI 的辅助情况。但是，关于这种透明度后果的实证证据仍然缺乏。透明度会让作者付出代价吗？

研究人员假设，披露可能会引发一种负面偏见。如果读者认为 AI 生成的内容需要的人类努力较少，他们可能会低估最终产品的价值，而不管其客观质量如何。为了验证这一点，他们需要一个受控环境，以便隔离“披露”这一变量的影响。

第一阶段: 创建样本

为了研究人们如何看待 AI 辅助写作，研究人员首先需要一个在不同条件下生成的写作样本语料库。他们进行了一项涉及 407 名参与者的“第一阶段”研究。

写作任务

参与者被分配到两种截然不同的写作任务之一:

议论文 (Argumentative Essay) : 针对托福风格的题目 (例如，政府是否应该对垃圾食品征税) 写一篇说服性文章。这需要逻辑、结构和论证。
创意故事 (Creative Story) : 根据提示 (例如，有人说“我们要不去散散步”) 写一篇短篇小说。这需要想象力、叙事流畅度和情感共鸣。

写作模式

关键在于，作者并非自由写作。他们被分配到三种反映现实世界 LLM 使用情况的“写作模式”之一:

独立模式 (Independent) : 参与者在没有任何 AI 帮助的情况下完全独自撰写文章。
AI 编辑模式 (AI Editing) : 参与者撰写草稿，但可以使用 ChatGPT 进行润色、编辑或修复语法。AI 被限制生成新内容。
AI 生成模式 (AI Generation) : ChatGPT 起草文章的初始版本。然后，参与者指导修改并向 AI 提供反馈以塑造最终输出。

这种设计确保了研究人员拥有一个多样化的文章库，范围从纯人工创作到深受 AI 影响的作品。

表 1: 第一阶段中针对两类写作任务收集的各写作模式的文章数量。

如上方的表 1 所示，研究人员在两种任务类型的所有三种模式下都收集了强大的数据集，为评估阶段奠定了坚实的基础。

第二阶段: 披露实验

研究的核心发生在第二阶段。招募了一组新的 786 名参与者作为“评分者”。他们被要求审查第一阶段收集的文章。

转折点在于: 评分者被随机分配到两种处理方式之一:

未披露组 (Non-Disclose Treatment) : 评分者盲评文章。他们不知道作者是否使用了 AI。
披露组 (Disclose Treatment) : 在阅读之前，评分者被明确告知文章是如何撰写的 (例如，“这篇文章的草稿由 ChatGPT 生成……”) 。

评分者对文章的总体质量、雇佣/入围作者的意愿以及创造力和原创性等具体属性进行评估。通过比较“披露”组和“未披露”组对同一文章的评分，研究人员可以分离出知晓 AI 参与这一因素的纯粹影响。

核心结果: 披露的代价

结果显示，使用 AI 会带来显著的“惩罚”，但这很大程度上取决于辅助的类型。

1. 对感知质量的影响

当作者仅使用 AI 进行编辑 (润色文本) 时，披露这一信息对议论文的感知质量只有轻微或可忽略的负面影响，尽管它确实稍微损害了创意故事的评分。

然而，当作者使用 AI 生成 (由 AI 起草内容) 时，影响非常明显。

图 1: 比较在独立、AI 编辑或 AI 生成写作模式下生成的文章的总体质量平均评分，包含披露与不披露使用及 AI 辅助类型的情况。

图 1 展示了这种质量下降。请看两个图表中右侧的“AI generation” (AI 生成) 列:

青色柱 (未披露) : 当评分者不知道 AI 起草了文本时，他们给出了高分。
红色条纹柱 (披露) : 当评分者知道 AI 起草了文本时，评分显著下降。

这表明文本本身质量很高 (如青色柱所示) ，但对 AI 参与的知情导致读者降低了他们的评价。这种偏见在创意故事 (图表 b) 中尤为强烈，这表明读者在创意领域比在议论领域更看重人类的努力。

2. 方差问题: 不确定性增加

披露 AI 辅助不仅降低了平均分；它还让分数变得更加混乱。研究人员观察了评分的 方差 (variance) ——也就是评分者之间意见分歧的程度。

图 2: 比较在独立、AI 编辑或 AI 生成写作模式下生成的文章的总体质量评分的方差。

如图 2 所示，披露 AI 生成 (两个图表中最右侧的组) 显著增加了方差。

这为什么重要？这意味着当披露 AI 使用情况时，评估变得不可预测。有些评分者可能不在乎并基于文本评分；其他人可能是 AI 的严厉批评者。这在评估过程中引入了高度的主观性和“噪声”。如果你是一位提交 AI 辅助作品的作者，你的成绩在很大程度上取决于谁在给你评分，而不仅仅是你写了什么。

3. 对创造力和原创性的影响

研究人员深入挖掘了具体指标。披露是否影响了对创造力和原创性的看法？

图 C.3: 比较文章原创性的平均评分。

图 C.4: 比较文章创造力的平均评分。

数据证实这种惩罚延伸到了这些细节。在图 C.3 (原创性) 和图 C.4 (创造力) 中，我们看到了同样的模式: 对于 AI 生成的内容，“披露”柱 (红色) 始终低于“未披露”柱 (青色) 。读者似乎认为，如果 AI 起草了文本，人类作者就不能声称该作品是“原创”或“有创意”的，即使最终输出读起来很棒。

谁是最严厉的评判者？

并非所有读者对 AI 披露的反应都相同。研究确定了评分者的两个关键特征，这些特征调节了他们的偏见: 写作自信心和 ChatGPT 熟悉度 。

自信作家的偏见

那些自认为自信的作家对 AI 辅助的批评要严厉得多。

图 3: 在对自己写作技能有高自信与低自信的评分者中，文章总体质量评分在“披露”与“未披露”处理下的平均差异。

图 3 显示了评分的“差异” (披露减去未披露) 。负值意味着披露损害了分数。

紫色柱 (高自信) : 这些评分者对 AI 生成进行了显著惩罚 (巨大的负值柱) 。
深蓝色柱 (低自信) : 这些评分者几乎没有改变他们的分数。

这表明，那些以自己的写作技巧为豪的人可能将 AI 辅助视为“作弊”或捷径，从而导致更严厉的惩罚。

熟悉度悖论

有趣的是，对 ChatGPT 的熟悉度表现出了不同的模式，尤其是在议论文方面。

图 4: 在对 ChatGPT 熟悉度高与低的评分者中，文章总体质量评分在“披露”与“未披露”处理下的平均差异。

在图 4 (图表 a，议论文) 中, 低熟悉度组 (深蓝色) 实际上比高熟悉度组对 AI 生成的论文惩罚更多。这可能源于那些不使用该技术的人的恐惧或怀疑。然而，对于创意故事 (图表 b) ，两组都实施了惩罚，高熟悉度用户在 AI 编辑方面甚至稍微更严厉一些。

后果: 雇佣与排名

这项研究最实际的影响在于它如何影响“排名”。在零工经济或学术招生中，我们通常关心“前 10%”。披露 AI 使用情况会将你踢出顶层梯队吗？

图 5: 在排名前列的文章中，各写作模式所占的百分比。

图 5 (图表 a) 揭示了 议论文 的一个令人担忧的趋势。

绿色条纹部分 代表顶层梯队 (前 10% 到 50%) 中的 AI 生成论文。
当披露 AI 使用情况时 (每对中的右侧柱) ，与 未披露 (左侧柱) 情况相比，绿色部分急剧收缩。

这意味着对于议论文写作，披露你使用 AI 起草内容会显著降低你被评为表现最佳者的机会。有趣的是，图表 (b) 显示这种效应在创意故事中弱得多，这可能是因为 AI 生成的故事一开始的评分就略低，所以即使在披露之前，它们在“前 10%”中的占比就不高。

作者归属感

最后，研究人员提出了一个根本性的问题: 当 AI 提供帮助时，我们还会把功劳归于人类吗？

图 G.1: 比较人们在“未披露”和“披露”处理下将写作归属给人类作者的情况。

图 G.1 显示了这种心理转变。当披露 AI 生成时 (最右侧的柱子) ，感知到的作者身份得分降至 3.0 以下。这表明读者不再将人类视为文本的主要“创造者”或“所有者”，即使人类指导了 AI 并定稿了草稿。

结论与启示

这项研究强调了现代写作工作流程中的一个重大张力。一方面，AI 工具 (特别是用于内容生成) 可以帮助高效地生成高质量的作品——当读者不知道来源时，这些作品通常获得高评价。另一方面, 透明度是有代价的。

当作者披露他们利用 AI 进行起草时，他们面临:

更低的质量评分: 读者会降低评价，这可能是由于对“低努力”的偏见。
作者身份的丧失: 读者犹豫是否将作品归功于人类。
不可预测性: 评估的方差增加，使得成功取决于审核者的具体偏见。
竞争劣势: 当强制披露时，AI 辅助的作品出现在“排名靠前”列表中的可能性降低。

这对未来意味着什么？

对于平台和政策制定者来说，这表明强制性披露标签 (例如“由 AI 撰写”) 起到了“警示标签”的作用，从根本上改变了用户的认知。如果我们想在不惩罚作者的情况下鼓励道德披露，我们可能需要重新思考如何评估写作。

对于学生和专业人士来说，结论是谨慎的。虽然 AI 可以提高草稿的客观质量，但该草稿的社会评价是脆弱的。随着我们的前进，社会将需要决定: 我们更在乎最终产品，还是生产它所需的人类辛勤付出？数据表明，目前我们仍然深切重视人类的触感。

引言#

背景: 人机共创范式#

第一阶段: 创建样本#

写作任务#

写作模式#

第二阶段: 披露实验#

核心结果: 披露的代价#

1. 对感知质量的影响#

2. 方差问题: 不确定性增加#

3. 对创造力和原创性的影响#

谁是最严厉的评判者？#

自信作家的偏见#

熟悉度悖论#

后果: 雇佣与排名#

作者归属感#

结论与启示#

这对未来意味着什么？#

引言