人机大战：GPT-4 与世界级小说家之间的首次真正创意写作对决

在人工智能的历史长河中，我们通过细数那些被击败的人类冠军来标记进步的刻度。我们记得深蓝 (Deep Blue) 在国际象棋上击败加里·卡斯帕罗夫 (Garry Kasparov) 。我们记得 AlphaGo 震惊了李世石 (Lee Sedol) 。这些都是关键时刻，机器证明了它们能在逻辑和策略的封闭系统中超越最强的人类大脑。

但艺术并非一个封闭系统。

多年来，我们一直自我安慰: 机器处理数据，而人类创造意义。然而，随着像 GPT-4 这样的大型语言模型 (LLM) 的兴起，一个令人不安的问题浮出水面: 我们是否也在失去创造力的前沿阵地？我们知道 AI 可以写出合格的邮件和过得去的高中作文。我们知道它可以胜过普通人类作者。

但它能挑战大师吗？

一篇题为 Pron vs Prompt 的引人入胜的研究论文严肃对待了这个问题。研究人员没有将 AI 与众包工人或业余作家进行比较，而是安排了一场重量级对决: GPT-4 Turbo (当时的卫冕冠军 LLM) 对阵 Patricio Pron , 一位获奖小说家，被公认为同代人中的佼佼者。

这并非一次随意的测试。这是一场由文学评论家评估的、严谨且科学控制的决斗。在这篇文章中，我们将详细拆解这项实验是如何设计的，当“完美”的统计机器遇到小说大师时发生了什么，以及这些结果告诉了我们关于创造力未来的什么信息。

“平均水平”的问题

要理解这篇论文为何如此重要，我们首先需要审视以往研究的缺陷。大多数评估 AI 创造力的研究都将模型的输出与“普通人”进行比较。

如果你将 GPT-4 与随机抽样的一群人进行比较并要求写故事，GPT-4 很可能会赢。它拥有完美的语法、海量的词汇和无可挑剔的结构。但这门槛太低了。在国际象棋界，我们不会拿深蓝去测试公园里的业余棋手；我们会让它对阵特级大师。

这篇论文的作者认为，要真正评估 AI 的创造潜力，我们必须让最强的 AI 与最强的人类对决。

参赛选手:

机器: GPT-4 Turbo (gpt-4-0125-preview)，温度 (temperature) 设为 1，以在保持连贯性的同时最大化创造力。
人类: Patricio Pron，一位杰出的西班牙语作家，Alfaguara 奖得主，并被 Granta 杂志评为西班牙语顶级青年作家之一。

设定: 标题与梗概的游戏

研究人员设计了一个对称实验以确保公平。仅仅说“写个故事”是不够的。他们需要控制故事的火花——即提示词 (Prompt) 。

比赛流程如下:

标题生成: Patricio Pron 和 GPT-4 各被要求生成 30 个虚构电影标题 。
交叉写作任务: 这是巧妙的部分。两位选手必须为全部 60 个标题撰写 600 字的梗概 (Synopsis) 。

Pron 为他自己的 30 个标题和 GPT-4 的 30 个标题撰写梗概。
GPT-4 为它自己的 30 个标题和 Pron 的 30 个标题撰写梗概。

语言变体: 为了测试语言能力，GPT-4 分别用西班牙语 (Pron 的母语) 和英语执行了任务。Pron 仅用西班牙语写作。

这产生了一个在相同约束条件下生成的大型文本语料库。给 GPT-4 的提示词并不是复杂的“提示工程”脚本，而是反映了对人类作者要求的简单指令: 写一个有创意、吸引人且具有文学价值的梗概。

衡量不可衡量之物: 如何为艺术打分？

你不能像计算将死那样计算故事的质量。为了解决这个问题，研究人员采用了 Margaret Boden 的创造力定义。

Boden 是一位传奇的认知科学家，她认为要使某样东西具有创造性，它必须具备三点:

新颖 (New) : 它必须是新奇的。
惊奇 (Surprising) : 它必须出乎意料。
有价值 (Valuable) : 它必须对受众有吸引力或有用。

研究人员将这一理论转化为评审团 (由文学评论家和学者组成) 的评分量表。他们不只是问“这好吗？”，而是针对以下特定问题进行 0 到 3 分的评分:

吸引力 (Attractiveness) : 风格是否令人愉快？情节是否引人入胜？
原创性 (Originality) : 文本是否独特？是否避免了陈词滥调？
文集收录潜力 (Anthology Potential) : 你会将此文收录进出版的选集中吗？
个人风格 (Own Voice) : 作者是否有可识别的风格？

RQ1: 主赛事——谁赢了？

决斗的结果非常鲜明。在专家的评估下，人类大师完全碾压了机器。

下面是一张总结分数的交互热力图。深蓝色表示获得该分数的文本百分比较高。请看“Patricio Pron”一栏与“GPT-4”各栏之间的差异。

Figure 1: Summary of expert assessments for each writer

解读数据:

0-1 分陷阱: 看看 GPT-4 的列 (英语和西班牙语) 。它的大部分分数集中在 0 和 1 分。专家们认为 AI 的文本是“公式化的”、“传统的”，且缺乏深度吸引力。
2-3 分的卓越: 现在看看 Patricio Pron 的一栏 (c)。他的分数高度集中在 2 和 3 分。
“创造力”差距: Pron 的平均创造力得分为 1.94 。 GPT-4 的英语得分为 0.76 , 西班牙语得分为 0.94 。人类的创造力大约是机器的两倍。
原创性: 这是最惨烈的溃败。GPT-4 的“风格原创性”得分极低 (西班牙语为 0.36) 。专家们基本上认为 AI 的写作风格只是陈词滥调的堆砌，毫无独特的个人声音。

第一个研究问题的结论很明确: 不，目前的生成式 AI 还无法与享有盛誉的人类作家竞争。 AI 能够生成干净、连贯的文本，但它缺乏大师那种意图性、颠覆性和风格深度。

RQ2: Pron vs. Prompt 中的“Prompt”

这项研究最有趣的发现之一不在于谁写了正文，而在于谁写了标题。

请记住，两位选手都要根据对方的标题写故事。研究人员想知道: 一个极具创意的高质量提示词 (由人类小说家撰写的标题) 能帮助 AI 写得更好吗？

答案是响亮的肯定。

Comparison of the impact of using Pron’s titles versus GPT4 titles on the text quality.

雷达图分析: 上图显示了标题的来源如何影响最终文本的质量。

蓝线: GPT-4 根据自己的标题写作。这是基准表现，也是图表面积最小的形状 (质量最低) 。
橙线: GPT-4 根据 Pron 的标题写作。注意形状是如何向外扩展的。
红线: Pron 根据 Pron 的标题写作。这是黄金标准。

当 GPT-4 被迫使用 Patricio Pron 提供的富有创意、不寻常的标题时，它在几乎所有指标上的表现都有显著提升。统计测试显示，在风格原创性和文集收录潜力方面有显著飞跃。

这为什么重要? 这表明“共同创作” (Co-Creation) 比 AI 自主写作是一条更可行的道路。AI 是一台概率机器；如果让它自己发挥，它会趋向平庸 (即陈词滥调) 。但是，当人类提供一个高熵、创造性的约束 (一个独特的标题) 时，AI 就被迫走出舒适区，产出更好的作品。

有趣的是，反之则不然。当 Patricio Pron 不得不根据 GPT-4 无聊、老套的标题写故事时，他的表现并没有下降。事实上，他的得分往往更高。正如他告诉研究人员的那样，他非常不喜欢 AI 的标题，以至于他试图将它们带向“完全不同的方向”，利用陈词滥调作为一种约束来进行反抗。

RQ3: 语言差距

我们通常假设，因为 LLM 是在整个互联网上训练的，所以它们在主要语言上的表现同样出色。研究证明这是错误的。

研究人员比较了 GPT-4 在英语和西班牙语上的表现。西班牙语是世界上第三大语言，资源丰富，但 AI 在其中的表现却明显更差。

Table 1: Paired statistical test results for attribute differences between English and Spanish

上表显示了差距的统计显著性。几乎在每个风格类别——风格吸引力、风格原创性、创造力和个人风格——AI 在英语中的表现都显著更好 (“Significant”列中的“Yes”表明了这一点) 。

Means of Differences (GPT-4 - Pron) Figure 3: GPT-4 performance differences with Pron in English and Spanish

注: 请关注上图上半部分的条形图。

该图表直观地展示了人类与 AI 之间的“差距”。负分表示 AI 比人类差。

浅蓝条 (西班牙语) : 负值条更深。AI 在西班牙语方面比 Pron 差得多。
红条 (英语) : AI 仍然比 Pron 差 (条形图仍为负值) ，但差距较小。

这突显了当前 AI 模型中的偏见: 它们是以盎格鲁 (英语) 为中心的。如果你是一位西班牙语创意作家，相比你的英语同行，AI 对你的威胁更小。

RQ4: 图灵测试——专家能识别出机器人吗？

如果你阅读 60 个混合了人类和机器撰写的梗概，你能分辨出哪个是哪个吗？

在评估开始时，评论家们的猜测能力一般，但也并不完美。然而，随着他们阅读量的增加，有趣的事情发生了。他们开始学习了。

请看上图 (Figure 4) 下半部分的折线图。

蓝线代表识别 AI 文本的准确率。注意那条上升的曲线。随着评估者从第 1 篇读到第 60 篇，他们发现 GPT-4 的能力在提高。

这表明 GPT-4 有个“破绽”。它有一种特定的风格——可能是情感的平淡、某种套路的倾向，或是一种特定的节奏——这种风格在长时间接触后变得可识别。它不像一个有自己声音的人那样写作；它像一台最大化概率的机器那样写作。

RQ5: 验证创造力的定义

最后，研究人员想要验证他们的计算方法。他们利用 Boden 的理论 (创造力 = 新颖 + 惊奇 + 价值) 构建了评分标准。但是，评委们对“创造力”的直觉感知是否真的与这些指标一致呢？

Table 2: Spearman correlation for the dimensions of attractiveness, originality, and creativity.

上面的相关性表格证实了这一理论。 原创性、吸引力与整体创造力得分之间存在很强的统计相关性 (值高于 0.7) 。

Figure 5: Correlation plots for creativity versus attractiveness and originality.

这些散点图在视觉上证实了数据。沿对角线分布的密集点群表明，当一篇文章在“吸引力”或“原创性”方面得分较高时，它的“创造力”得分几乎总是很高的。

这一点很重要，因为它验证了评分标准的有效性。Patricio Pron 得分更高并不仅仅是因为主观偏好；他得分更高是因为他提供了更多的原创性 (新颖/惊奇) 和吸引力 (价值) ，这正是创造力的基石。

结论: 陈词滥调 vs. 意图

这篇论文为“AI 正在接管艺术”的说法提供了一个清醒的现实检验。当你剥去炒作，让机器与真正的大师对决时，差异是显而易见的。

作者的结论是，LLM 目前是“陈词滥调制造机”。它们通过预测最可能的下一个词来工作。然而，在创意写作中，最可能的词往往是最缺乏创意的。伟大的作家做出的选择是低概率但高意义的。他们颠覆期望。他们有意打破规则。

相比之下，GPT-4 磨平了棱角。它生成的内容连贯性高，但缺乏“灵魂”或“声音”。

给学生的主要启示:

不要满足于“平庸”: AI 能战胜平均水平，但它无法触及卓越。如果你想在创意时代生存，你必须磨练独特的个人风格。
提示词即合著者: 机器的创造力取决于你给它的约束。将 AI 用于头脑风暴 (像 Pron 的标题那样) 是强大的；用它来替你干活只会导致平庸。
语言很重要: 我们必须意识到这些工具中存在的英语中心偏见。
模式识别: AI 有一种“风格”，一旦你看到它，就无法忽视它。

Pron 与 Prompt 之间的决斗并非平局。人类赢了。但机器甚至能够站上擂台这一事实——以及它在人类引导下有所进步的事实——表明，写作的未来可能不是替代，而是协作。只要确保写标题的那个人是你。

“平均水平”的问题#

设定: 标题与梗概的游戏#

衡量不可衡量之物: 如何为艺术打分？#

RQ1: 主赛事——谁赢了？#

RQ2: Pron vs. Prompt 中的“Prompt”#

RQ3: 语言差距#

RQ4: 图灵测试——专家能识别出机器人吗？#

RQ5: 验证创造力的定义#

结论: 陈词滥调 vs. 意图#