在人工智能的历史长河中,我们通过细数那些被击败的人类冠军来标记进步的刻度。我们记得深蓝 (Deep Blue) 在国际象棋上击败加里·卡斯帕罗夫 (Garry Kasparov) 。我们记得 AlphaGo 震惊了李世石 (Lee Sedol) 。这些都是关键时刻,机器证明了它们能在逻辑和策略的封闭系统中超越最强的人类大脑。
但艺术并非一个封闭系统。
多年来,我们一直自我安慰: 机器处理数据,而人类创造意义。然而,随着像 GPT-4 这样的大型语言模型 (LLM) 的兴起,一个令人不安的问题浮出水面: 我们是否也在失去创造力的前沿阵地?我们知道 AI 可以写出合格的邮件和过得去的高中作文。我们知道它可以胜过普通人类作者。
但它能挑战大师吗?
一篇题为 Pron vs Prompt 的引人入胜的研究论文严肃对待了这个问题。研究人员没有将 AI 与众包工人或业余作家进行比较,而是安排了一场重量级对决: GPT-4 Turbo (当时的卫冕冠军 LLM) 对阵 Patricio Pron , 一位获奖小说家,被公认为同代人中的佼佼者。
这并非一次随意的测试。这是一场由文学评论家评估的、严谨且科学控制的决斗。在这篇文章中,我们将详细拆解这项实验是如何设计的,当“完美”的统计机器遇到小说大师时发生了什么,以及这些结果告诉了我们关于创造力未来的什么信息。
“平均水平”的问题
要理解这篇论文为何如此重要,我们首先需要审视以往研究的缺陷。大多数评估 AI 创造力的研究都将模型的输出与“普通人”进行比较。
如果你将 GPT-4 与随机抽样的一群人进行比较并要求写故事,GPT-4 很可能会赢。它拥有完美的语法、海量的词汇和无可挑剔的结构。但这门槛太低了。在国际象棋界,我们不会拿深蓝去测试公园里的业余棋手;我们会让它对阵特级大师。
这篇论文的作者认为,要真正评估 AI 的创造潜力,我们必须让最强的 AI 与最强的人类对决。
参赛选手:
- 机器: GPT-4 Turbo (
gpt-4-0125-preview),温度 (temperature) 设为 1,以在保持连贯性的同时最大化创造力。 - 人类: Patricio Pron,一位杰出的西班牙语作家,Alfaguara 奖得主,并被 Granta 杂志评为西班牙语顶级青年作家之一。
设定: 标题与梗概的游戏
研究人员设计了一个对称实验以确保公平。仅仅说“写个故事”是不够的。他们需要控制故事的火花——即提示词 (Prompt) 。
比赛流程如下:
- 标题生成: Patricio Pron 和 GPT-4 各被要求生成 30 个虚构电影标题 。
- 交叉写作任务: 这是巧妙的部分。两位选手必须为全部 60 个标题撰写 600 字的梗概 (Synopsis) 。
- Pron 为他自己的 30 个标题和 GPT-4 的 30 个标题撰写梗概。
- GPT-4 为它自己的 30 个标题和 Pron 的 30 个标题撰写梗概。
- 语言变体: 为了测试语言能力,GPT-4 分别用西班牙语 (Pron 的母语) 和英语执行了任务。Pron 仅用西班牙语写作。
这产生了一个在相同约束条件下生成的大型文本语料库。给 GPT-4 的提示词并不是复杂的“提示工程”脚本,而是反映了对人类作者要求的简单指令: 写一个有创意、吸引人且具有文学价值的梗概。
衡量不可衡量之物: 如何为艺术打分?
你不能像计算将死那样计算故事的质量。为了解决这个问题,研究人员采用了 Margaret Boden 的创造力定义。
Boden 是一位传奇的认知科学家,她认为要使某样东西具有创造性,它必须具备三点:
- 新颖 (New) : 它必须是新奇的。
- 惊奇 (Surprising) : 它必须出乎意料。
- 有价值 (Valuable) : 它必须对受众有吸引力或有用。
研究人员将这一理论转化为评审团 (由文学评论家和学者组成) 的评分量表。他们不只是问“这好吗?”,而是针对以下特定问题进行 0 到 3 分的评分:
- 吸引力 (Attractiveness) : 风格是否令人愉快?情节是否引人入胜?
- 原创性 (Originality) : 文本是否独特?是否避免了陈词滥调?
- 文集收录潜力 (Anthology Potential) : 你会将此文收录进出版的选集中吗?
- 个人风格 (Own Voice) : 作者是否有可识别的风格?
RQ1: 主赛事——谁赢了?
决斗的结果非常鲜明。在专家的评估下,人类大师完全碾压了机器。
下面是一张总结分数的交互热力图。深蓝色表示获得该分数的文本百分比较高。请看“Patricio Pron”一栏与“GPT-4”各栏之间的差异。

解读数据:
- 0-1 分陷阱: 看看 GPT-4 的列 (英语和西班牙语) 。它的大部分分数集中在 0 和 1 分。专家们认为 AI 的文本是“公式化的”、“传统的”,且缺乏深度吸引力。
- 2-3 分的卓越: 现在看看 Patricio Pron 的一栏 (c)。他的分数高度集中在 2 和 3 分。
- “创造力”差距: Pron 的平均创造力得分为 1.94 。 GPT-4 的英语得分为 0.76 , 西班牙语得分为 0.94 。 人类的创造力大约是机器的两倍。
- 原创性: 这是最惨烈的溃败。GPT-4 的“风格原创性”得分极低 (西班牙语为 0.36) 。专家们基本上认为 AI 的写作风格只是陈词滥调的堆砌,毫无独特的个人声音。
第一个研究问题的结论很明确: 不,目前的生成式 AI 还无法与享有盛誉的人类作家竞争。 AI 能够生成干净、连贯的文本,但它缺乏大师那种意图性、颠覆性和风格深度。
RQ2: Pron vs. Prompt 中的“Prompt”
这项研究最有趣的发现之一不在于谁写了正文,而在于谁写了标题。
请记住,两位选手都要根据对方的标题写故事。研究人员想知道: 一个极具创意的高质量提示词 (由人类小说家撰写的标题) 能帮助 AI 写得更好吗?
答案是响亮的肯定。

雷达图分析: 上图显示了标题的来源如何影响最终文本的质量。
- 蓝线: GPT-4 根据自己的标题写作。这是基准表现,也是图表面积最小的形状 (质量最低) 。
- 橙线: GPT-4 根据 Pron 的标题写作。注意形状是如何向外扩展的。
- 红线: Pron 根据 Pron 的标题写作。这是黄金标准。
当 GPT-4 被迫使用 Patricio Pron 提供的富有创意、不寻常的标题时,它在几乎所有指标上的表现都有显著提升。统计测试显示,在风格原创性和文集收录潜力方面有显著飞跃。
这为什么重要? 这表明“共同创作” (Co-Creation) 比 AI 自主写作是一条更可行的道路。AI 是一台概率机器;如果让它自己发挥,它会趋向平庸 (即陈词滥调) 。但是,当人类提供一个高熵、创造性的约束 (一个独特的标题) 时,AI 就被迫走出舒适区,产出更好的作品。
有趣的是,反之则不然。当 Patricio Pron 不得不根据 GPT-4 无聊、老套的标题写故事时,他的表现并没有下降。事实上,他的得分往往更高。正如他告诉研究人员的那样,他非常不喜欢 AI 的标题,以至于他试图将它们带向“完全不同的方向”,利用陈词滥调作为一种约束来进行反抗。
RQ3: 语言差距
我们通常假设,因为 LLM 是在整个互联网上训练的,所以它们在主要语言上的表现同样出色。研究证明这是错误的。
研究人员比较了 GPT-4 在英语和西班牙语上的表现。西班牙语是世界上第三大语言,资源丰富,但 AI 在其中的表现却明显更差。

上表显示了差距的统计显著性。几乎在每个风格类别——风格吸引力、风格原创性、创造力和个人风格——AI 在英语中的表现都显著更好 (“Significant”列中的“Yes”表明了这一点) 。

注: 请关注上图上半部分的条形图。
该图表直观地展示了人类与 AI 之间的“差距”。负分表示 AI 比人类差。
- 浅蓝条 (西班牙语) : 负值条更深。AI 在西班牙语方面比 Pron 差得多。
- 红条 (英语) : AI 仍然比 Pron 差 (条形图仍为负值) ,但差距较小。
这突显了当前 AI 模型中的偏见: 它们是以盎格鲁 (英语) 为中心的。如果你是一位西班牙语创意作家,相比你的英语同行,AI 对你的威胁更小。
RQ4: 图灵测试——专家能识别出机器人吗?
如果你阅读 60 个混合了人类和机器撰写的梗概,你能分辨出哪个是哪个吗?
在评估开始时,评论家们的猜测能力一般,但也并不完美。然而,随着他们阅读量的增加,有趣的事情发生了。他们开始学习了。
请看上图 (Figure 4) 下半部分的折线图。
蓝线代表识别 AI 文本的准确率。注意那条上升的曲线。随着评估者从第 1 篇读到第 60 篇,他们发现 GPT-4 的能力在提高。
这表明 GPT-4 有个“破绽”。它有一种特定的风格——可能是情感的平淡、某种套路的倾向,或是一种特定的节奏——这种风格在长时间接触后变得可识别。它不像一个有自己声音的人那样写作;它像一台最大化概率的机器那样写作。
RQ5: 验证创造力的定义
最后,研究人员想要验证他们的计算方法。他们利用 Boden 的理论 (创造力 = 新颖 + 惊奇 + 价值) 构建了评分标准。但是,评委们对“创造力”的直觉感知是否真的与这些指标一致呢?

上面的相关性表格证实了这一理论。 原创性、吸引力与整体创造力得分之间存在很强的统计相关性 (值高于 0.7) 。

这些散点图在视觉上证实了数据。沿对角线分布的密集点群表明,当一篇文章在“吸引力”或“原创性”方面得分较高时,它的“创造力”得分几乎总是很高的。
这一点很重要,因为它验证了评分标准的有效性。Patricio Pron 得分更高并不仅仅是因为主观偏好;他得分更高是因为他提供了更多的原创性 (新颖/惊奇) 和吸引力 (价值) ,这正是创造力的基石。
结论: 陈词滥调 vs. 意图
这篇论文为“AI 正在接管艺术”的说法提供了一个清醒的现实检验。当你剥去炒作,让机器与真正的大师对决时,差异是显而易见的。
作者的结论是,LLM 目前是“陈词滥调制造机”。它们通过预测最可能的下一个词来工作。然而,在创意写作中,最可能的词往往是最缺乏创意的。伟大的作家做出的选择是低概率但高意义的。他们颠覆期望。他们有意打破规则。
相比之下,GPT-4 磨平了棱角。它生成的内容连贯性高,但缺乏“灵魂”或“声音”。
给学生的主要启示:
- 不要满足于“平庸”: AI 能战胜平均水平,但它无法触及卓越。如果你想在创意时代生存,你必须磨练独特的个人风格。
- 提示词即合著者: 机器的创造力取决于你给它的约束。将 AI 用于头脑风暴 (像 Pron 的标题那样) 是强大的;用它来替你干活只会导致平庸。
- 语言很重要: 我们必须意识到这些工具中存在的英语中心偏见。
- 模式识别: AI 有一种“风格”,一旦你看到它,就无法忽视它。
Pron 与 Prompt 之间的决斗并非平局。人类赢了。但机器甚至能够站上擂台这一事实——以及它在人类引导下有所进步的事实——表明,写作的未来可能不是替代,而是协作。只要确保写标题的那个人是你。
](https://deep-paper.org/en/paper/2407.01119/images/cover.png)