AI 真的具有创造力吗？“集体评论家”如何教会大语言模型写出更好的故事

如果你曾经让 ChatGPT 或 Llama 写过故事，你可能会遇到一个特定的问题。输出的内容通常很连贯；语法完美，事件顺序合理，角色也按部就班地行动。但它往往……很无聊。它缺乏让这人类作品引人入胜的火花、巧妙的转折或生动的意象。

在自然语言处理 (NLP) 领域，这是一个已知的权衡。我们在连贯性 (逻辑和流畅度) 方面已经做得很好，但在创造力 (新颖性、惊喜感和情感共鸣) 方面仍然举步维艰。

一篇题为 《Collective Critics for Creative Story Generation》 (面向创意故事生成的集体评论家) 的精彩论文提出了一种受人类作家工作方式启发的解决方案: 协作。研究人员引入了一个名为 CRITICS 的框架。与其让一个模型从头到尾写一个故事，他们建立了一个数字化的“编剧室”，让不同的 AI 智能体扮演特定的角色——评论家、领导者和评估者——以此来迭代地完善情节和行文。

在这篇深度文章中，我们将探讨 CRITICS 是如何工作的，为什么“角色 (Personas) ”是 AI 创造力的秘诀，以及这个框架将如何改变人类和机器共同创作小说的方式。

问题所在: 连贯性与创造力的博弈

要理解为什么 CRITICS 是必要的，我们首先需要看看长篇故事生成技术是如何演变的。早期的 AI 故事创作尝试甚至难以让故事在几个句子之后保持通顺。角色的名字会变，或者死去角色的会突然复活。

最近的进步，特别是分层生成 (先规划后写作) ，解决了连贯性问题。像 DOC 管道这样的框架通过首先生成高层计划 (大纲) ，然后填充细节来工作。这保持了逻辑的严密性。

然而，这些框架通常优先考虑安全性和可预测性。它们优化的是最可能的下一个词，这在数学上是创造力的反面。一个有创意的故事通常需要走一条低概率的路径——一个意想不到的情节转折或一个奇怪、独特的隐喻。现有的模型往往会产生遵循标准套路的“平淡无奇”的故事，而没有任何新意。

CRITICS 框架试图通过引入修订机制来注入缺失的创造力。它不仅仅是生成；它还会批评、争论和改进。

解决方案: CRITICS 框架

CRITICS 的核心理念是写作即改写 。该框架分为两个明显的阶段:

CRPLAN: 规划阶段。在这里，AI 完善故事大纲，使情节更具原创性，结局更令人惊讶。
CRTEXT: 写作阶段。在这里，AI 完善具体的句子，以提升“声音” (风格) 和“意象” (感官细节) 。

让我们看看这个系统的高层架构。

CRITICS 框架架构图，展示了 CRPLAN 和 CRTEXT 阶段的工作流程。

如图 1 所示，这个过程是循环的。它不是直线移动，而是循环往复。在 CRPLAN (上半部分) 中，系统生成初始计划，将其交给一组评论家，选择最佳反馈，并完善计划。这会在多轮中发生。一旦计划最终确定，它就会进入 CRTEXT (下半部分) ，在那里，特定的对话或描述行会使用类似的基于评论的循环进行润色。

第一阶段: CRPLAN (完善情节)

规划阶段是定义叙事弧线的地方。这里的目标是远离陈词滥调。

集体评论家 (The Collective Critics)

在标准的大语言模型 (LLM) 方法中，你可能会要求模型“让这个故事更有创意”。结果通常很模糊。CRITICS 通过雇佣集体评论家解决了这个问题。

三个不同的 AI 评论家根据具体的创造力标准审查大纲草案:

原创主题/背景: 世界观构建是否独特？
不寻常的故事结构: 是否在时间线或视角上玩出了花样？
不寻常的结局: 结局是否既令人惊讶又令人满意？

研究人员发现，使用多种标准比使用单一、通用的指令能产生更丰富的故事。

对比表展示了单一标准评论与三标准评论在故事规划中的差异。

在上方的表 5 中，你可以看到这种差异。 单一标准评论 (左侧) 建议了一个微小的主题变化——关注“道德困境”。这还不错，但在标准范围内。

然而, 三标准评论 (右侧) 完全重构了叙事。它引入了倒叙结构 , 在确立主角当前的成功之后才揭示他的过去。这增加了时间线的复杂性和角色发展的深度。这是标准 LLM 很少会主动采取的结构性飞跃。

角色 (Personas) 的力量

CRPLAN 最具创新性的方面之一是使用自适应角色 。如果你让一个通用的 AI “评论这个故事”，它会给出通用的建议。但是，如果你问一位“社会学家”或“心理学家”呢？

在 CRITICS 中，系统会分析故事草案并动态地为评论家分配角色。

如果故事是关于反乌托邦未来的，一位评论家可能会变成专注于社会动态的社会学家 。
另一位可能是检查技术合理性的未来学家 。
第三位可能是分析主角情绪状态的心理学家 。

柱状图比较了有角色评论家与无角色评论家的胜率。

角色的影响在统计上是显著的。如图 2 所示，带有角色的评论家 (左侧) 在三个关键指标上始终优于没有角色的评论家 (右侧) : 趣味性、连贯性和创造力。

为什么会这样？因为具体性 。一位“心理学家”评论家不会只说“让他更悲伤”。他们可能会说，“主角对创伤的反应太直接了；为了让心理弧线更真实，他应该先表现出否认。” 这种具体的指导有助于模型生成更好的修订版。

领导者 (Leader) 与评估者 (Evaluator)

有三个评论家大声提出建议，谁来决定改变什么？如果你试图同时采纳所有人的反馈，故事就会变得一团糟。

CRITICS 引入了一个领导者模块。领导者就像首席编剧或编辑。它审查三个评论家的建议，选择那个最能平衡创造力和逻辑的建议，并舍弃其他的。

最后，由于这个过程发生在多轮 (迭代) 中，一个评估者会查看第一轮、第二轮和第三轮产生的计划，并挑选出绝对最好的版本发送到写作阶段。

第二阶段: CRTEXT (润色行文)

一旦情节稳固，系统就需要撰写实际的故事。这就是 CRTEXT 阶段。

虽然 CRPLAN 关注宏观 (情节) ，但 CRTEXT 关注微观 (句子) 。这一阶段的评论家不使用角色，因为目标更具技术性。他们专注于源自创意写作理论的两个指标:

意象 (Image) : 描述的生动程度。它是否唤起了视觉、听觉、嗅觉或触觉？
声音 (Voice) : 写作风格的独特性。它听起来像是一份通用的报告，还是有个性？

对比表比较了初始文本与润色后的文本，展示了表现力的增强。

看看表 2 中的例子。

初始文本: “Jonathan raised an eyebrow.” (乔纳森挑起了一边眉毛。)
润色文本: “Jonathan arched an incredulous eyebrow.” (乔纳森弓起了一边充满怀疑的眉毛。)

这是一个很小的改动，但它做了两件事。它使用了一个更具体的动词 (“arched” 对比 “raised”) 并添加了一个形容词 (“incredulous”) ，传达了角色的情感和意图。当应用到一篇 2000 字的故事中时，这些微小的改进累积起来，会创造出更具吸引力的阅读体验。

创造力与连贯性的权衡

AI 生成中最困难的挑战之一是知道何时停止。如果你一直要求 AI “让它更有创意”，它最终会开始胡言乱语。

研究人员分析了修订轮数如何影响故事质量。

折线图显示了随着修订轮数的增加，创造力与连贯性之间的权衡。

图 3 揭示了一条经典的优化曲线。

深蓝线 (创造力) : 随着轮数的推进 (x 轴) ，创造力通常会增加。故事变得更加狂野和独特。
浅蓝线 (连贯性) : 然而，连贯性在几轮后急剧下降。

这个数据告诉我们，无限循环的评论是危险的。最佳点似乎是在 2 到 3 轮左右。超过这个范围，评论家可能会建议与故事早期部分相矛盾的更改，从而破坏叙事逻辑。这就是为什么 CRPLAN 中的评估者角色如此关键——它可以停止流程并说: “第二轮实际上比第五轮好，我们选那个。”

人机协作

虽然 CRITICS 设计为自动运行，但它最令人兴奋的意义之一是交互式写作 。因为该框架是模块化的 (评论家 -> 领导者 -> 修订) ，人类可以介入其中的任何角色。

人类作为评论家: 你可以让 AI 生成情节，但由你提供关于修改内容的具体反馈。
人类作为领导者: 你可以让 AI 生成三种不同的评论选项，由你选择故事应该走向哪条路径。

图表展示了人机交互式写作的工作流程。

图 4 描绘了这种互动。用户创建一个前提 (例如，“一个骑滑板的骷髅宝宝”) 。系统生成草稿。然后，用户可以在“评论计划”或“评论文本”阶段进行干预。

研究人员构建了一个网络应用程序来测试这一点。它允许用户并排查看生成的文本和 AI 提出的评论。

用于交互式故事生成的网络应用程序截图。

在图 5 所示的界面中，用户可以在左侧看到评论，在右侧看到故事草稿。他们可以选择特定的反馈建议或编写自己的建议。

这行得通吗？

研究人员进行了一项用户体验实验，看看这种“人机回环 (Human-in-the-Loop) ”方法是否真的有帮助。

表格显示了用户实验中编辑和接受故事的通过率。

表 8 显示了结果。 “已编辑 (Edited) ” 的通过率是 100%，这意味着每当给出评论时，系统都能成功更改故事。然而, “已接受 (Accepted) ” 率为 83.33%。这意味着在绝大多数情况下，人类用户觉得 AI 的修订符合他们的愿景。对于一个创意工具来说，这是一个很高的成功率，表明 CRITICS 是一个可行的联合写作伙伴，而不仅仅是一个随机文本生成器。

关键要点与未来启示

CRITICS 框架代表了让大语言模型真正具有“创造力”的重要一步。通过将写作过程分解为规划和起草，然后对这些步骤进行严格的、基于角色的批评，该系统迫使 LLM 走出其舒适区。

我们可以从这项研究中学到什么:

意见的多样性很重要: 就像真正的编剧室一样，当 AI 从多个角度 (社会学家、心理学家、未来学家) 而不是单一的通用视角看待问题时，它能产出更好的作品。
冲突驱动质量: 不同创造力标准 (原创性与结构) 之间的张力，以及对“领导者”解决这些冲突的需求，有助于产生平衡的叙事。
具体优于笼统: 指示 AI 改进“声音”和“意象”比要求它“写得更好”能产生更好的散文。
人类角色正在转变: 随着这些框架的发展，人类的角色从“作家”转变为“创意总监”——选择前提，挑选最佳评论，并引导 AI 在连贯性和创造力之间进行权衡。

CRITICS 告诉我们，创造力不一定是某种神奇的火花；它是一个迭代、批评和完善的过程——一个机器正开始掌握的过程。

问题所在: 连贯性与创造力的博弈#

解决方案: CRITICS 框架#

第一阶段: CRPLAN (完善情节)#

集体评论家 (The Collective Critics)#

角色 (Personas) 的力量#

领导者 (Leader) 与评估者 (Evaluator)#

第二阶段: CRTEXT (润色行文)#

创造力与连贯性的权衡#

人机协作#

这行得通吗？#

关键要点与未来启示#