超越图灵测试：AI 诗歌是真的富有创意，还是仅仅在机械重复？

人工智能已经攻占了创意的堡垒。从 DALL-E 生成超现实主义艺术画作，到 ChatGPT 撰写十四行诗，人类与机器创意之间的界限变得愈发模糊。但是，当你要求一个大型语言模型 (LLM) 写一首诗时，它真的在进行创造吗？或者它只是作为一个“随机鹦鹉 (stochastic parrot) ”，在重新排列它在训练中学到的诗句？

多年来，评估 AI 艺术的黄金标准一直是图灵测试 : 人类能否分辨出这首诗是由机器写的？如果答案是“不能”，我们就认为模型是成功的。

然而，一篇名为*《Evaluating Diversity in Automatic Poetry Generation》 (评估自动诗歌生成中的多样性) *的新研究论文指出，这一指标存在严重的缺陷。一个模型可能仅仅通过抄袭现存的人类诗歌，或者通过生成看似“像人”但缺乏原创性的安全、通用的诗句来通过图灵测试。

在这篇文章中，我们将深入探讨这项研究，它提出了一种评判 AI 诗人的新方法: 多样性 (Diversity) 。我们将看看研究人员如何分析 36 种不同的模型——从像 LLaMA-3 这样的庞大 LLM 到专门的诗歌系统——以观察它们是否能在结构、词汇和语义的多样性上真正匹敌人类的创造力。

“好”诗的问题

想象一位诗人，他写的十四行诗在技术上完美无缺，但每一首都是关于“红玫瑰”的，并且使用完全相同的押韵格式。从技术上讲，那是好诗。但在艺术上，这位诗人是无聊的。

这就是当前 AI 评估的陷阱。大多数研究侧重于质量 (语法、流畅度、意义) ，而忽视了多样性 (结构、词汇和主题的变化) 。

这篇论文背后的研究人员试图回答一个基本问题: AI 模型生成的诗歌是覆盖了人类创造力的全部“带宽”，还是坍缩成了一个狭窄、重复的范围?

为了回答这个问题，他们不再要求人类对单首诗歌进行评分。相反，他们进行了分布分析 。他们将数千首生成的诗歌的统计分布与数千首人类诗歌在四个关键维度上进行了比较:

记忆化 (Memorization) : 模型是在抄袭吗？
结构 (Structure) : 诗歌看起来对吗 (长度和格律) ？
押韵 (Rhyme) : 模型真的会押韵吗？它的韵律模式有变化吗？
词汇与语义 (Lexical & Semantic) : 词汇量丰富吗？主题多样吗？

参赛者: 模型与数据集

在看结果之前，我们需要了解谁参加了这场“诗歌大赛”。研究人员测试了大量模型，分为两大类:

诗歌专用模型: 这些是较旧的架构 (如 LSTM) ，明确设计有“押韵模块”和“格律模块”。例子包括 DeepSpeare 和 Structured Adversary (SA)。
通用 LLM: 这些是我们今天熟知的 Transformer 模型。研究涵盖了单词级模型 (GPT-2, GPT-Neo, LLaMA-2, LLaMA-3) 和字符级模型 (ByGPT5) 。

关键在于，LLM 在两种模式下进行了测试:

无条件 (Unconditioned) : 仅要求模型生成文本。
风格条件化 (Style-Conditioned) : 模型在训练时带有特殊标签 (如 <RHYME>) ，因此它知道自己应该写诗。

Table 2: Models used in this work. The ‘Smaller’ and ‘Larger’ columns display the sizes of the models considered.

如上方的表 2 所示，这项研究涵盖了英语 (EN) 和德语 (DE)，提供了强有力的跨语言分析。他们使用了一个名为 QuaTrain (四行诗) 和 SonNet (十四行诗) 的数据集进行训练和评估。

维度 1: 记忆化 (抄袭测试)

任何创意 AI 的第一个障碍是原创性。如果一个模型只是简单地反刍莎士比亚或歌德的诗句，那它在创造力上就失败了。

研究人员使用了 Ratcliff-Obershelp 相似度指标来捕捉抄袭行为。如果生成的四行诗与训练样本的相似度 ≥70%，就会被标记为已记忆 (抄袭) 。

发现: 出人意料的是, 记忆化并不是主要问题。 大多数模型在四行诗层面的记忆率几乎为零。然而，出现了一个规律:

更大的模型记忆更多。 更大的参数量 (如 LLaMA-2 13B) 允许模型比较小的模型存储更多具体的训练数据。
条件化有助于改善。 当模型被明确训练去遵循某种风格时，它们倾向于比仅仅在无提示下预测下一个词时抄袭得更少。

维度 2: 结构与长度

一首四行诗看起来应该像四行诗。它不应该只有两个词长，也不应该是一个段落。

为了衡量这一点，研究人员比较了生成诗歌与人类诗歌的长度分布 (Token 数量) 。他们使用了一种称为直方图交集 (Histogram Intersection) 的指标: 1.0 的分数意味着模型的长度分布与人类完全重叠；0.0 意味着它们完全不同。

Figure 3: Length distribution of human poems (left), SA (middle) and GPTNeo_L (right) for English.

在上方的图 3 中，我们看到了三张代表诗歌长度分布的图表:

(a) 人类 (Human): 注意那个钟形曲线。人类写的诗歌长度各异，通常集中在 25-30 个 Token 左右。
(b) SA (诗歌专用): 这个模型几乎完美地捕捉到了人类的分布。它理解诗歌的“形状”。
(c) GPTNeo (LLM): 这个模型太死板了。峰值非常窄，意味着它每次生成的诗歌长度几乎完全相同。它缺乏结构多样性。

关键结论: 通用 LLM 往往难以匹配人类诗歌长度的自然变化，通常生成的输出要么太短，要么太统一。

维度 3: 押韵 (LLM 的阿喀琉斯之踵)

这里的结果非常引人入胜。对于标准 LLM (如 GPT-4 或 LLaMA) 来说，押韵是出了名的困难，因为它们将文本视为“Token” (单词块) ，而不是单个字母/音素。它们通常无法仅仅通过看 Token ID 就知道 cat 和 hat 押韵。

研究人员对生成诗歌的押韵方案进行了分类 (例如 AABB, ABAB, 或 ABCD——即不押韵) 。

人类基线

首先，让我们看看人类是怎么做的。

Figure 2: Distribution of rhyme schemes in (a) the human data, and the samples from the (b) best, (c) worst, and (d) average models.

在图 2(a) (人类) 中，你可以看到人类混合使用了多种方案。有很多 AABB 和 ABAB。“ABCD”条形 (不押韵) 相对较低。

无条件 LLM 的失败

现在，看看图 2(c)，代表“最差”的模型 (一个无条件 GPT 模型) 。 ABCD 条形非常巨大。这意味着模型几乎从不押韵。它只是写了四行散文。

这种失败在无条件 LLM 中是系统性的。请看下面英语无条件模型的图表网格:

Figure 6: Rhyme distribution plots for samples generated by English unconditioned large language models.

在图 6 中，注意几乎每个图表 (GPT2, GPTNeo, LLaMA2) 都被最右边的条形( ABCD )所主导。这些强大的“智能”模型如果没有特定的微调，基本上无法进行自发的押韵。

条件化与 DeepSpeare 的成功

然而，并非所有模型都失败了。

DeepSpeare: 作为一个诗歌专用模型，它被明确设计为押韵。
条件化 LLM: 当研究人员用风格标签微调 LLM 时，性能大幅提升。

Figure 8: Rhyme distribution plots for samples generated by English conditioned large language models.

对比图 8 (上图) 和图 6。在图 8 中，右侧的 ABCD 条形显著缩小。模型现在正在尝试 AABB 和 ABAB 等模式。

意外的赢家: 字符级模型 (ByGPT5) 。因为 ByGPT5 是逐个字符而不是逐个单词地处理文本，它能“看到”拼写。它学到了以“-ing”结尾的词可能押韵。因此，字符级模型产生的押韵多样性明显优于单词级模型。

维度 4: 词汇与语义多样性

最后，研究人员问道: AI 是否在反复使用相同的词汇？

他们使用了像 MATTR (移动平均类型-标记比率) 这样的指标来衡量词汇变化，并使用 Sentence-BERT 来衡量诗歌意义的相似程度。

Table 5: Lexical diversity metrics for German and English models.

表 5 (上表) 揭示了一个“质量与多样性的权衡”。

局部多样性: 在单首诗内部，LLM (如 LLaMA-2) 实际上比人类在词汇上更多样 (更高的 ATTR 分数) 。它们使用了广泛的词汇。
全局多样性: 然而，在所有生成的诗歌中，它们表现不佳。它们倾向于循环使用相同的“创意”修辞。
模型规模: 更大的模型 (大版本 vs. 小版本) 通常具有更好的词汇多样性。

语义分析 (下方的表 6) 加强了这一点。这里的目标是获得更低的相似度得分 (这意味着更高的多样性) 。

Table 6: Average maximum semantic similarity values for German and English.

注意, 没有一个模型能达到人类的多样性。 “人类”得分 (第一行) 的“内部 (Within) ”相似度低于任何 AI 模型。这意味着人类诗人所写的主题和情感范围比即使是最好的 AI 也要广泛得多，而 AI 往往聚集在相似的语义空间周围。

权衡: 质量 vs. 多样性

研究人员不仅相信数字；他们还让人类阅读这些诗歌。他们将最“多样化”的模型与人类诗歌进行了比较。

Table 13: 5 selected English quatrains rated as best in our human evaluation.

表 13 展示了一些评价最高的四行诗。评估揭示了一个残酷的事实: 最多样化的模型 (Structured Adversary - SA) 往往质量最差。 它是通过语无伦次来实现多样性的。

相反，庞大的 LLM (如 LLaMA-3) 写出了连贯、语法完美的文本，但不那么具有冒险精神。

结果总结

研究人员汇总了所有这些排名，以找出总体的“赢家”。

Table 3: Average metrics for different model type aggregations.

表 3 提供了整个研究的快照:

押韵: 诗歌专用模型和字符级模型占主导地位。
语义/词汇: 更大的 LLM 在词汇量上占优势，但仍缺乏人类水平的主题变化。
条件化: 这是灵丹妙药。条件化模型 (告诉 AI “要押韵”) 在几乎每个多样性指标上都优于无条件模型。

结论: “随机鹦鹉”仍在蜕变

这项研究是对生成式 AI 的一次警钟。虽然我们惊叹于像 ChatGPT 这样的工具的流畅性，但这项研究强调了流畅性并不等于创造力 。

目前的 AI 模型“多样性不足”。它们:

难以匹配人类诗歌的结构变化。
如果没有明确的条件化或字符级架构，就无法自然地押韵。
写作的主题范围比人类狭窄。

最有希望的前进道路似乎是字符级风格条件化 LLM (如这里测试的 ByGPT5 模型) 。这些模型结合了 Transformer 的语言能力和看到单个字符的精细控制，允许在形式和内容上实现高度的多样性。

在 AI 能够突破其统计安全区之前，它仍然是一个有天赋的模仿者，而不是真正的诗人。下次当你读到一首 AI 写的诗时，不要只问“这读得通吗？”，还要问自己: “这是新东西吗？”

“好”诗的问题#

参赛者: 模型与数据集#

维度 1: 记忆化 (抄袭测试)#

维度 2: 结构与长度#

维度 3: 押韵 (LLM 的阿喀琉斯之踵)#

人类基线#

无条件 LLM 的失败#

条件化与 DeepSpeare 的成功#

维度 4: 词汇与语义多样性#

权衡: 质量 vs. 多样性#

结果总结#

结论: “随机鹦鹉”仍在蜕变#