AI 能让你流泪吗？衡量 LLM 生成故事的心理深度

引言

我们已经到了人工智能进化的一个阶段，机器生成的文本在语法上完美无缺，风格上高度一致，而且无可否认地连贯。如果你让 GPT-4 写一首关于烤面包机的十四行诗，它会以令人印象深刻的押韵和格律完成任务。但这其中仍然存在一个难以逾越的边界，一种将技术手册与令人心碎的小说区分开来的特质: 心理深度 (Psychological Depth) 。

传统上，对大型语言模型 (LLM) 的评估主要集中在客观指标上。我们测量困惑度 (perplexity) 、独特的 n-gram 和语篇连贯性。我们检查毒性和偏见。虽然这些指标不可或缺，但它们将文本视为数据。它们没有考虑到读者。它们无法告诉我们一个故事是否激发了同理心，是否让人心跳加速，或者角色是否感觉像是真正的人类，而不仅仅是纸板剪影。

在研究论文 “Measuring Psychological Depth in Language Models” (衡量语言模型中的心理深度) 中，来自加州大学洛杉矶分校 (UCLA) 的研究人员引入了一个突破性的框架来弥补这一差距。他们提出了心理深度量表 (Psychological Depth Scale, PDS) , 这是一种植根于文学理论而非纯统计学的方法，用于量化 LLM 创作叙事复杂且情感共鸣故事的能力。

这篇文章将带你了解他们定义“深度”的旅程，他们用来让 LLM 变身为创意作家的其妙提示策略，以及那些表明 AI 可能比我们要以为的更接近“人类触感”的惊人结果。

在这篇 GPT-4 的故事中，心理深度量表突出了影响整体阅读体验的优势和劣势。

问题所在: 当“好”的文本还不够时

想象一下，读一个拼写完美、没有任何语法错误的故事，但读完后你内心毫无波澜。在自然语言生成 (NLG) 的世界里，这是一个常见问题。一个模型可能会最大化“BLEU”分数 (一种文本相似度指标) ，但却无法捕捉到人类体验的细微差别。

这篇论文的作者认为，当前的评估过于关注文本本身。为了真正衡量讲故事的质量，我们必须将焦点转移到读者身上。这种方法借鉴了读者反应批评 (Reader-Response Criticism) , 这是一种文学理论，认为故事的意义并不完全包含在纸面上的文字中，而是通过文本与读者思想之间的互动创造出来的。

与之相辅相成的是文本世界理论 (Text World Theory) , 该理论认为当我们阅读时，我们会构建一个“文本世界”——一个包含角色、场景和情感的复杂心智模型。一个“有深度”的故事是能够让读者构建丰富、生动文本世界的各类故事。

因此，挑战在于如何将这些抽象的文学概念转化为计算机科学中具体、可衡量的框架。

解决方案: 心理深度量表 (PDS)

为了构建 PDS，研究人员并没有凭空猜测什么是好故事。他们对认知心理学、媒体研究和叙事分析领域的 95 篇同行评审文章进行了广泛的文献综述。他们将 143 种不同的评估标准提炼为定义心理深度的五个核心维度。

我们开发和验证心理深度量表的方法概览。

如上图所示，该过程从理论到生成，最后到标注。让我们分解一下 PDS 的五个支柱:

1. 同理心 (Empathy, EMP)

这衡量了叙事让读者走出自己的立场并进入角色内心的能力。这不仅仅是喜欢一个角色；这是关于观点采择 (perspective-taking) 。故事是否触发了感受角色感受所需的认知转变？高同理心得分表明读者对角色的困境感到“深刻共鸣”。

2. 情感激发 (Emotion Provocation, PROV)

同理心是关于分享角色的感受，而情感激发则是关于读者自身情感反应的强度。故事是否引起了快乐、恐惧、悲伤或愤怒？重要的是，研究指出，“一致的”情绪 (即文本的基调与读者的反应相匹配) 在认知上更有效。一个有深度的故事不仅仅是提到悲伤的事情；它会让你感到悲伤。

3. 投入度 (Engagement, ENG)

该指标评估“传输 (transportation) ”。你是否忘记了时间？当你阅读时，周围的世界是否消失了？投入度是讲故事的引擎；没有它，读者就会抛弃文本世界。它是相互的: 高投入度通常会导致更高的同理心和情感反应。

4. 真实性 (Authenticity, AUTH)

对于 AI 来说，这可能是最具挑战性的指标。真实性捕捉的是叙事表达是否感觉像是真正的人类体验。即使在一个关于外星人的科幻故事中，情感也必须感觉真实。它依赖于“Einfühlung” (移情/感觉进入) 的概念。这里的高分意味着故事以一种与读者对现实的理解产生共鸣的方式捕捉到了存在的本质。

5. 叙事复杂性 (Narrative Complexity, NCOM)

这并不意味着使用大词或令人困惑的情节线。它指的是故事情节和角色发展的丰富性。角色是否多面？情节是否邀请读者解开谜题或重新构建他们对事件的理解 (如情节反转) ？复杂性要求读者付出认知努力，矛盾的是，这反而使阅读体验更加愉快。

生成深度故事: 提示工程

定义量表只是战斗的一半。为了测试它，研究人员需要故事。他们从 Reddit 的 r/WritingPrompts 社区收集了人类撰写的故事，并根据点赞数对其进行分类 (新手、中级和高级) 。

对于 AI 故事，他们不仅仅是让 ChatGPT “写一个故事”。他们认识到标准的提示通常会导致通用的、平淡的输出。为了给模型一个展示心理深度的机会，他们开发了两种特定的提示策略。

策略 A: 作家档案 (The Writer Profile, WP)

这种技术利用了语境中模仿 (in-context impersonation) 。先前的研究表明，当被告知自己是专家时，LLM 的表现会更好。研究人员精心制作了一个提示，将 AI 设定为一名“因心理深度和引人入胜的故事而闻名的资深作家”。

WRITERPROFILE 模板的图示。

通过在提供提示前提之前建立这个角色，模型被“启动 (primed) ”以访问与高质量文学相关的潜空间，专注于人类心理和情感景观，而不仅仅是完成情节。

策略 B: 规划 + 写作 (Plan + Write, P+W)

对于 LLM 来说，一次性写出一个连贯、深刻的故事很难，因为它们是一次预测一个 token。它们无法“展望”结局。 规划 + 写作策略通过将过程分解为两个阶段来缓解这个问题。

PLAN + WRITE 工作流程的图示。

第一阶段 (人物画像) : 要求模型为角色生成详细的档案，特别关注他们的情绪状态和内心想法。
第二阶段 (故事构成) : 然后，模型使用前提以及它刚刚创建的角色档案来编写故事。

这种方法有效地赋予了模型关于角色内部动机的“记忆”，从而在整个叙事中产生更加一致和基于心理的行为。

实验: 人类 vs. 机器

定义了 PDS 并生成了故事 (使用 GPT-4、Llama-2 和 Vicuna 等模型) 后，研究人员展开了一项全面的人类研究。他们招募了具有英语和心理学背景的本科生——“知情的非专业人士”——来为故事评分。

他们试图回答三个关键问题。

RQ1: 人类能在“深度”上达成一致吗？

主观性是科学测量的敌人。如果一个人认为一个故事很“深刻”，而另一个人认为它很“肤浅”，那么这个量表就是无用的。

该研究使用了 Krippendorff’s alpha 系数 , 这是一种衡量一致性的统计指标。

表 1: 通过 Krippendorff’s alpha 衡量的每个 PSD 组件的评分者一致性。

结果非常令人鼓舞。人类评分员实现了平均 0.72 的 alpha 系数，这表明了实质性的一致性。这验证了 PDS 框架: 尽管艺术具有主观性，但在给出明确标准的情况下，人们通常能在什么是同理心、真实性和复杂性上达成一致。

RQ2: AI 能充当评论家吗？

人工标注既慢又贵。LLM (特别是 GPT-4 或 Llama-3) 能取代人类评委吗？

研究人员通过要求 LLM 为故事评分来测试这一点。有趣的是，标准的零样本提示 (仅问“给这个故事评分”) 结果参差不齐。为了改善这一点，他们引入了混合角色 (Mixture-of-Personas, MoP) 提示策略。

他们不再要求一个 AI 对故事进行评分，而是要求 AI 采用与指标相关的特定角色 (例如，“你是一个专门评估真实性的 AI……”或“你是叙事结构方面的专家……”) 。

结果: MoP 策略显著提高了 AI 评分与人类评分之间的相关性。例如，Llama-3-70B 在同理心指标上与人类实现了 0.68 的相关性。这表明，虽然人类仍然是黄金标准，但我们可以创建自动化的流程，以惊人的准确度近似人类的文学判断。

RQ3: 决战——人类与 AI 作者

这是研究中最具挑衅性的部分。AI 模型与 Reddit 上的人类作家相比如何？

研究人员比较了以下作者所写故事的 PDS 分数:

人类 (新手、中级、高级)
开源模型 (Llama-2, Vicuna)
专有模型 (GPT-4)

结果挑战了 AI 缺乏“灵魂”的普遍观点。

比较 5 种流行 LLM 与人类作家光谱的心理深度分数的雷达图。

如上面的雷达图所示, GPT-4 (紫色线) 的表现非常出色。它包围了人类作家的形状。

当我们看统计细分时，结果更加鲜明。

比较作者分数差异是否具有统计显著性的热力图。

数据告诉我们要点如下:

叙事复杂性与同理心: GPT-4 故事的评分在统计上显著高于甚至 Reddit 上的“高级”人类故事。
真实性与投入度: GPT-4 与高级人类作家在统计上没有区别。
一致性: 下面的累积分布函数 (CDF) 显示，GPT-4 (棕色线) 始终向右推进 (更高的分数) ，表现得与最优秀的人类作家非常相似。

每个心理深度维度的累积分布函数 (CDF) 图。

也许最令人惊讶的是，这项研究包含了一个作者身份识别任务。读者被要求猜测一个故事是由人类还是 AI 写的。 他们的准确率只有 56%——几乎不比抛硬币好多少。具体对于 GPT-4，准确率下降到了 27%，这意味着读者经常将 GPT-4 的作品误认为是人类写的。

这为何重要

这项研究代表了我们要如何看待生成式 AI 的一个重大转变。我们正在从检查 AI 是否能写出通顺句子的时代，迈向必须询问 AI 是否能写出有意义句子的时代。

心理深度量表的成功证明了两件关键事情:

我们可以衡量无形之物。 通过将评估建立在文学理论 (读者反应和文本世界理论) 的基础上，我们可以量化故事的主观“感觉”。
AI 正在跨越“同理心鸿沟”。 GPT-4 在同理心和复杂性方面优于业余人类作家这一事实，挑战了机器无法复制人类情感深度的观念。

然而，作者也指出了局限性。Reddit 故事虽然是一个很好的代理，但可能并不代表人类文学的顶峰 (如普利策奖得主) 。此外，人类感知到 AI 文本中的深度并不意味着 AI 拥有深度——这意味着 AI 非常擅长操纵人类情感的符号来触发我们的反应。

结论

故事的“灵魂”一直被认为是人类精神的独特领域。但正如心理深度量表所示，这种灵魂正变得可以被提示、衡量和优化。

无论你将其视为工程学的胜利还是对人类创造力的令人担忧的侵蚀，现实都很清楚: LLM 不再仅仅是文本生成器。通过作家档案和规划 + 写作等策略，它们正在成为引人入胜的故事讲述者，能够编织出感觉真实、复杂且情感真实的故事。随着这些模型的发展，“机器中的幽灵”与人类作者之间的界限将继续模糊。

引言#

问题所在: 当“好”的文本还不够时#

解决方案: 心理深度量表 (PDS)#

1. 同理心 (Empathy, EMP)#

2. 情感激发 (Emotion Provocation, PROV)#

3. 投入度 (Engagement, ENG)#

4. 真实性 (Authenticity, AUTH)#

5. 叙事复杂性 (Narrative Complexity, NCOM)#

生成深度故事: 提示工程#

策略 A: 作家档案 (The Writer Profile, WP)#

策略 B: 规划 + 写作 (Plan + Write, P+W)#

实验: 人类 vs. 机器#

RQ1: 人类能在“深度”上达成一致吗？#

RQ2: AI 能充当评论家吗？#

RQ3: 决战——人类与 AI 作者#

这为何重要#

结论#

引言