在人工智能领域,我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中,我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢?
如果我写了一个结局悲剧且模棱两可的故事,它是“好”的吗?一位读者可能会称赞它“凄美且写实”,而另一位读者可能会认为它“令人压抑且不尽人意”。
这种主观性正是研究论文 “Learning Personalized Alignment in Evaluating Open-ended Text Generation” (在评估开放式文本生成中学习个性化对齐) 所解决的核心问题。研究人员推出了 PERSE , 这是一个旨在摆脱“一刀切”指标,转向个性化、可解释评估的框架。
在这篇文章中,我们将详细拆解为什么传统评估方法在开放式任务中会失败,PERSE 框架如何模拟个人偏好,以及这对生成式 AI 的未来意味着什么。
主观性难题
传统的自动化指标,如 BLEU 或 ROUGE,依赖于词汇相似度——即检查模型输出中有多少单词与人类编写的参考文本重叠。在创意写作中,这种方法有着根本性的缺陷。一个故事可以使用与参考文本完全不同的词汇,但仍然非常出色。
最近,研究人员开始使用大型语言模型 (LLMs) 作为评判者。你把一个故事喂给 GPT-4 并问: “这写得好吗?”虽然这比单纯数单词要好,但这引入了一种新的偏差: “通用评论者”偏差。经过训练以求“有益且无害”的 LLM,倾向于提供安全的、平均化的反馈。它们难以顾及人类口味的多样性。
看看研究人员研究中的这个例子:

在图 1 中,一个 LLM 根据“一位艺术家在情感余波中挣扎”的前提生成了两个不同的情节。
- Alice 喜欢情节 A,因为她喜欢令人振奋的结局。
- Bob 喜欢情节 B,因为他看重复杂性和同理心,即使结局更悲伤。
一个通用的评估指标无法同时满足 Alice 和 Bob。要真正评估开放式生成内容,AI 评判者需要理解它是在为谁进行评估。这正是 PERSE 发挥作用的地方。
PERSE 框架
PERSE 代表了一种个性化、可解释的评估框架。其目标是创建一个模型,能够查看用户的历史记录——他们过去喜欢什么、讨厌什么——并预测他们将如何评价一段新的内容。
研究人员通过微调 LLaMA-2 (包括 7B 和 13B 参数版本) 构建了 PERSE。该模型在两种特定模式下运行: 标量评分 (Scalar Rating) 和 成对评分 (Pairwise Rating) 。
1. 标量评分 (Scalar Rating)
在这种模式下,模型会收到一段单独的文本 (查询) 和一个 评论者画像 (Reviewer Profile) 。 该画像包含一些历史评论 (用户读过的情节、他们写的评论以及他们给出的分数) 。
PERSE 必须分析画像以推断用户的隐性偏好 (例如,“此用户讨厌陈词滥调”或“此用户喜欢恐怖片”) 。然后它会生成:
- 一个个性化分数 (1-10) 。
- 一段详细的文字解释,证明该分数的合理性。
2. 成对评分 (Pairwise Rating)
在这里,模型会收到两段不同的文本 (文本 A 和文本 B) ,并被要求根据特定方面 (如 趣味性、惊喜感 或 角色发展) 对它们进行比较。同样,这是通过特定评论者的画像视角来完成的。

如图 2 所示,该架构旨在使评估具有 可解释性 。 它不仅输出一个数字,还输出推理过程。例如,在图的下半部分,模型判断对于该特定用户,文本 A 更令人感兴趣,但文本 B 在角色发展方面表现更好。
输入结构
为了实现这一点,提示工程 (Prompt Engineering) 至关重要。模型不只是被要求“猜测分数”。它被输入了一个结构化的提示,其中包含指令、评论者画像 (历史示例) 和新的查询。

图 9 展示了提示格式。请注意,模型被明确指示在生成新的评论 (蓝色) 和分数 (橙色) 之前,先从提供的示例 (绿色) 中“识别评论者的偏好”。
数据挑战: 污染与记忆化
这篇论文讨论的最有趣的技术挑战之一是 数据污染 (Data Contamination) 。
研究人员希望使用电影评论 (MPST 数据集) 来训练 PERSE。然而,像 LLaMA-2 和 GPT-4 这样的 LLM 是在互联网数据上预训练的,其中包括 IMDb 和维基百科。如果你让一个 LLM 评价《教父》的情节,它可能并不会真正“评估”你提供的文本;它只是简单地回忆起《教父》是一部杰作,然后给出 10/10 的高分。
这种 记忆化 (Memorization) 使评估变得不可靠。模型并没有学习与用户的口味对齐;它只是在从训练数据中检索事实。
解决方案: 匿名化与摘要化
为了解决这个问题,研究人员创建了一个数据处理流程来抹去电影的身份信息。

如图 8 所示,该过程涉及使用中间 LLM (oasst-30b) 的两个步骤:
- 匿名化 (Anonymization) : 将特定的角色名称 (例如“卢克·天行者”) 替换为通用名称 (例如“年轻的飞行员”) 。
- 摘要化 (Summarization) : 压缩情节以去除可识别的微小细节,同时保留叙事弧线。
通过这种方式转换数据集,他们创建了 Per-MPST (个性化电影情节摘要) 。在这个新数据集中,LLM 无法依赖记忆;它 必须 阅读情节并应用用户的历史偏好来生成分数。
实验与关键结果
团队将 PERSE (基于 LLaMA-2 7B 和 13B) 与几个基线模型进行了比较,包括:
- Reviewer Avg (评论者均值) : 简单地预测该用户的历史平均分。
- Vanilla LLaMA-2 (原版 LLaMA-2) : 未经特定指令微调的基础模型。
- GPT-4: 零样本推理的行业标准。
标量评分表现
预测具体评分 (1-10) 的结果令人信服。我们使用 皮尔逊 (Pearson) 和 肯德尔 (Kendall) 相关系数来衡量成功与否——这是检查预测分数是否与人类实际分数的涨跌保持同步的统计方法。

表 2 展示了 Per-MPST 数据集上的结果。
- PERSE-13b 达到了最高的相关性 (0.345 Pearson) ,显著优于 GPT-4。
- 原版 LLaMA 模型的表现很差,通常比简单的“评论者均值”基线还要差。这凸显了如果模型没有针对个性化进行调整,仅仅“更大”并不总是“更好”。
- GPT-4 表现尚可,但与经过微调的 PERSE 相比,难以完全对齐特定用户的独特癖好。
成对评分表现
在源自 Per-DOC 数据集 (由大纲生成的故事) 的第二个任务中,模型必须在五个特定维度上判断两个故事中哪一个更好: 趣味性、适应性、惊喜感、角色 和 结局。

表 4 显示了全面的胜利。 PERSE-13b 在几乎每个类别中都达到了最高的准确率。 特别值得注意的是,在“趣味性”这一高度主观的指标上,PERSE 的准确率为 62.1%,而 GPT-4 仅为 50.2%。
为什么 PERSE 能击败 GPT-4?
研究人员认为,用于训练 GPT-4 等模型的 RLHF (基于人类反馈的强化学习) 将模型推向了一个“安全中心”。GPT-4 犹豫是否给出极低的分数或严厉的批评,因为它被调整为要有礼貌。
然而,真正的人类评论者可能会脾气暴躁、口味小众或极度挑剔。由于 PERSE 是在特定评论者画像上进行指令微调的,如果用户画像显示其具有批判性人格,PERSE 也愿意变得“刻薄”。
看看下面的例子 (图 6) ,就能看到这种实际差异:

在这个案例中:
- 评论者画像 显示该用户喜欢“怪异的小惊悚片”,给出的分数差异很大 (10 分和 7 分) 。
- 查询 (Query) 是关于一个金融奇才和法律剧的情节。
- 真实人类 (参考) 给了它 6 分,称其为“浪费时间”。
- GPT-4 给出了一个通用的正面评价 (6 分) ,称赞了“强大的故事情节”。
- LLaMA-2-70b (原版) 给了它高达 9 分。
- PERSE 给了 8 分,但请注意文本内容。它捕捉到了电影“并不快乐……但发人深省”的细微差别,试图模仿评论者的分析风格。虽然分数略有偏差,但在文本生成的定性对齐上,它比其他模型的通用赞美更接近个性化的批评。
分析: 是什么让个性化奏效?
研究人员进行了几项消融研究 (Ablation Studies) ,以了解驱动 PERSE 性能的因素。
1. 历史记录的价值
模型需要阅读多少条过去的评论才能理解一个用户?

图 3 显示,对于 PERSE-13b (最右侧的蓝色柱) ,随着添加更多历史评论 (从 K=1 到 K=5) ,性能通常会提高。有趣的是,对于原版 LLaMA 模型,添加更多历史记录实际上会 损害 性能 (柱子变低) 。这表明标准模型会被过多的上下文搞糊涂,而 PERSE 已经有效地学会了如何利用这些历史记录来优化其判断。
2. 鲁棒性
历史评论的顺序重要吗?如果我先给模型看 1 星评论,再看 10 星评论,会改变预测结果吗?

图 4 展示了 PERSE (蓝色和紫色线) 具有高度的稳定性。阴影区域代表方差;无论画像数据如何洗牌,PERSE 的方差都很小。原版模型 (绿线) 对顺序高度敏感,表现出极大的不稳定性。
结论与启示
PERSE 框架代表了自动化评估向前迈出的重要一步。通过摆脱词汇重叠和通用的“AI 评判”,它拥抱了文本生成质量是主观的这一现实。
这项工作的主要收获是:
- 个性化是可衡量的: 我们可以训练 LLM 准确预测个人的人类偏好,甚至胜过像 GPT-4 这样更大的模型。
- 指令微调功能强大: 一个在高质量、个性化数据上微调的较小模型 (13B 参数) 可以击败巨大的通用模型。
- 数据卫生至关重要: 在流行概念 (如电影) 上评估 LLM 需要严格的匿名化,以防止模型通过记忆作弊。
当我们展望 AI 生成从小说到个性化营销文案等一切内容的未来时,像 PERSE 这样的框架将至关重要。它们让我们能够超越“这段文字写得好吗?”这一问题,转而提出更重要的问题: “这段文字对你来说好吗?”
](https://deep-paper.org/en/paper/2310.03304/images/cover.png)