超越平均用户：PERSE 如何教会 AI 像人类一样评估文本

在人工智能领域，我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中，我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢？

如果我写了一个结局悲剧且模棱两可的故事，它是“好”的吗？一位读者可能会称赞它“凄美且写实”，而另一位读者可能会认为它“令人压抑且不尽人意”。

这种主观性正是研究论文 “Learning Personalized Alignment in Evaluating Open-ended Text Generation” (在评估开放式文本生成中学习个性化对齐) 所解决的核心问题。研究人员推出了 PERSE , 这是一个旨在摆脱“一刀切”指标，转向个性化、可解释评估的框架。

在这篇文章中，我们将详细拆解为什么传统评估方法在开放式任务中会失败，PERSE 框架如何模拟个人偏好，以及这对生成式 AI 的未来意味着什么。

主观性难题

传统的自动化指标，如 BLEU 或 ROUGE，依赖于词汇相似度——即检查模型输出中有多少单词与人类编写的参考文本重叠。在创意写作中，这种方法有着根本性的缺陷。一个故事可以使用与参考文本完全不同的词汇，但仍然非常出色。

最近，研究人员开始使用大型语言模型 (LLMs) 作为评判者。你把一个故事喂给 GPT-4 并问: “这写得好吗？”虽然这比单纯数单词要好，但这引入了一种新的偏差: “通用评论者”偏差。经过训练以求“有益且无害”的 LLM，倾向于提供安全的、平均化的反馈。它们难以顾及人类口味的多样性。

看看研究人员研究中的这个例子:

两位人类评论者对基于同一前提生成的 LLM 故事有着截然不同的偏好。

在图 1 中，一个 LLM 根据“一位艺术家在情感余波中挣扎”的前提生成了两个不同的情节。

Alice 喜欢情节 A，因为她喜欢令人振奋的结局。
Bob 喜欢情节 B，因为他看重复杂性和同理心，即使结局更悲伤。

一个通用的评估指标无法同时满足 Alice 和 Bob。要真正评估开放式生成内容，AI 评判者需要理解它是在为谁进行评估。这正是 PERSE 发挥作用的地方。

PERSE 框架

PERSE 代表了一种个性化、可解释的评估框架。其目标是创建一个模型，能够查看用户的历史记录——他们过去喜欢什么、讨厌什么——并预测他们将如何评价一段新的内容。

研究人员通过微调 LLaMA-2 (包括 7B 和 13B 参数版本) 构建了 PERSE。该模型在两种特定模式下运行: 标量评分 (Scalar Rating) 和 成对评分 (Pairwise Rating) 。

1. 标量评分 (Scalar Rating)

在这种模式下，模型会收到一段单独的文本 (查询) 和一个 评论者画像 (Reviewer Profile) 。该画像包含一些历史评论 (用户读过的情节、他们写的评论以及他们给出的分数) 。

PERSE 必须分析画像以推断用户的隐性偏好 (例如，“此用户讨厌陈词滥调”或“此用户喜欢恐怖片”) 。然后它会生成:

一个个性化分数 (1-10) 。
一段详细的文字解释，证明该分数的合理性。

2. 成对评分 (Pairwise Rating)

在这里，模型会收到两段不同的文本 (文本 A 和文本 B) ，并被要求根据特定方面 (如 趣味性、惊喜感 或 角色发展) 对它们进行比较。同样，这是通过特定评论者的画像视角来完成的。

PERSE 为评估中的个性化对齐提供了标量评分和成对评分。

如图 2 所示，该架构旨在使评估具有 可解释性 。它不仅输出一个数字，还输出推理过程。例如，在图的下半部分，模型判断对于该特定用户，文本 A 更令人感兴趣，但文本 B 在角色发展方面表现更好。

输入结构

为了实现这一点，提示工程 (Prompt Engineering) 至关重要。模型不只是被要求“猜测分数”。它被输入了一个结构化的提示，其中包含指令、评论者画像 (历史示例) 和新的查询。

PERSE 的演示。输入部分为绿色，详细评论和细粒度方面为蓝色，评论分数为橙色。

图 9 展示了提示格式。请注意，模型被明确指示在生成新的评论 (蓝色) 和分数 (橙色) 之前，先从提供的示例 (绿色) 中“识别评论者的偏好”。

数据挑战: 污染与记忆化

这篇论文讨论的最有趣的技术挑战之一是 数据污染 (Data Contamination) 。

研究人员希望使用电影评论 (MPST 数据集) 来训练 PERSE。然而，像 LLaMA-2 和 GPT-4 这样的 LLM 是在互联网数据上预训练的，其中包括 IMDb 和维基百科。如果你让一个 LLM 评价《教父》的情节，它可能并不会真正“评估”你提供的文本；它只是简单地回忆起《教父》是一部杰作，然后给出 10/10 的高分。

这种 记忆化 (Memorization) 使评估变得不可靠。模型并没有学习与用户的口味对齐；它只是在从训练数据中检索事实。

解决方案: 匿名化与摘要化

为了解决这个问题，研究人员创建了一个数据处理流程来抹去电影的身份信息。

构建我们数据集的流程图。

如图 8 所示，该过程涉及使用中间 LLM (oasst-30b) 的两个步骤:

匿名化 (Anonymization) : 将特定的角色名称 (例如“卢克·天行者”) 替换为通用名称 (例如“年轻的飞行员”) 。
摘要化 (Summarization) : 压缩情节以去除可识别的微小细节，同时保留叙事弧线。

通过这种方式转换数据集，他们创建了 Per-MPST (个性化电影情节摘要) 。在这个新数据集中，LLM 无法依赖记忆；它必须阅读情节并应用用户的历史偏好来生成分数。

实验与关键结果

团队将 PERSE (基于 LLaMA-2 7B 和 13B) 与几个基线模型进行了比较，包括:

Reviewer Avg (评论者均值) : 简单地预测该用户的历史平均分。
Vanilla LLaMA-2 (原版 LLaMA-2) : 未经特定指令微调的基础模型。
GPT-4: 零样本推理的行业标准。

标量评分表现

预测具体评分 (1-10) 的结果令人信服。我们使用 皮尔逊 (Pearson) 和 肯德尔 (Kendall) 相关系数来衡量成功与否——这是检查预测分数是否与人类实际分数的涨跌保持同步的统计方法。

Per-MPST 上每对 (x, u) 的人类评分与皮尔逊、斯皮尔曼和肯德尔相关系数。

表 2 展示了 Per-MPST 数据集上的结果。

PERSE-13b 达到了最高的相关性 (0.345 Pearson) ，显著优于 GPT-4。
原版 LLaMA 模型的表现很差，通常比简单的“评论者均值”基线还要差。这凸显了如果模型没有针对个性化进行调整，仅仅“更大”并不总是“更好”。
GPT-4 表现尚可，但与经过微调的 PERSE 相比，难以完全对齐特定用户的独特癖好。

成对评分表现

在源自 Per-DOC 数据集 (由大纲生成的故事) 的第二个任务中，模型必须在五个特定维度上判断两个故事中哪一个更好: 趣味性、适应性、惊喜感、角色 和结局。

Per-DOC 上每个 (x, u, a) 的细粒度预测准确率，k = 1。

表 4 显示了全面的胜利。 PERSE-13b 在几乎每个类别中都达到了最高的准确率。 特别值得注意的是，在“趣味性”这一高度主观的指标上，PERSE 的准确率为 62.1%，而 GPT-4 仅为 50.2%。

为什么 PERSE 能击败 GPT-4？

研究人员认为，用于训练 GPT-4 等模型的 RLHF (基于人类反馈的强化学习) 将模型推向了一个“安全中心”。GPT-4 犹豫是否给出极低的分数或严厉的批评，因为它被调整为要有礼貌。

然而，真正的人类评论者可能会脾气暴躁、口味小众或极度挑剔。由于 PERSE 是在特定评论者画像上进行指令微调的，如果用户画像显示其具有批判性人格，PERSE 也愿意变得“刻薄”。

看看下面的例子 (图 6) ，就能看到这种实际差异:

根据给定评论者的偏好评估单个故事的示例。

在这个案例中:

评论者画像 显示该用户喜欢“怪异的小惊悚片”，给出的分数差异很大 (10 分和 7 分) 。
查询 (Query) 是关于一个金融奇才和法律剧的情节。
真实人类 (参考) 给了它 6 分，称其为“浪费时间”。
GPT-4 给出了一个通用的正面评价 (6 分) ，称赞了“强大的故事情节”。
LLaMA-2-70b (原版) 给了它高达 9 分。
PERSE 给了 8 分，但请注意文本内容。它捕捉到了电影“并不快乐……但发人深省”的细微差别，试图模仿评论者的分析风格。虽然分数略有偏差，但在文本生成的定性对齐上，它比其他模型的通用赞美更接近个性化的批评。

分析: 是什么让个性化奏效？

研究人员进行了几项消融研究 (Ablation Studies) ，以了解驱动 PERSE 性能的因素。

1. 历史记录的价值

模型需要阅读多少条过去的评论才能理解一个用户？

不同数量的历史评论 (K) 在评论者画像中对 Per-MPST 上肯德尔相关性的影响。

图 3 显示，对于 PERSE-13b (最右侧的蓝色柱) ，随着添加更多历史评论 (从 K=1 到 K=5) ，性能通常会提高。有趣的是，对于原版 LLaMA 模型，添加更多历史记录实际上会损害性能 (柱子变低) 。这表明标准模型会被过多的上下文搞糊涂，而 PERSE 已经有效地学会了如何利用这些历史记录来优化其判断。

2. 鲁棒性

历史评论的顺序重要吗？如果我先给模型看 1 星评论，再看 10 星评论，会改变预测结果吗？

不同评论顺序对 Per-MPST 上肯德尔相关性的影响。

图 4 展示了 PERSE (蓝色和紫色线) 具有高度的稳定性。阴影区域代表方差；无论画像数据如何洗牌，PERSE 的方差都很小。原版模型 (绿线) 对顺序高度敏感，表现出极大的不稳定性。

结论与启示

PERSE 框架代表了自动化评估向前迈出的重要一步。通过摆脱词汇重叠和通用的“AI 评判”，它拥抱了文本生成质量是主观的这一现实。

这项工作的主要收获是:

个性化是可衡量的: 我们可以训练 LLM 准确预测个人的人类偏好，甚至胜过像 GPT-4 这样更大的模型。
指令微调功能强大: 一个在高质量、个性化数据上微调的较小模型 (13B 参数) 可以击败巨大的通用模型。
数据卫生至关重要: 在流行概念 (如电影) 上评估 LLM 需要严格的匿名化，以防止模型通过记忆作弊。

当我们展望 AI 生成从小说到个性化营销文案等一切内容的未来时，像 PERSE 这样的框架将至关重要。它们让我们能够超越“这段文字写得好吗？”这一问题，转而提出更重要的问题: “这段文字对你来说好吗？”

主观性难题#

PERSE 框架#

1. 标量评分 (Scalar Rating)#

2. 成对评分 (Pairwise Rating)#

输入结构#

数据挑战: 污染与记忆化#

解决方案: 匿名化与摘要化#

实验与关键结果#

标量评分表现#

成对评分表现#

为什么 PERSE 能击败 GPT-4？#

分析: 是什么让个性化奏效？#

1. 历史记录的价值#

2. 鲁棒性#

结论与启示#