在人工智能领域,我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中,我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢?

如果我写了一个结局悲剧且模棱两可的故事,它是“好”的吗?一位读者可能会称赞它“凄美且写实”,而另一位读者可能会认为它“令人压抑且不尽人意”。

这种主观性正是研究论文 “Learning Personalized Alignment in Evaluating Open-ended Text Generation” (在评估开放式文本生成中学习个性化对齐) 所解决的核心问题。研究人员推出了 PERSE , 这是一个旨在摆脱“一刀切”指标,转向个性化、可解释评估的框架。

在这篇文章中,我们将详细拆解为什么传统评估方法在开放式任务中会失败,PERSE 框架如何模拟个人偏好,以及这对生成式 AI 的未来意味着什么。

主观性难题

传统的自动化指标,如 BLEU 或 ROUGE,依赖于词汇相似度——即检查模型输出中有多少单词与人类编写的参考文本重叠。在创意写作中,这种方法有着根本性的缺陷。一个故事可以使用与参考文本完全不同的词汇,但仍然非常出色。

最近,研究人员开始使用大型语言模型 (LLMs) 作为评判者。你把一个故事喂给 GPT-4 并问: “这写得好吗?”虽然这比单纯数单词要好,但这引入了一种新的偏差: “通用评论者”偏差。经过训练以求“有益且无害”的 LLM,倾向于提供安全的、平均化的反馈。它们难以顾及人类口味的多样性。

看看研究人员研究中的这个例子:

两位人类评论者对基于同一前提生成的 LLM 故事有着截然不同的偏好。

在图 1 中,一个 LLM 根据“一位艺术家在情感余波中挣扎”的前提生成了两个不同的情节。

  • Alice 喜欢情节 A,因为她喜欢令人振奋的结局。
  • Bob 喜欢情节 B,因为他看重复杂性和同理心,即使结局更悲伤。

一个通用的评估指标无法同时满足 Alice 和 Bob。要真正评估开放式生成内容,AI 评判者需要理解它是在为进行评估。这正是 PERSE 发挥作用的地方。

PERSE 框架

PERSE 代表了一种个性化、可解释的评估框架。其目标是创建一个模型,能够查看用户的历史记录——他们过去喜欢什么、讨厌什么——并预测他们将如何评价一段新的内容。

研究人员通过微调 LLaMA-2 (包括 7B 和 13B 参数版本) 构建了 PERSE。该模型在两种特定模式下运行: 标量评分 (Scalar Rating)成对评分 (Pairwise Rating)

1. 标量评分 (Scalar Rating)

在这种模式下,模型会收到一段单独的文本 (查询) 和一个 评论者画像 (Reviewer Profile) 。 该画像包含一些历史评论 (用户读过的情节、他们写的评论以及他们给出的分数) 。

PERSE 必须分析画像以推断用户的隐性偏好 (例如,“此用户讨厌陈词滥调”或“此用户喜欢恐怖片”) 。然后它会生成:

  1. 一个个性化分数 (1-10) 。
  2. 一段详细的文字解释,证明该分数的合理性。

2. 成对评分 (Pairwise Rating)

在这里,模型会收到两段不同的文本 (文本 A 和文本 B) ,并被要求根据特定方面 (如 趣味性惊喜感角色发展) 对它们进行比较。同样,这是通过特定评论者的画像视角来完成的。

PERSE 为评估中的个性化对齐提供了标量评分和成对评分。

如图 2 所示,该架构旨在使评估具有 可解释性 。 它不仅输出一个数字,还输出推理过程。例如,在图的下半部分,模型判断对于该特定用户,文本 A 更令人感兴趣,但文本 B 在角色发展方面表现更好。

输入结构

为了实现这一点,提示工程 (Prompt Engineering) 至关重要。模型不只是被要求“猜测分数”。它被输入了一个结构化的提示,其中包含指令、评论者画像 (历史示例) 和新的查询。

PERSE 的演示。输入部分为绿色,详细评论和细粒度方面为蓝色,评论分数为橙色。

图 9 展示了提示格式。请注意,模型被明确指示在生成新的评论 (蓝色) 和分数 (橙色) 之前,先从提供的示例 (绿色) 中“识别评论者的偏好”。

数据挑战: 污染与记忆化

这篇论文讨论的最有趣的技术挑战之一是 数据污染 (Data Contamination)

研究人员希望使用电影评论 (MPST 数据集) 来训练 PERSE。然而,像 LLaMA-2 和 GPT-4 这样的 LLM 是在互联网数据上预训练的,其中包括 IMDb 和维基百科。如果你让一个 LLM 评价《教父》的情节,它可能并不会真正“评估”你提供的文本;它只是简单地回忆起《教父》是一部杰作,然后给出 10/10 的高分。

这种 记忆化 (Memorization) 使评估变得不可靠。模型并没有学习与用户的口味对齐;它只是在从训练数据中检索事实。

解决方案: 匿名化与摘要化

为了解决这个问题,研究人员创建了一个数据处理流程来抹去电影的身份信息。

构建我们数据集的流程图。

如图 8 所示,该过程涉及使用中间 LLM (oasst-30b) 的两个步骤:

  1. 匿名化 (Anonymization) : 将特定的角色名称 (例如“卢克·天行者”) 替换为通用名称 (例如“年轻的飞行员”) 。
  2. 摘要化 (Summarization) : 压缩情节以去除可识别的微小细节,同时保留叙事弧线。

通过这种方式转换数据集,他们创建了 Per-MPST (个性化电影情节摘要) 。在这个新数据集中,LLM 无法依赖记忆;它 必须 阅读情节并应用用户的历史偏好来生成分数。

实验与关键结果

团队将 PERSE (基于 LLaMA-2 7B 和 13B) 与几个基线模型进行了比较,包括:

  • Reviewer Avg (评论者均值) : 简单地预测该用户的历史平均分。
  • Vanilla LLaMA-2 (原版 LLaMA-2) : 未经特定指令微调的基础模型。
  • GPT-4: 零样本推理的行业标准。

标量评分表现

预测具体评分 (1-10) 的结果令人信服。我们使用 皮尔逊 (Pearson)肯德尔 (Kendall) 相关系数来衡量成功与否——这是检查预测分数是否与人类实际分数的涨跌保持同步的统计方法。

Per-MPST 上每对 (x, u) 的人类评分与皮尔逊、斯皮尔曼和肯德尔相关系数。

表 2 展示了 Per-MPST 数据集上的结果。

  • PERSE-13b 达到了最高的相关性 (0.345 Pearson) ,显著优于 GPT-4。
  • 原版 LLaMA 模型的表现很差,通常比简单的“评论者均值”基线还要差。这凸显了如果模型没有针对个性化进行调整,仅仅“更大”并不总是“更好”。
  • GPT-4 表现尚可,但与经过微调的 PERSE 相比,难以完全对齐特定用户的独特癖好。

成对评分表现

在源自 Per-DOC 数据集 (由大纲生成的故事) 的第二个任务中,模型必须在五个特定维度上判断两个故事中哪一个更好: 趣味性、适应性、惊喜感、角色结局

Per-DOC 上每个 (x, u, a) 的细粒度预测准确率,k = 1。

表 4 显示了全面的胜利。 PERSE-13b 在几乎每个类别中都达到了最高的准确率。 特别值得注意的是,在“趣味性”这一高度主观的指标上,PERSE 的准确率为 62.1%,而 GPT-4 仅为 50.2%。

为什么 PERSE 能击败 GPT-4?

研究人员认为,用于训练 GPT-4 等模型的 RLHF (基于人类反馈的强化学习) 将模型推向了一个“安全中心”。GPT-4 犹豫是否给出极低的分数或严厉的批评,因为它被调整为要有礼貌。

然而,真正的人类评论者可能会脾气暴躁、口味小众或极度挑剔。由于 PERSE 是在特定评论者画像上进行指令微调的,如果用户画像显示其具有批判性人格,PERSE 也愿意变得“刻薄”。

看看下面的例子 (图 6) ,就能看到这种实际差异:

根据给定评论者的偏好评估单个故事的示例。

在这个案例中:

  • 评论者画像 显示该用户喜欢“怪异的小惊悚片”,给出的分数差异很大 (10 分和 7 分) 。
  • 查询 (Query) 是关于一个金融奇才和法律剧的情节。
  • 真实人类 (参考) 给了它 6 分,称其为“浪费时间”。
  • GPT-4 给出了一个通用的正面评价 (6 分) ,称赞了“强大的故事情节”。
  • LLaMA-2-70b (原版) 给了它高达 9 分。
  • PERSE 给了 8 分,但请注意文本内容。它捕捉到了电影“并不快乐……但发人深省”的细微差别,试图模仿评论者的分析风格。虽然分数略有偏差,但在文本生成的定性对齐上,它比其他模型的通用赞美更接近个性化的批评。

分析: 是什么让个性化奏效?

研究人员进行了几项消融研究 (Ablation Studies) ,以了解驱动 PERSE 性能的因素。

1. 历史记录的价值

模型需要阅读多少条过去的评论才能理解一个用户?

不同数量的历史评论 (K) 在评论者画像中对 Per-MPST 上肯德尔相关性的影响。

图 3 显示,对于 PERSE-13b (最右侧的蓝色柱) ,随着添加更多历史评论 (从 K=1 到 K=5) ,性能通常会提高。有趣的是,对于原版 LLaMA 模型,添加更多历史记录实际上会 损害 性能 (柱子变低) 。这表明标准模型会被过多的上下文搞糊涂,而 PERSE 已经有效地学会了如何利用这些历史记录来优化其判断。

2. 鲁棒性

历史评论的顺序重要吗?如果我先给模型看 1 星评论,再看 10 星评论,会改变预测结果吗?

不同评论顺序对 Per-MPST 上肯德尔相关性的影响。

图 4 展示了 PERSE (蓝色和紫色线) 具有高度的稳定性。阴影区域代表方差;无论画像数据如何洗牌,PERSE 的方差都很小。原版模型 (绿线) 对顺序高度敏感,表现出极大的不稳定性。

结论与启示

PERSE 框架代表了自动化评估向前迈出的重要一步。通过摆脱词汇重叠和通用的“AI 评判”,它拥抱了文本生成质量是主观的这一现实。

这项工作的主要收获是:

  1. 个性化是可衡量的: 我们可以训练 LLM 准确预测个人的人类偏好,甚至胜过像 GPT-4 这样更大的模型。
  2. 指令微调功能强大: 一个在高质量、个性化数据上微调的较小模型 (13B 参数) 可以击败巨大的通用模型。
  3. 数据卫生至关重要: 在流行概念 (如电影) 上评估 LLM 需要严格的匿名化,以防止模型通过记忆作弊。

当我们展望 AI 生成从小说到个性化营销文案等一切内容的未来时,像 PERSE 这样的框架将至关重要。它们让我们能够超越“这段文字写得好吗?”这一问题,转而提出更重要的问题: “这段文字对来说好吗?”