引言

在大型语言模型 (LLM) 飞速发展的格局中，生成文本只是一半的战斗。另一半——甚至可以说是更难的一半——是评估这些文本。我们如何知道一个回复是有害的、有帮助的、流畅的，还是一致的？

传统上，我们要依赖 BLEU 或 ROUGE 这样的指标，它们只是简单地计算模型输出与人类参考文本之间的单词重叠度。但这些指标是僵化的；它们无法捕捉细微差别或语义。最近，业界已经转向“LLM 即裁判 (LLM-as-a-Judge) ”，即我们要求像 GPT-4 这样的强大模型对回复进行打分。虽然这种方法有效，但它的成本极高、速度缓慢，并且严重依赖模型表达批评意见的能力。

但是，如果模型在生成任何批评性文字之前就知道一段文本很糟糕呢？如果模型的“直觉”——即其内部的数学表示——比它的输出更准确呢？

这正是上海交通大学的研究人员提出的新评估框架 RepEval 背后的核心问题。RepEval 证明了 LLM 的内部表示 (隐藏状态) 包含着关于文本质量的丰富且决定性的信息。通过提取这些表示并对其进行数学投影，我们可以获得比 GPT-4 与人类判断相关性更好的评估结果，同时使用的模型要小得多，所需的训练数据也极少。

在这篇文章中，我们将解读 RepEval 的工作原理、其投影策略背后的数学逻辑，以及为什么查看 LLM 的“引擎盖之下”可能是 AI 评估的未来。

背景

要理解 RepEval，我们首先需要对目前文本评估的方式进行分类。

两类评估方式

文本评估通常分为两种场景:

绝对评估 (Absolute Evaluation) : 模型查看单个文本片段，并根据流畅度、连贯性或一致性等标准对其进行评分。
成对评估 (Pair-wise Evaluation) : 模型查看针对同一提示的两个回复，并决定哪一个更好。这对训练方法 (如基于人类反馈的强化学习 RLHF) 至关重要。

当前指标的局限性

基于参考的指标 (如 BLEU) 需要一个由人类编写的“完美答案”来进行比较，而在现实世界的聊天场景中，这往往是不可用的。无参考指标通常涉及提示 LLM 生成一个分数 (例如，“请给这个打分，范围 1-5”) 。

提示 LLM 进行打分的问题在于，它依赖于模型的生成能力。一个较小的模型 (如 7B 参数模型) 可能“知道”一个句子是不连贯的，但很难生成结构化的批评或始终输出正确的数字格式。RepEval 完全绕过了生成阶段，直接利用模型的理解能力。

核心方法: RepEval

RepEval 的核心论点是，高质量文本和低质量文本在 LLM 的向量空间中看起来是不同的。如果我们能在该空间中找到从“坏”指向“好”的特定“方向”，我们就可以据此衡量任何一段文本。

1. 收集表示 (Collecting Representations)

第一步是将 LLM 不视为聊天机器人，而是视为特征提取器。当我们将文本输入到仅解码器 (decoder-only) LLM (如 Llama 或 Mistral) 时，文本会逐个 token 地通过多个层进行处理。

RepEval 使用提示模板将输入情境化。例如，如果我们正在评估流畅度，我们可能会将假设文本 (hyp) 包装在一个提示中，如: “Is the following Hyp fluent? Hyp: [Insert Text]…” (下面的 Hyp 流畅吗？Hyp: [插入文本]…) 。

图 1: 使用仅解码器 LLM 收集表示并构建投影方向的流程。

如上图 1 所示，输入序列通过解码器块。在特定的层 \(i\) 和 token \(k\) 处，模型会产生一个隐藏状态向量，记为 \(rep\)。这个向量是一个稠密的数字列表，代表了模型在该时刻对文本的语义理解。

2. 将评估转化为几何问题

一旦我们拥有了这些表示向量，RepEval 就将评估视为一个几何问题。

绝对评估

在绝对评估中，我们需要一个分数 (公式 1) 。

Equation 1

研究人员假设，在向量空间中，存在一个特定的方向向量 \(\vec{d}\) 代表我们正在测量的属性 (例如“流畅度”) 。如果我们把文本的表示投影到这个向量上，得到的值就是我们的分数。

Equation 2

这里，\(rep^T\) 是表示向量的转置，\(\vec{d}\) 是投影方向。点积给出了一个标量值——即分数。

成对评估

在成对评估中，我们有两个回复，A 和 B。我们可以为“A 比 B 好”的情景构建一个表示 (\(rep_{AB}\)) ，以及为“B 比 A 好”的情景构建一个表示 (\(rep_{BA}\)) 。

图 2: 绝对评估和成对评估的评估过程。

如图 2 所示，目标是确定向量是否表明 A 更优。我们计算两种排列的投影。

Equation 3

如果 \(rep_{AB}\) 的投影更大，则模型预测 A 更好。

3. 寻找“魔法”方向 (\(\vec{d}\))

RepEval 最关键的部分是找到向量 \(\vec{d}\)。我们怎么知道高维空间中的哪个方向对应于“流畅度”或“诚实度”？

作者使用了 主成分分析 (PCA) 。

收集样本: 他们选取极少量的“好”文本和“坏”文本样本对 (少至 5 对) 。
计算差值: 他们计算差值向量: \(\Delta rep = rep_{good} - rep_{bad}\)。这个向量代表了将坏表示转变为好表示所需的位移。
应用 PCA: 他们对这些差值向量执行 PCA，以找到主成分——即数据变化最大的方向。

Equation 4

通过对加权的主成分求和，他们创建了主方向向量 \(\vec{d}\)。这个向量就像一个指向“高质量”的指南针。

这种方法是无监督的，因为它不需要训练神经网络或微调 LLM。它只是简单地分析少数几个示例的几何特征。

可视化: 看见语义偏移

这种向量数学真的能映射到现实吗？研究人员使用 t-SNE (一种可视化高维数据的技术) 对表示进行了可视化，以观察提示是否真的改变了文本在向量空间中的位置。

图 4: 表示 (reps) 的 t-SNE 可视化展示了降维结果。

在图 4 中，我们看到相同文本样本在不同提示 (流畅度与连贯性) 下的表示。簇之间 (橙色与米色) 清晰的分离证明，提示有效地将表示移动到了适合该特定评估标准的不同语义区域。

实验与结果

研究人员在涵盖摘要、数据到文本生成和对话的 14 个数据集上，将 RepEval 与包括 GPT-4 在内的最先进指标进行了测试。

绝对评估结果

绝对评估 (流畅度、一致性、连贯性) 的结果令人信服。他们将 RepEval (使用 Mistral-7B 模型) 与无参考指标 (如 GPTScore 和 BARTScore) 以及基于参考的指标 (如 BERTScore) 进行了比较。

表 1: 绝对评估结果。

数据中的关键要点:

超越巨头: RepEval (仅使用 5 或 20 个样本的 PCA) 经常优于 GPT-4 和 GPT-3.5。例如，在 SummEval 连贯性任务 (COH) 中，RepEval 的相关性达到了 0.534 , 显著高于 GPT-4 的 0.263 。
效率: RepEval 使用的是 7B 参数的模型以获得这些结果。据估计，GPT-4 的参数超过一万亿。计算成本的节省是巨大的。
仅假设 (Hyp-Only) : 有趣的是，“Hyp-only”一列显示，即使没有特定的提示，文本的原始表示也包含了显著的质量信息，尽管提示 (“Prompt”列) 通常会提升性能。

成对评估准确率

对于成对任务 (选择更好的回复) ，RepEval 在复杂的对齐基准测试 (如 MT Bench 和 HHH Alignment) 上进行了测试。

使用的准确率公式是标准的:

Equation 5

研究发现, RepEval 始终获得比标准提示法更高的准确率。 例如，在“HHH Alignment”数据集上，RepEval 达到了 90% 以上的准确率，与 Claude-3 和 GPT-4 的提示法不相上下甚至更高。这证实了虽然一个小模型可能难以清晰表达为什么回复 A 比回复 B好，但在统计上，它的隐藏层知道答案。

PCA 真的起作用了吗？

人们可能会想，方向 \(\vec{d}\) 是否只是随机噪声。为了测试这一点，作者将 PCA 导出的方向与随机向量进行了比较。

图 5: 随机测试结果

图 5 显示了元评估结果 (与人类判断的相关性) 。箱线图代表随机向量，在零相关性附近徘徊 (成对评估则在 0.5 准确率附近) 。明显的圆点代表使用 PCA 的 RepEval。PCA 的结果以最好的方式成为了离群值——在随机向量失效的地方始终实现高相关性。这证明 PCA 方法成功地分离出了“质量”信号。

中间层的秘密

论文中一个意想不到的发现是信息存在于何处。直觉上，人们可能会认为最后一层的最后一个 token 包含了模型的最终“想法”。

图 3: 使用 RepEval 以及不同 token 和位置选择进行流畅度绝对评估的相关性结果。

然而，图 3 中的热力图揭示了一个不同的故事。最高的相关性 (最深红色) 通常出现在中间到靠后的层 , 而不是最后一层 (Layer -1) 。

为什么? 作者认为，仅解码器模型的最后几层为了预测下一个 token 进行了大量优化。然而，中间层是模型整合上下文和语义理解的地方。因此，从倒数第 5 层到倒数第 15 层提取表示通常比从最终输出层能获得更好的评估信号。

结论与启示

RepEval 代表了我们对“AI 评估”思考方式的转变。我们不必将 LLM 视为必须与之对话的黑盒，而是可以将它们视为透明的数学工具。

关键要点:

隐藏状态蕴含真理: LLM 无法写出好的批评并不意味着它不理解文本。这种理解被锁定在向量表示中。
几何优于生成: 通过将这些向量投影到通过 PCA 找到的“质量方向”上，我们获得了精确、连续的分数。
效率: 我们可以使用开源的 7B 参数模型达到 GPT-4 级别的评估性能，从而大幅降低评估的成本和延迟。

对于学生和研究人员来说，这开启了令人兴奋的可能性。它表明未来的评估指标可能不是新模型，而是探测现有模型的更好方法。RepEval 有效地将 LLM 的“黑盒”变成了一个透明的玻璃房，让我们能够看到——并测量——模型究竟在想什么。

引言#

背景#

两类评估方式#

当前指标的局限性#

核心方法: RepEval#

1. 收集表示 (Collecting Representations)#

2. 将评估转化为几何问题#

绝对评估#

成对评估#

3. 寻找“魔法”方向 (\(\vec{d}\))#

可视化: 看见语义偏移#

实验与结果#

绝对评估结果#

成对评估准确率#

PCA 真的起作用了吗？#

中间层的秘密#

结论与启示#

引言

背景