引言
在大型语言模型 (LLM) 飞速发展的格局中,生成文本只是一半的战斗。另一半——甚至可以说是更难的一半——是评估这些文本。我们如何知道一个回复是有害的、有帮助的、流畅的,还是一致的?
传统上,我们要依赖 BLEU 或 ROUGE 这样的指标,它们只是简单地计算模型输出与人类参考文本之间的单词重叠度。但这些指标是僵化的;它们无法捕捉细微差别或语义。最近,业界已经转向“LLM 即裁判 (LLM-as-a-Judge) ”,即我们要求像 GPT-4 这样的强大模型对回复进行打分。虽然这种方法有效,但它的成本极高、速度缓慢,并且严重依赖模型表达批评意见的能力。
但是,如果模型在生成任何批评性文字之前就知道一段文本很糟糕呢?如果模型的“直觉”——即其内部的数学表示——比它的输出更准确呢?
这正是上海交通大学的研究人员提出的新评估框架 RepEval 背后的核心问题。RepEval 证明了 LLM 的内部表示 (隐藏状态) 包含着关于文本质量的丰富且决定性的信息。通过提取这些表示并对其进行数学投影,我们可以获得比 GPT-4 与人类判断相关性更好的评估结果,同时使用的模型要小得多,所需的训练数据也极少。
在这篇文章中,我们将解读 RepEval 的工作原理、其投影策略背后的数学逻辑,以及为什么查看 LLM 的“引擎盖之下”可能是 AI 评估的未来。
背景
要理解 RepEval,我们首先需要对目前文本评估的方式进行分类。
两类评估方式
文本评估通常分为两种场景:
- 绝对评估 (Absolute Evaluation) : 模型查看单个文本片段,并根据流畅度、连贯性或一致性等标准对其进行评分。
- 成对评估 (Pair-wise Evaluation) : 模型查看针对同一提示的两个回复,并决定哪一个更好。这对训练方法 (如基于人类反馈的强化学习 RLHF) 至关重要。
当前指标的局限性
基于参考的指标 (如 BLEU) 需要一个由人类编写的“完美答案”来进行比较,而在现实世界的聊天场景中,这往往是不可用的。无参考指标通常涉及提示 LLM 生成一个分数 (例如,“请给这个打分,范围 1-5”) 。
提示 LLM 进行打分的问题在于,它依赖于模型的生成能力。一个较小的模型 (如 7B 参数模型) 可能“知道”一个句子是不连贯的,但很难生成结构化的批评或始终输出正确的数字格式。RepEval 完全绕过了生成阶段,直接利用模型的理解能力。
核心方法: RepEval
RepEval 的核心论点是,高质量文本和低质量文本在 LLM 的向量空间中看起来是不同的。如果我们能在该空间中找到从“坏”指向“好”的特定“方向”,我们就可以据此衡量任何一段文本。
1. 收集表示 (Collecting Representations)
第一步是将 LLM 不视为聊天机器人,而是视为特征提取器。当我们将文本输入到仅解码器 (decoder-only) LLM (如 Llama 或 Mistral) 时,文本会逐个 token 地通过多个层进行处理。
RepEval 使用提示模板将输入情境化。例如,如果我们正在评估流畅度,我们可能会将假设文本 (hyp) 包装在一个提示中,如: “Is the following Hyp fluent? Hyp: [Insert Text]…” (下面的 Hyp 流畅吗?Hyp: [插入文本]…) 。

如上图 1 所示,输入序列通过解码器块。在特定的层 \(i\) 和 token \(k\) 处,模型会产生一个隐藏状态向量,记为 \(rep\)。这个向量是一个稠密的数字列表,代表了模型在该时刻对文本的语义理解。
2. 将评估转化为几何问题
一旦我们拥有了这些表示向量,RepEval 就将评估视为一个几何问题。
绝对评估
在绝对评估中,我们需要一个分数 (公式 1) 。

研究人员假设,在向量空间中,存在一个特定的方向向量 \(\vec{d}\) 代表我们正在测量的属性 (例如“流畅度”) 。如果我们把文本的表示投影到这个向量上,得到的值就是我们的分数。

这里,\(rep^T\) 是表示向量的转置,\(\vec{d}\) 是投影方向。点积给出了一个标量值——即分数。
成对评估
在成对评估中,我们有两个回复,A 和 B。我们可以为“A 比 B 好”的情景构建一个表示 (\(rep_{AB}\)) ,以及为“B 比 A 好”的情景构建一个表示 (\(rep_{BA}\)) 。

如图 2 所示,目标是确定向量是否表明 A 更优。我们计算两种排列的投影。

如果 \(rep_{AB}\) 的投影更大,则模型预测 A 更好。
3. 寻找“魔法”方向 (\(\vec{d}\))
RepEval 最关键的部分是找到向量 \(\vec{d}\)。我们怎么知道高维空间中的哪个方向对应于“流畅度”或“诚实度”?
作者使用了 主成分分析 (PCA) 。
- 收集样本: 他们选取极少量的“好”文本和“坏”文本样本对 (少至 5 对) 。
- 计算差值: 他们计算差值向量: \(\Delta rep = rep_{good} - rep_{bad}\)。这个向量代表了将坏表示转变为好表示所需的位移。
- 应用 PCA: 他们对这些差值向量执行 PCA,以找到主成分——即数据变化最大的方向。

通过对加权的主成分求和,他们创建了主方向向量 \(\vec{d}\)。这个向量就像一个指向“高质量”的指南针。
这种方法是无监督的,因为它不需要训练神经网络或微调 LLM。它只是简单地分析少数几个示例的几何特征。
可视化: 看见语义偏移
这种向量数学真的能映射到现实吗?研究人员使用 t-SNE (一种可视化高维数据的技术) 对表示进行了可视化,以观察提示是否真的改变了文本在向量空间中的位置。

在图 4 中,我们看到相同文本样本在不同提示 (流畅度与连贯性) 下的表示。簇之间 (橙色与米色) 清晰的分离证明,提示有效地将表示移动到了适合该特定评估标准的不同语义区域。
实验与结果
研究人员在涵盖摘要、数据到文本生成和对话的 14 个数据集上,将 RepEval 与包括 GPT-4 在内的最先进指标进行了测试。
绝对评估结果
绝对评估 (流畅度、一致性、连贯性) 的结果令人信服。他们将 RepEval (使用 Mistral-7B 模型) 与无参考指标 (如 GPTScore 和 BARTScore) 以及基于参考的指标 (如 BERTScore) 进行了比较。

数据中的关键要点:
- 超越巨头: RepEval (仅使用 5 或 20 个样本的 PCA) 经常优于 GPT-4 和 GPT-3.5。例如,在 SummEval 连贯性任务 (COH) 中,RepEval 的相关性达到了 0.534 , 显著高于 GPT-4 的 0.263 。
- 效率: RepEval 使用的是 7B 参数的模型以获得这些结果。据估计,GPT-4 的参数超过一万亿。计算成本的节省是巨大的。
- 仅假设 (Hyp-Only) : 有趣的是,“Hyp-only”一列显示,即使没有特定的提示,文本的原始表示也包含了显著的质量信息,尽管提示 (“Prompt”列) 通常会提升性能。
成对评估准确率
对于成对任务 (选择更好的回复) ,RepEval 在复杂的对齐基准测试 (如 MT Bench 和 HHH Alignment) 上进行了测试。
使用的准确率公式是标准的:

研究发现, RepEval 始终获得比标准提示法更高的准确率。 例如,在“HHH Alignment”数据集上,RepEval 达到了 90% 以上的准确率,与 Claude-3 和 GPT-4 的提示法不相上下甚至更高。这证实了虽然一个小模型可能难以清晰表达为什么回复 A 比回复 B好,但在统计上,它的隐藏层知道答案。
PCA 真的起作用了吗?
人们可能会想,方向 \(\vec{d}\) 是否只是随机噪声。为了测试这一点,作者将 PCA 导出的方向与随机向量进行了比较。

图 5 显示了元评估结果 (与人类判断的相关性) 。箱线图代表随机向量,在零相关性附近徘徊 (成对评估则在 0.5 准确率附近) 。明显的圆点代表使用 PCA 的 RepEval。PCA 的结果以最好的方式成为了离群值——在随机向量失效的地方始终实现高相关性。这证明 PCA 方法成功地分离出了“质量”信号。
中间层的秘密
论文中一个意想不到的发现是信息存在于何处。直觉上,人们可能会认为最后一层的最后一个 token 包含了模型的最终“想法”。

然而,图 3 中的热力图揭示了一个不同的故事。最高的相关性 (最深红色) 通常出现在中间到靠后的层 , 而不是最后一层 (Layer -1) 。
为什么? 作者认为,仅解码器模型的最后几层为了预测下一个 token 进行了大量优化。然而,中间层是模型整合上下文和语义理解的地方。因此,从倒数第 5 层到倒数第 15 层提取表示通常比从最终输出层能获得更好的评估信号。
结论与启示
RepEval 代表了我们对“AI 评估”思考方式的转变。我们不必将 LLM 视为必须与之对话的黑盒,而是可以将它们视为透明的数学工具。
关键要点:
- 隐藏状态蕴含真理: LLM 无法写出好的批评并不意味着它不理解文本。这种理解被锁定在向量表示中。
- 几何优于生成: 通过将这些向量投影到通过 PCA 找到的“质量方向”上,我们获得了精确、连续的分数。
- 效率: 我们可以使用开源的 7B 参数模型达到 GPT-4 级别的评估性能,从而大幅降低评估的成本和延迟。
对于学生和研究人员来说,这开启了令人兴奋的可能性。它表明未来的评估指标可能不是新模型,而是探测现有模型的更好方法。RepEval 有效地将 LLM 的“黑盒”变成了一个透明的玻璃房,让我们能够看到——并测量——模型究竟在想什么。
](https://deep-paper.org/en/paper/2404.19563/images/cover.png)