简介

大语言模型 (LLM) 彻底改变了我们处理文本的方式，自然而然地，它们也正在重塑信息检索 (IR) 领域。当你搜索某些内容时，你希望最好的结果排在最前面( 排名 )，同时也想知道这些结果实际上有多相关( 相关性预测 )。

在目前的研究格局中，关于如何利用 LLM 完成这些任务存在一种二分法。你可以要求 LLM 直接对文档进行评分 (例如，“从 1 到 5 打分”) ，这能给出一个有意义的分数，但往往排名顺序平平。或者，你可以要求 LLM 比较文档 (例如，“文档 A 是否比文档 B 更好？”) 。这种“成对 (Pairwise) ”方法能产生极佳的排名顺序，但得出的分数往往是任意的，无法告诉你内容的实际相关程度。

论文 Consolidating Ranking and Relevance Predictions of Large Language Models through Post-Processing 正是为了解决这一问题。研究人员提出了一种巧妙的后处理流程，将评分方法的准确“标签”与成对方法的优越“排序”结合了起来。

在这篇文章中，我们将剖析基于 LLM 的排名问题，解释论文提出的 受限回归 (Constrained Regression) 方法，并看看实验结果如何表明我们可以真正做到“鱼与熊掌兼得”。

背景: LLM 排名的两种模式

要理解解决方案，我们需要先了解目前搜索系统中部署 LLM 的两种截然不同的方式。

1. 伪评分员 (单点法 Pointwise)

在这种模式下，LLM 就像人类法官一样。它查看一个查询和一个文档，然后问: “这段话是否回答了查询？”

模型会输出“是 (Yes) ”或“否 (No) ”的概率。我们可以将“Yes”标记的概率解释为相关性分数，记为 \(\hat{y}\)。

Equation for normalized relevance prediction.

这种方法效率很高 (对于 \(n\) 个文档，复杂度为 \(O(n)\)) ，并且能产生经过校准的 (calibrated) 分数。如果模型说一个文档的相关度是 0.8，这通常意味着它高度相关。然而，当你根据这些分数对文档进行排序时，最终的排名通常不如更复杂的方法理想。

2. 成对排名提示 (Pairwise Ranking Prompting, PRP)

在这种模式下，系统给 LLM 两个文档，问它哪一个更相关。这利用了 LLM 强大的推理能力来直接比较内容。

为了获得特定文档的分数，系统会统计该文档在与其他候选文档的“对决”中获胜的次数。

Equation for calculating ranking score based on pairwise wins.

虽然这能产生最先进的排名 (高 NDCG 分数) ，但得出的分数是未经校准的。在一个查询中获得“5 次胜利”的分数，可能与在另一个查询中获得“5 次胜利”有着完全不同的含义。绝对数值是没有意义的；只有相对顺序才重要。

核心问题: 校准 vs. 排名

这种冲突如下图所示。左图展示了成对排名 (PRP) 的问题。分数 (y 轴) 在不同的查询 (彩色线条) 之间剧烈波动。在一个查询中得分为 -5 的文档可能是最佳结果，而在另一个查询中得分为 5 的文档可能只是平庸之作。这使得我们无法设定一个全局的“相关性”阈值。

Left: PRP scores are uncalibrated. Right: The proposed Ranking-aware Pseudo-Rater pipeline.

如上图 1 右侧所示，研究人员提出了一种 排名感知伪评分员 (Ranking-Aware Pseudo-Rater) 。其核心思想是将伪评分员的校准分数 (具有良好的绝对值) 与 PRP 的成对偏好 (具有良好的相对顺序) 融合在一起。

为了衡量成功与否，我们需要同时关注两个指标:

NDCG (Normalized Discounted Cumulative Gain): 衡量排名顺序的好坏。越高越好。
ECE (Empirical Calibration Error): 衡量概率分数的准确性。越低越好。

Equation for Empirical Calibration Error (ECE).

解决方案: 受限回归

研究人员引入了一个后处理步骤，该步骤会对“单点评分”进行微调，使其满足“成对约束”。

数学原理

设 \(\hat{y}\) 为来自伪评分员的初始相关性分数。我们要为每个文档找到一个微小的调整量 \(\delta\)。目标是最小化对原始分数的总改动 (保持其校准性) ，同时强制执行一条规则: 如果成对方法认为文档 A 优于文档 B，那么 A 的最终分数必须高于 B。

这被表述为一个受限优化问题:

Equation for the Constrained Regression optimization problem.

在这里，我们在满足最终顺序匹配成对偏好 (\(\Delta_{ij}\)) 的约束条件下，最小化调整量的平方和 (\(\delta^2\)) 。

提高效率

对每个文档与所有其他文档进行全量的成对比较需要 \(O(n^2)\) 次 LLM 调用，这既慢又昂贵。论文介绍了两种高效的变体，以减少回归分析需要满足的约束数量。

1. SlideWin (滑动窗口): 我们不再比较所有内容，只比较在初始排名 (如 BM25) 中彼此相邻的文档。我们在列表上滑动一个窗口，仅为邻居生成约束。这将复杂度降低到了 \(O(kn)\)。

2. TopAll (Top-k vs. All): 我们假设最靠前的结果是最重要的。我们选择前 k 个文档 (基于初始单点评分) ，并将它们与所有其他文档进行比较。这确保了最好的文档被正确地推到顶部，而不会浪费资源去对底部的垃圾内容进行排序。

Illustration of SlideWin (top) and TopAll (bottom) constraint selection methods.

表 1 总结了这些方法的复杂度。请注意，与全量 PRP 的二次方成本不同，提出的高效方法 (SlideWin, TopAll) 保持了与基本伪评分员相似的线性复杂度 \(O(n)\)。

Summary of methods and their complexities.

实验与结果

研究人员在 TREC-DL (2019, 2020)、TREC-Covid 等标准数据集上测试了这些方法。

主要性能

下表显示了核心结果。

PRater: ECE (校准) 好，NDCG (排名) 平庸。
PRP: NDCG 极佳，ECE 糟糕。
Allpair / SlideWin / TopAll (Ours): 提出的方法达到了与 PRP (最佳排名器) 相当的 NDCG 分数，同时保持了与 PRater 相当的低 ECE 分数。

Table 3: Detailed experimental results comparing ranking and relevance metrics.

请看 TREC-DL 2020 这一行 (第二个大块) 。 Allpair 方法实现了 0.7054 的 NDCG@10 (与 PRP 的 0.7069 在统计上持平) 和 0.0865 的 ECE (优于 PRater 的 0.0991) 。这证实了该方法成功整合了两种方法的优势。

权衡格局

为了直观地展示这一“两全其美”的成就，我们可以查看排名 vs. 校准的帕累托前沿。

在下面的图表中，x 轴是排名质量 (NDCG，越高越好) ，y 轴是校准误差 (ECE，越低越好) 。理想情况下，你希望处于 右下角 。

Figure 3: Trade-off plots of ECE versus NDCG.

蓝线代表简单的加权集成 (只是将分数相加) 。特定的形状 (三角形) 代表了所提出的受限回归方法。注意三角形如何始终比基线或集成线更靠近右下角。这证明了受限回归是比简单平均更有效的信号组合方式。

模型大小有影响吗？

有人可能会想，这是否只适用于巨大的模型。研究人员对比了 FLAN-T5-XXL 模型和较小的 UL2 模型。

Table 4: Model size effects on performance.

如表 4 所示，该方法具有良好的扩展性。即使模型大小不同，整合方法 (Allpair, SlideWin, TopAll) 也始终弥合了排名和相关性预测之间的差距。

结论

这项研究强调了将 LLM 应用于搜索时的一个关键细微差别: 要求模型“排名”和要求它“评分”会产生根本不同类型的信号。

排名 (成对 Pairwise) 给你正确的顺序，但数字是任意的。
评分 (单点 Pointwise) 给你有意义的数字，但顺序较差。

通过使用 受限回归 , 我们可以对这些模型的输出进行后处理，在不破坏单点分数校准性的前提下满足成对约束。

对于学生和从业者来说，这意味着你不必在排名好的系统和能准确解释其置信度的系统之间做出选择。有了正确的数学框架，你可以将相关性分数的几何特征与排名偏好的拓扑结构统一起来。

简介#

背景: LLM 排名的两种模式#

1. 伪评分员 (单点法 Pointwise)#

2. 成对排名提示 (Pairwise Ranking Prompting, PRP)#

核心问题: 校准 vs. 排名#

解决方案: 受限回归#

数学原理#

提高效率#

实验与结果#

主要性能#

权衡格局#

模型大小有影响吗？#

结论#

简介