介绍

在人工智能飞速发展的格局中，像 GPT-4、Llama 3 和 Claude 这样的大型语言模型 (LLM) 已成为推动创新的引擎。然而，一个巨大的瓶颈阻碍了研究人员和工程师的进步: 高昂的评估成本。

要真正了解模型的能力，必须在海量基准测试中对其进行测试——这些任务涵盖从编码问题到复杂推理和创意写作。对单个 LLM 进行全面基准测试可能花费超过 10,000 美元并消耗数千个 GPU 小时。考虑到已发布模型的庞大数量以及训练配置的各种变化，评估矩阵变得大得不可能填满，且极其昂贵。

多年来，预测性能的行业标准一直是“缩放定律 (Scaling Laws) ”。这些类似于物理学的幂律表明计算量 (FLOPs)、数据集大小和训练损失之间存在可预测的关系。其逻辑很诱人: 增加更多算力，损失就会下降。然而，训练损失只是一个代理指标；它并不总是与模型解决特定逻辑难题或总结医学文本的能力完美相关。此外，传统的缩放定律通常将每个模型家族视为一座独特的孤岛，未能利用不同架构之间共享的特征。

这将我们引向一篇开创性的论文: Collaborative Performance Prediction for Large Language Models (大型语言模型的协同性能预测) 。研究人员提出了一种视角的转变。与其仅依赖僵化的缩放方程，不如将 LLM 评估视为一个推荐问题？就像 Netflix 根据您的观看历史和相似用户的偏好来预测您会喜欢哪部电影一样，我们可以根据相似模型在相似任务上的表现来预测某个 LLM 在特定任务上的表现。

在本文中，我们将剖析这个名为 协同性能预测 (CPP) 的新颖框架。我们将探讨它如何利用矩阵分解和神经协同过滤来超越传统缩放定律，节省计算资源，并提供关于 LLM 有效性的深度可解释性。

背景: 缩放定律的局限性

要理解为什么需要 CPP，我们必须先看看当前的现状。“缩放定律”假设 (由 Kaplan 等人推广) 认为模型性能 (具体为测试损失 \(L\)) 随着训练中使用的计算资源 \(C\) 呈幂律函数提升。

Equation 4: The Scaling Law Logarithmic Relationship

如上式所示，\(\omega_f\) 和 \(b_f\) 是特定于模型家族 \(f\) 的系数。虽然这对高级容量规划 (例如，“我需要多少 GPU 才能击败 GPT-3？”) 非常有用，但在应用于下游任务时，它有三个主要局限性:

高昂的训练成本: 拟合这些曲线需要训练多个不同大小的模型来“找到那条线”。
不透明性: 它通常依赖于像 FLOPs 这样的透明设计因素。如果你正在评估一个不公开这些数字的闭源专有模型，缩放定律就毫无用处。
孤立性: 它忽视了模型家族之间的相似性。Llama 模型和 Mistral 模型可能具有缩放定律所忽略的共同底层行为，因为缩放定律只拟合特定家族的曲线。

CPP 背后的研究人员注意到两件事: 不同的模型家族 (如 Llama 和 GPT) 通常具有分布相似性，而不同的任务 (如编码和数学) 依赖于相关的底层能力。这一观察激发了使用 协同过滤 (Collaborative Filtering) ——即驱动推荐系统的同一技术——的想法。

核心方法: 协同性能预测 (CPP)

CPP 的核心论点是，我们可以构建一个巨大的“分数矩阵”，其中行代表不同的 LLM，列代表不同的任务。这个矩阵是稀疏的——意味着大多数单元格是空的，因为并非每个模型都在每个任务上进行过测试。目标就是填补这些空白。

框架

CPP 框架整合了来自不同来源 (学术论文、排行榜、技术报告和模型卡) 的数据，以构建“协同数据”库。

Figure 1: Framework for Collaborative Performance Prediction of Large Language Models.

如图 1 所示，该系统由两个主要输入组成:

协同数据: 这包括原始性能分数 (矩阵) 以及模型 (例如参数大小、上下文窗口) 和任务 (例如少样本设置、所需能力) 的描述性因素。
协同预测方法: 这是处理数据以输出预测分数的算法引擎。

数学引擎

从本质上讲，这种方法利用了 矩阵分解 (MF) 。直觉是，任何特定分数 \(r_{ui}\) (模型 \(u\) 在任务 \(i\) 上的表现) 都可以通过代表模型的“潜在”向量与代表任务的“潜在”向量的点积来近似。

Equation 1: Matrix Factorization Approximation

这里，\(\mathbf{P}\) 代表模型的潜在特征，\(\mathbf{Q}\) 代表任务的潜在特征。这些潜在特征不一定是人类可读的属性；它们是算法学习到的抽象概念，捕捉了模型或任务的“本质”。

系统通过最小化训练集中预测分数与实际观测分数之间的差异来学习这些向量:

Equation 2: Loss Function for Matrix Factorization

神经协同过滤 (NCF)

虽然简单的矩阵分解很强大，但它假设了一种线性关系 (点积) 。研究人员更进一步，采用了 神经协同过滤 (NCF) 。

NCF 用多层感知机 (MLP)——一种神经网络——取代了简单的点积。这使得系统能够捕捉模型和任务之间复杂的非线性相互作用。此外，研究人员不仅输入模型和任务的 ID，还输入了它们的 显式设计因素 来增强 NCF。

Equation 5: Neural Collaborative Filtering Formulation

在上式中:

\(p_i\) 和 \(q_j\) 是学习到的潜在向量 (ID 嵌入) 。
\(e_{vi}\) 和 \(e_{vj}\) 是显式设计因素的嵌入 (例如，嵌入模型具有“700亿参数”或任务是“0-shot”的概念) 。

这种“因素增强”的方法至关重要。它允许模型仅通过查看描述，就能泛化到完全没有历史性能数据的新模型或任务。

数据

这项工作的重要贡献之一是数据本身的整理。研究人员收集了一个涉及 72 个模型和 29 个任务的矩阵。然而，正如现实世界中常见的那样，数据是不均匀的。

Figure 3: Distribution of Testing Coverage Across Models and Tasks.

图 3 揭示了一种“长尾”分布。一些流行的模型 (如 Llama 系列) 在几乎所有任务上都进行了测试，而其他模型的数据点非常稀疏。同样，像 MMLU 这样的基准测试无处不在，而小众任务的数据点却很少。这种稀疏性使得传统的回归变得困难，但这正是协同过滤大显身手的地方。

为了使因素增强预测起作用，作者对模型和任务的元数据进行了标准化。

Table 3: Design Factors of Models and Tasks

表 3 列出了使用的显式因素。注意，对于模型，他们不仅考虑参数大小，还考虑特定架构的细节，如 上下文窗口、批大小 和 碳排放 。对于任务，他们按能力 (例如推理) 、输出格式 和 少样本设置 进行分类。

实验与结果

研究人员使用他们收集的数据集和 HELM 排行榜验证了 CPP。他们将该方法与传统矩阵分解和纯粹基于因素的预测进行了比较。

准确性比较

主要问题是: CPP 预测模型在一个从未见过的任务上的实际分数有多好？

Figure 4: Comparative visualization of predictive accuracy across various scoring methods.

图 4 可视化了预测分数 (X 轴) 和实际分数 (Y 轴) 之间的相关性。完美的预测将完全落在对角线上。

矩阵分解 (左) : 显示出不错的聚类，但有一些方差。
神经协同过滤 (中) : 显示出更紧密的聚类。
因素增强 NCF (右) : 提供了稳健的性能。

结果表明，将显式设计因素整合到 NCF 框架中显著提高了预测准确性。它结合了两个世界的优点: 基于 ID 学习的特异性和基于特征学习的泛化性。

与缩放定律的比较

终极测试是将 CPP 与行业标准的缩放定律 (SL) 进行比较。研究人员设定了两种场景:

CPP-0: 在特定模型零先验测试信息的情况下预测性能 (冷启动) 。
CPP-2: 在观察到模型在仅两个随机任务上的分数后预测性能。

Figure 5: Comparison of CPP versus traditional scaling laws (SL)

图 5 展示了 CPP 令人信服的胜利。

在 CPP-0 (a) 中，预测很好地分布在对角线上，而缩放定律 (SL) 倾向于将预测聚集在 0.5 周围，未能捕捉到真实性能的动态范围。
在 CPP-2 (b) 中，一旦模型仅用两个数据点进行“锚定”，CPP 的准确性就会急剧提高，实现了比缩放定律低得多的均方误差 (MSE)。

这表明我们不需要消耗数千个 GPU 小时就能知道模型的表现。在几个廉价任务上对其进行测试并使用 CPP，可以对昂贵的基准测试产生高度准确的预测。

预测涌现能力

对缩放定律的一个主要批评是它们难以预测“涌现”能力——即仅在模型达到一定规模后才出现的突然能力跳跃 (如复杂推理) 。推荐系统能预测这些跳跃吗？

Figure 10: Comparison of CPP versus SL in Complex Reasoning and CoT Tasks.

如图 10 所示，答案是肯定的。当应用于复杂推理和思维链 (CoT) 任务 (如 GSM8K 或 MATH) 时，CPP 比缩放定律更紧密地遵循“完美预测”线。因为 CPP 利用了其他已经表现出涌现现象的大型模型的历史，它可以推断出具有相似特征的当前模型很可能也会表现出这些能力。

可解释性: 究竟什么最重要？

使用基于特征的神经网络最令人着迷的方面之一是，我们可以分析哪些特征对预测贡献最大。研究人员使用了 Shapley 值——一种来自合作博弈论的方法——来量化每个因素的重要性。

Figure 6: Mean Shapley Value on Each Factor.

图 6 挑战了“参数大小为王”的传统观念。

模型因素: 虽然数据大小是首要因素，但 模型家族 紧随其后。这意味着架构“DNA” (优化技巧、激活函数、专有数据配方) 几乎与使用的数据总量一样重要。有趣的是, 上下文窗口 和 批大小 也起着重要作用，在此分析中显得比 FLOPs 更有影响力。
任务因素: 被测试的具体能力 (例如推理与回忆) 是主导因素。这证实了模型在不同认知领域表现不一致的直觉。

结论与启示

“协同性能预测”框架标志着 LLM 评估的一个成熟点。它使我们从“训练并测试一切”的暴力心态，转向更智能、数据驱动的方法。

主要收获:

效率: 我们可以利用历史数据和极少的新测试 (少至 2 个任务) 准确预测昂贵基准测试的模型性能。
灵活性: 与需要参数计数和 FLOPs 的缩放定律不同，CPP 可以通过依赖观察分数的协同过滤来处理“黑盒”专有模型。
可解释性: 像模型家族和上下文窗口这样的因素是下游性能的关键驱动因素，这种细微差别在纯粹的计算缩放方程中往往会丢失。

随着开源和专有模型数量的爆炸式增长，模型 \(\times\) 任务的矩阵只会变得更加稀疏。像 CPP 这样的技术将成为研究人员在这个空间中导航的基本工具，使他们能够识别有前途的模型，并将计算资源集中在最重要的地方。AI 评估的未来看起来很像你的 Netflix 首页: 高度个性化，出奇地准确，并由社区的集体历史提供动力。

超越缩放定律：类似 Netflix 的算法如何预测 LLM 性能

介绍

背景: 缩放定律的局限性

核心方法: 协同性能预测 (CPP)

框架

数学引擎

神经协同过滤 (NCF)

数据

实验与结果

准确性比较

与缩放定律的比较

预测涌现能力

可解释性: 究竟什么最重要？

相关性分析

结论与启示

介绍#

背景: 缩放定律的局限性#

核心方法: 协同性能预测 (CPP)#

框架#

数学引擎#

神经协同过滤 (NCF)#

数据#

实验与结果#

准确性比较#

与缩放定律的比较#

预测涌现能力#

可解释性: 究竟什么最重要？#

相关性分析#

结论与启示#

介绍

背景: 缩放定律的局限性

核心方法: 协同性能预测 (CPP)

框架

数学引擎

神经协同过滤 (NCF)

数据

实验与结果

准确性比较

与缩放定律的比较

预测涌现能力

可解释性: 究竟什么最重要？

相关性分析

结论与启示