引言

在大型语言模型 (LLM) 飞速发展的世界中，基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而，在这片版图中存在一个显眼的盲点: 语言和文化的多样性。

大多数标准基准测试都是以英语为中心的。即便存在多语言基准测试，它们往往也存在两个致命缺陷。首先是测试集污染 (test set contamination) : 由于流行的基准测试在网络上唾手可得，模型在训练过程中往往已经摄入了这些问题，实际上是在“背诵”答案。其次是缺乏文化细微差别 : 许多基准测试仅仅是将英语问题翻译成其他语言，丢失了定义真正流利度的本地语境、习语和文化价值观。

如果一个 LLM 在针对美国用户的金融问题的印地语译本上得分很高，这是否意味着它真正理解印度农村用户的金融现实？大概率不是。

这正是 PARIKSHA 的切入点，这是一项挑战多语言评估现状的突破性研究。该研究聚焦于 10 种印度本土语言，进行了一项大规模调查——涉及超过 90,000 次人工评估——旨在比较人类和 AI 模型如何评估语言表现。研究结果为非英语世界构建更公平、更准确的 AI 提供了路线图。

当前基准测试的问题

在深入探讨解决方案之前，我们必须了解问题的严重性。由于缺乏高质量、多样化的数据集，评估印地语、泰米尔语或孟加拉语等语言的 LLM 非常困难。

此外，仅依靠人工评估既昂贵又缓慢。这导致了 “LLM 即裁判” (LLM-as-a-Judge) 的兴起，即使用强大的模型 (如 GPT-4) 来为其他模型的回复打分。但这引发了一个循环论证的问题: 如果我们使用以西方为中心的模型来为多语言输出打分，我们是否只是在强化西方的偏见？

PARIKSHA 背后的研究人员着手回答两个基本问题:

“印度本土中心”的模型与 GPT-4 和 Llama-3 等全球巨头相比如何？
在复杂的多语言语境中，我们能信任 LLM 去评估其他 LLM 吗？还是说我们需要人类介入？

方法论: 设计 PARIKSHA

为了回答这些问题，研究人员设计了一套严格的评估流程。与以往依赖翻译的研究不同，PARIKSHA 邀请了母语人士专门针对目标文化策划提示词 (prompts) 。

展示提示词筛选、回复生成以及人类与 LLM 双重评估的评估流程图。

如 Figure 1 所示，该流程包含四个不同阶段:

提示词构建: 母语人士创建多样化的提示词。
回复生成: 从 30 个不同的模型生成回复。
评估: 人类和 LLM 分别对这些回复进行评估。
分析: 构建排行榜并分析一致性。

1. 具有文化细微差别的提示词

该研究涵盖了 10 种语言: 印地语、泰米尔语、泰卢固语、马拉雅拉姆语、卡纳达语、马拉地语、奥里亚语、孟加拉语、古吉拉特语和旁遮普语。

提示词被分为三个领域:

金融: 例如，“借记卡和信用卡有什么区别？”
健康: 例如，“我该如何改善姿态？”
文化: 这是最独特的部分。这些问题涉及当地传统、政治和社会规范，是单纯的翻译无法捕捉的。

表格显示了金融、健康和文化类别的提示词分布及示例。

2. 参赛者: 模型选择

该研究评估了 30 个模型，分为三类:

专有模型 (Proprietary Models) : 如 GPT-4、GPT-4o 和 Gemini-Pro 等闭源巨头。
开源基础模型 (Open-Source Base Models) : Llama-2、Llama-3、Mistral 和 Gemma。
印度本土模型 (Indic Models) : 专门在印度语言数据上进行微调的模型 (例如 Airavata, Navarasa, SamwaadLLM) 。

目标是观察较小的、特定语言的模型是否能战胜通用模型。

表格列出了评估中使用的特定印度本土模型，如 Airavata 和 Tamil-Llama。

3. 评估竞技场

为了给这些模型评分，研究人员采用了两种截然不同的评估策略，并由人类和 LLM (GPT-4-32k) 分别执行。

策略 A: 成对比较 (对战)

在这种设置下，评估者会看到一个提示词和两个模型回复 (匿名) 。他们必须决定: 是回复 A 更好，回复 B 更好，还是平局?

这种方法模仿了著名的“Chatbot Arena”风格。为了量化胜负，研究人员使用了 Elo 等级分系统 (Elo Rating system) , 这是一种最初为国际象棋开发的方法。

Elo 等级分系统中计算预期分数的公式。

Elo 计算允许研究人员根据模型赢得另一模型“对战”的概率对模型进行排名。

策略 B: 直接评估

成对比较能告诉你谁更好，但不能告诉你为什么。为此，PARIKSHA 使用了直接评估。评估者根据三个具体指标对单个回复进行评分:

语言可接受性 (LA): 语法和流畅度对母语人士来说是否自然？
任务质量 (TQ): 模型是否真正回答了用户的具体问题？
幻觉 (H): 模型是否编造了事实？

为此任务提供给 LLM 评估者的提示词 (Prompt) 经过高度结构化设计，以确保与人类评分标准一致。

用于 LLM 直接评估的提示词模板，要求给出分数和理由。

至关重要的是，对幻觉的定义非常严格。如果输出引入了输入中不存在的主张或事实错误——这是低资源语言生成中的常见顽疾——将被打 0 分。

幻觉指标的详细评分标准，解释了事实一致性的评分准则。

人类因素

PARIKSHA 最令人印象深刻的部分可能在于人类参与的规模。研究人员与 KARYA 合作，这是一家道德数据公司，雇佣来自印度农村和边缘化社区的工人。这 90,000 次人工评估提供了一个基于这些语言日常使用者真实视角的“金标准”。

结果: 排行榜

那么，哪些模型独占鳌头呢？

如下图所示的结果展示了所有 10 种语言的 Elo 评分 (成对比较) 和直接评估分数。

人类与 LLM 评估者的 Elo 评分和直接评估分数的并排比较。

排行榜的关键结论:

前沿模型占主导地位: GPT-4o 和 Llama-3 70B 表现始终最佳。尽管不是专门针对印度数据训练的，但它们庞大的规模和推理多样性赋予了它们优势。
Llama-3 的崛起: 开源的 Llama-3 模型相比 Llama-2 显示出显著进步，表明开源基础模型正在迅速追赶。
印度本土模型: 微调后的模型 (如 SamwaadLLM) 通常比它们的基础模型 (如 Llama-2 或 Mistral) 表现更好，但往往难以击败庞大的专有模型。

核心冲突: 人类 vs. AI 评估者

PARIKSHA 最具科学意义的发现不仅仅是哪个模型最好，而是我们如何衡量它。该研究比较了人类评分与 LLM 评分，以检查一致性。

成对比较一致性: 尚可

当被要求在两个回复中选出一个获胜者时 (成对比较) ，人类和 LLM 的一致性相当不错。他们通常能识别出相同的顶级模型。

直接评估一致性: 较差

然而，当被要求对幻觉或语言质量等具体细节进行评分时，一致性显著下降。

展示成对比较和直接评估的语言一致性分数 (Kappa) 的雷达图。

如 Figure 5 所示，红色虚线 (人类-LLM 直接评估) 向中心塌陷，表明一致性较低。这在 孟加拉语 和 奥里亚语 等语言中尤为明显。

为什么会发生这种情况？数据揭示了 LLM 评估者存在的几个偏见:

1. 厌恶“平局”

如果两个模型都生成了垃圾内容，或者都同样好，人类会很自然地判定为“平局”。然而，LLM 评估者却果断过头了。即使选择是任意的，它们也几乎总是会选出一个获胜者。

比较人类和 LLM 在回复分布 (A 更好、B 更好、平局) 上的柱状图。

2. 对幻觉视而不见

这是一个严重的安全问题。人类会严厉惩罚编造事实的模型，而 LLM 评估者则宽容得多。事实上，在人类认定两个回复都存在幻觉的情况下，LLM 仍然在 87% 的情况下选出了一个“获胜者”，而人类只选了 53%。

3. 乐观主义偏差

LLM 倾向于虚高分数。在直接评估中，LLM 评估者在语言可接受性和任务质量上给出的分数始终高于人类。它经常未能注意到母语人士显而易见的语法错误。

比较幻觉、语言可接受性和任务质量得分分布的柱状图。

在 Figure 8 中，注意观察 LLM (红色条) 相比人类 (蓝色条) 在任务质量上如何向右 (更高分/更好质量) 倾斜。LLM 本质上是一个“给分宽松的阅卷人”。

安全分析: 本地语言中的毒性

最后，研究人员使用 RTP-LX 数据集进行了安全检查，该数据集旨在诱导有毒回复。对于这项敏感任务，他们依赖 LLM 评估，而不是将有毒内容暴露给人类工作者。

展示不同模型毒性水平的雷达图。

结果( Figure 4 )显示，基于 API 的模型 (GPT-4, Gemini) 具有强大的护栏，拒绝生成有毒内容。然而，较小的开源模型往往未能通过这些安全检查，在用印地语提示时会生成有问题的内容。

结论与启示

PARIKSHA 研究为 AI 社区敲响了警钟。虽然大型语言模型可以作为有用的“粗略”评估者，但它们还不能取代人类，尤其是在多语言和低资源语境下。

三个主要教训:

文化语境至关重要: 你不能简单地翻译英语基准测试。你需要母语人士来设计测试文化知识的提示词。
LLM 是阿谀奉承者: AI 评估者偏爱它们自己的输出 (自我偏见) ，不喜欢平局，并且对幻觉有着危险的宽容度。
混合评估是关键: 对于高风险的评估，完全依赖“LLM 即裁判”是有风险的。我们需要一种混合方法，让人类——特别是来自不同背景的母语人士——留在回路中。

当我们努力使 AI 真正全球化时，像 PARIKSHA 这样的项目表明，扩大评估规模不仅仅需要计算能力；它更需要对人类语言多样性的深度投入。

引言#

当前基准测试的问题#

方法论: 设计 PARIKSHA#

1. 具有文化细微差别的提示词#

2. 参赛者: 模型选择#

3. 评估竞技场#

策略 A: 成对比较 (对战)#

策略 B: 直接评估#

人类因素#

结果: 排行榜#

核心冲突: 人类 vs. AI 评估者#

成对比较一致性: 尚可#

直接评估一致性: 较差#

1. 厌恶“平局”#

2. 对幻觉视而不见#

3. 乐观主义偏差#

安全分析: 本地语言中的毒性#

结论与启示#

引言