超越标准测试：基于用户真实需求评估大语言模型

引言

想象一名学生，他在历史、数学和计算机科学的笔试中都能拿满分，但却难以进行正常的对话，无法给朋友提供建议，也想不出有创意的礼物点子。在人工智能领域，这是一个普遍存在的悖论。我们拥有的大语言模型 (LLM) 在律师资格考试或数学奥林匹克等标准化测试中能取得近乎完美的成绩，但它们有时却无法满足简单、繁杂、真实世界的用户请求。

多年来，AI 社区一直依赖 MMLU (大规模多任务语言理解) 或 GSM8k (小学数学) 等基准来衡量进步。这些测试对于评估特定能力——如推理、编程和知识检索——非常有效。然而，它们将模型视为考生，而不是服务提供者。它们未必能告诉我们，当人类用户寻求旅行建议、情感支持或创意灵感时，LLM 的服务效果究竟如何。

今天，我们将深入探讨一篇提出范式转变的研究论文: 用户报告场景 (URS) 基准 。这项工作不再局限于静态考试，而是转向以用户为中心的评估，分析 LLM 如何在多文化背景下满足多样化的人类意图。

转变: 从模型能力到用户意图

要理解这项研究的重要性，我们首先需要审视 AI 评估的现状。传统上，基准测试是“以能力为中心”的。它们把 LLM 当作计算器或百科全书。如果模型输出了数学题的正确答案，它就得一分。

然而，现实世界的交互很少是非黑即白的。用户可能会问: “帮我计划一个既轻松又不无聊的周末旅行。”这里没有唯一的“正确”答案。成功与否取决于个性化、语气和创造力。

研究人员提出了一个新的框架，不再按学科 (如数学或物理) 对评估进行分类，而是按用户意图 (User Intents) 进行分类。

图1 展示了从现有基准 (关注能力) 向以用户为中心基准的转变。

如图 1 所示，现有的基准 (左侧) 侧重于按领域分类的考试和人工设计的任务。提出的 URS 框架 (右侧) 则侧重于现实世界的使用情况，根据用户实际想要达成的目标来组织数据——无论是解决专业问题、寻求创意，还是仅仅为了消磨时间的休闲活动。

构建 URS 数据集: 全球化与真实性

对当前以用户为中心的基准测试的主要批评之一是，它们通常依赖于合成数据 (AI 与 AI 对话) 或来自单一平台 (如 ChatGPT) 的日志。这这就产生了偏差。如果我们只基于 ChatGPT 的日志进行评估，我们只能学会如何做一个更好的 ChatGPT，而可能忽略了用户如何与 Claude 或文心一言 (Ernie Bot) 等其他模型进行交互。

为了解决这个问题，作者进行了一项大规模的用户研究，构建了用户报告场景 (URS) 数据集。他们从 712 名参与者那里收集了 1,846 个真实案例。至关重要的是，这些参与者不仅仅来自一个地方；他们遍布亚洲、欧洲、北美及其他地区的 23 个国家。

图2 展示了712名参与者的IP分布，凸显了全球多样性。

图 2 展示了这种地理多样性。虽然中国 (橙色) 和英国/美国 (绿色/红色) 的占比较大，但该数据集涵盖了各种文化背景。这一点至关重要，因为关于中国当地节日的“休闲”查询所需的文化知识，与关于英国流行文化的查询截然不同。

六大核心用户意图

用户到底想从 LLM 那里得到什么？通过研究，研究人员确定并验证了六个主要的用户意图类别。理解这些类别对于评估模型的真正通用性至关重要。

事实性问答 (Factual QA) : 快速、直接地获取信息 (例如，“什么是比特币？”) 。
解决专业问题 (Solving Professional Problems) : 工程或数学等专业领域的深度推理。
文本助手 (Text Assistant) : 涉及摘要、翻译或润色文本的任务。
寻求建议 (Ask for Advice) : 寻求个人决策的意见，如职业规划或购物。
寻求创意 (Seek Creativity) : 旨在获取灵感的头脑风暴 (例如，“给我的猫起个名字”) 。
休闲娱乐 (Leisure) : 娱乐性互动，例如询问电影推荐或角色扮演。

表3 提供了每种用户意图下的英语和中文案例示例。

表 3 提供了这些意图的具体示例。请注意复杂程度的差异。“事实性问答”的提示词可能简短且客观。相比之下，“寻求创意”的提示词 (如向 9 岁孩子解释光合作用) 则要求模型显著调整其风格和语气。

核心方法: 意图感知评估

这篇论文在技术上最有趣的部分是作者如何自动化评分过程。大规模人工批改数千个长篇回答是不可能的。取而代之的是，他们采用了“模型即裁判 (Model-as-Judge) ”的方法，具体来说就是使用 GPT-4 来评估其他模型的回答。

然而，简单地问 GPT-4“这个答案好吗？”太模糊了。研究人员开发了一个意图感知评估框架 (Intent-Aware Evaluation Framework) 。

评估工作流

如下图 3 所示，该流程将原始用户查询转换为评分基准。

图3 展示了评估流程，从 URS 数据集流向评估方法 (意图感知标准) ，最后生成基准结果热力图。

以下是他们方法的逐步分解:

输入: 系统接收用户意图、用户问题、参考答案 (由 GPT-4 等强模型生成) 和测试模型的输出。
意图感知标准: 这是关键创新点。系统不会用判断“数学”题的方式去判断“休闲”提示词。它会根据意图选择特定的标准。
思维链推理: 裁判模型被指示在打分前先“思考”。它会将测试答案与参考答案进行比较，找出不足之处，并在给出最终分数之前评估特定维度。
打分: 从裁判的输出中解析出最终分数 (1-10分) 。

针对不同目标的不同标准

为了确保公平，具体标准会根据用户的目标而变化。你不会仅凭“事实性”来评判一首创意诗歌，也不会仅凭“同理心”来评判一个数学解法。

表6 列出了每种用户意图的具体评估标准。

如表 6 所列，每个意图都有五个特定维度:

事实性问答 优先考虑 事实正确性 和 清晰度。
寻求建议 优先考虑 公平和责任感——确保模型不会给出危险或有偏见的人生建议。
寻求创意 优先考虑 丰富度 和 趣味性。

这种细粒度的方法确保了模型会在该有趣时无聊、或该实事求是时产生幻觉 (hallucinating) 的情况下受到惩罚。

实验与结果

研究人员对 10 个主流 LLM 服务进行了基准测试，包括 GPT-4、Claude-3、Qwen-max (通义千问) 等。结果提供了当前 LLM 能力的一个迷人快照。

1. 排行榜

不出所料, GPT-4 (特别是 GPT-4o) 几乎在所有类别中都稳居榜首，总分为 8.15。然而，差距正在缩小。 Claude-3-Opus 和 Qwen-max 紧随其后，形成了明显的“第一梯队”模型。

有趣的是，模型在客观任务 (解决问题、事实性问答) 上的表现明显优于主观任务 (创意、休闲) 。这表明，虽然 LLM 正在成为优秀的百科全书和计算器，但它们在成为真正迷人或富有创造力的伴侣方面仍需努力。

2. 交叉验证: 裁判有偏见吗？

“LLM即裁判”研究中常见的一个担忧是偏见。如果我们使用 GPT-4 作为裁判，它会不会仅仅偏向于那些听起来像它自己的答案？

为了测试这一点，作者比较了 GPT-4 和 Claude-3 互为裁判的情况。

图4 比较了不同评估者设置下 GPT-4 和 Claude-3 的得分。

图 4 显示了这种交叉验证的结果。“GPT Eva Claude Ans”表示 GPT-4 正在给 Claude 的答案打分。结果表明，无论哪个模型作为裁判，GPT-4 的得分始终略高于 Claude-3。这种一致性验证了排名的有效性——GPT-4 获胜不仅仅因为它既是裁判又是选手；在这种背景下，它似乎确实生成了更受青睐的答案。

3. 基准测试符合人类现实吗？

任何基准测试的终极考验都在于它是否反映了现实。如果基准测试给一个模型打了 10/10 分，但实际用户讨厌使用它，那么这个基准就是无用的。

作者将他们的自动评分与数据收集阶段报告的真实用户满意度评级进行了比较。

图5 展示了一个散点图，其中基准得分与用户报告的满意度呈强相关 (皮尔逊相关系数 0.95) 。

如图 5 所示，相关性非常高 (皮尔逊 r = 0.95) 。你可以看到一个明显的趋势: 获得高基准得分的意图 (如文本助手和事实性问答) 也拥有较高的用户满意度。相反，模型在基准测试中表现挣扎的领域 (如休闲和创意) ，也是用户报告满意度较低的领域。

这验证了 URS 数据集: 自动评分是衡量人类用户满意度的可靠代理指标。

此外，他们还利用人工标注员进行了成对比较 (A/B 测试) 。

图6 展示了自动基准排名与人工成对标注 (BT-Score) 之间的一致性。

图 6 证实了这一发现。源自人工成对比较的模型排名与自动基准排名几乎完美吻合。

结论与启示

URS 基准代表了该领域的成熟。我们正在通过“解决数学题”是智能唯一指标的阶段。通过关注用户意图 , 这项研究强调了用户将 LLM 视为多面手的工具——有时它们是搜索引擎，有时是创意伙伴，有时是闲聊伴侣。

对于学生和研究人员来说，主要的启示是:

语境至关重要: 评估模型需要知道用户为什么问这个问题。对创意提示词给出一个事实性的回答是失败，而不是成功。
主观性是新前沿: 模型正在掌握事实和逻辑。下一个巨大的障碍是掌握细微差别、创造力和个性化——这些领域的得分仍然较低。
全球多样性: 纳入来自 23 个国家的数据确保了我们不仅仅是在构建适用于特定文化人群的 AI。

随着 LLM 继续融入我们的日常生活，像 URS 这样的基准测试将成为标准。它们确保我们不仅仅是在构建纸面上聪明的模型，而是在构建对在输入框中打字的人真正有用的模型。

引言#

转变: 从模型能力到用户意图#

构建 URS 数据集: 全球化与真实性#

六大核心用户意图#

核心方法: 意图感知评估#

评估工作流#

针对不同目标的不同标准#

实验与结果#

1. 排行榜#

2. 交叉验证: 裁判有偏见吗？#

3. 基准测试符合人类现实吗？#

结论与启示#

引言