大型语言模型 (LLM) 的爆发式增长改变了软件开发的格局。我们不再仅仅是在构建聊天机器人;我们在构建智能体 (Agent) ——那些能够规划、编写代码并协作解决复杂问题的应用程序。从解复杂的数学方程到在模拟环境中管理家庭物流,这些智能体正变得越来越自主。
但这种能力的快速增长带来了一个新的瓶颈: 评估 。
如何知道一个 LLM 应用到底算不算“好”?在传统软件中,我们有单元测试,非通过即失败。在机器学习中,我们有准确率指标。但对于一个辅助人类的生成式智能体而言,“成功”是微妙的。一个智能体可能正确解决了一个数学问题,但解释得晦涩难懂、绕弯子。它可能完成了一项家务,但在此过程中弄坏了其他三样东西。
在这篇深度文章中,我们将探讨一篇旨在解决这一具体问题的研究论文。研究人员介绍了 AgentEval , 这是一个新颖的框架,利用 LLM 来评估其他 LLM。它超越了简单的成功率,去衡量“任务效用 (Task Utility) ”——即应用程序在多大程度上符合用户需求的多维视图。
二元成功的局限性
要理解为什么我们需要 AgentEval,首先得看看目前的智能体测试方式。大多数基准测试依赖于端到端的成功指标。代码运行了吗?智能体找到答案了吗?
虽然这些指标是必要的,但它们远远不够,主要原因有二:
- 成功并非唯一指标: 用户的体验涉及清晰度、效率和安全性。如果一个智能体用 50 步完成了一个只需 5 步的任务,即使它最终成功了,其实用性也很低。
- 成功难以定义: 对于开放式任务 (如“写一封有趣的邮件”) ,并没有唯一的标准答案。
研究人员提出了任务分类法,以更好地理解当前评估方法的不足之处。

如图 2 所示,任务通常分为两类。左侧是成功定义模糊的辅助性任务 (例如创意写作) 。右侧是成功定义明确的任务。AgentEval 专注于右侧的分支——特别是那些即使结果是二元的 (成功/失败) ,其过程也很重要的场景。无论是否存在最优解或多种可能的路径,我们需要一种方法来验证执行的质量,而不仅仅是结果。
介绍 AgentEval
论文的核心洞察在于,人类评估虽是黄金标准,但对于快速开发而言过于昂贵且缓慢。然而,LLM 本身已显示出作为评估者的惊人能力。
AgentEval 是一个多智能体框架,旨在自动化评估任务效用。它不仅批改作业;它还编写评分标准,进行评分,然后检查自己的工作以确保评分公平。
该框架由三个特定的智能体组成,它们在一个闭环中运行:
- CriticAgent (评论智能体) : 定义什么是重要的 (标准) 。
- QuantifierAgent (量化智能体) : 根据这些标准衡量系统表现如何。
- VerifierAgent (验证智能体) : 检查标准是否稳健可靠。

让我们分解每个智能体,看看它们如何协作生成效用评分。
1. The CriticAgent: 定义评分细则
流程始于 CriticAgent 。 在人类评估设置中,你会要求领域专家列出什么是“好”的解决方案。在这里,CriticAgent 承担了这个角色。
它接收任务描述以及成功和失败执行的示例。通过比较这些示例,它生成针对特定应用程序的标准列表。它不是一个通用的列表;它是上下文感知的。
例如,在评估一个旨在解决数学问题的智能体时,CriticAgent 提出了以下标准:

正如上表所示,CriticAgent 识别出仅有“准确性”是不够的。它提出了 Clarity (清晰度) (解释是否易于理解?) 、Efficiency (效率) (方法是否最优?) 以及 Completeness (完整性) (是否涵盖了所有方面?) 。它还定义了可接受的值 (例如,“不清晰”、“中等清晰”、“非常清晰”) 以标准化评分。
2. The QuantifierAgent: 进行评分
一旦标准设定完毕, QuantifierAgent 就会介入。它的工作是检查应用程序生成的特定解决方案,并根据 CriticAgent 创建的评分细则进行打分。
这个智能体实际上计算了任务的“效用”,定义为不同标准上的得分向量。这让开发者能够看到权衡取舍。也许模型的一次新更新提高了准确性,但降低了清晰度。简单的“通过/失败”测试会漏掉这种退步,但 QuantifierAgent 能捕捉到它。
研究人员在复杂数学问题数据集上对此进行了测试,比较了三种不同的解决方案:
- ReAct: 一种推理和行动范式。
- Vanilla Solver: 标准的 GPT-4求解器。
- AutoGen: 一个多智能体对话框架。

图 3 展示了这种多维评估的威力。深色条代表成功案例,浅色条代表失败案例。
注意这里的细微差别。即使在“成功”案例 (深色条) 中, AutoGen (深蓝色) 在 Completeness (完整性) 和 Efficiency (效率) 上的得分通常高于 Vanilla Solver (绿色) 。这告诉我们,虽然两个系统都算对了数学题,但 AutoGen 为用户提供了更高实用价值的体验。相反,观察“失败”案例 (浅色条) ,我们看到它们在清晰度和完整性等标准上的得分持续较低,证实了 QuantifierAgent 正在正确地惩罚糟糕的表现。
3. The VerifierAgent: 质量控制
AgentEval 最具创新性的部分可能是 VerifierAgent 。 使用 LLM 作为裁判的一个常见风险是幻觉或不一致。我们怎么知道 CriticAgent 建议的标准实际上有用?我们怎么知道 QuantifierAgent 不是在瞎猜?
VerifierAgent 执行“稳健性检查”。它通过两种主要方法验证标准:
- 标准稳定性 (Criteria Stability) : 它检查 QuantifierAgent 在对同一输入多次运行时是否给出一致的分数。如果某个标准导致评分波动巨大 (例如,给同一个解决方案先打 1/5 分然后打 5/5 分) ,VerifierAgent 会将其标记为不稳定并移除。
- 区分能力 (Discriminative Power) : 它检查标准是否能真正区分好的解决方案和受损的解决方案。
为了可视化稳定性检查,研究人员绘制了多次运行中的分数分布图。

在图 5 中,我们看到代表 AutoGen 分数分布的箱线图。深蓝色 (成功) 和浅蓝色 (失败) 箱体之间的分离至关重要。对于 Clarity (清晰度) 和 Completeness (完整性) 等标准,存在明显的分离——成功的任务得分始终更高。这证实了这些标准具有很高的区分能力。
然而,看看 Error Analysis (错误分析) 。 箱体重叠严重,且范围很广。这表明对于这个特定任务,“错误分析”可能是一个嘈杂或令人困惑的标准,因为智能体难以据此区分成功和失败的尝试。VerifierAgent 将利用这些数据从最终评估集中过滤掉“错误分析”,确保开发者只关注可靠的指标。
对抗性测试: 压力测试指标
为了进一步证明系统的区分能力 , 研究人员进行了对抗性攻击。他们选取有效的解决方案并故意降低其质量——具体做法是随机删除句子以模拟不连贯或不完整 (“Disturbed”/受扰动的解决方案) 。
如果 AgentEval 框架工作正常,它应该会大幅降低这些受扰动解决方案的得分。

图 7 显示了这次压力测试的结果。深色条是原始解决方案,浅色条是“受扰动”版本。
几乎在每种方法 (AutoGen, Vanilla, ReAct) 和每个标准 (Clarity, Efficiency, Completeness) 中,受扰动版本的得分都大幅下降。这是一个强有力的验证信号。这证明 QuantifierAgent 不仅仅是在臆造高分;它在主动阅读内容。如果内容质量下降,效用评分会立即反映出来。
超越数学: 家庭任务 (ALFWorld)
AgentEval 的主张之一是灵活性。它不应仅适用于文本密集的数学问题,还应适用于在虚拟世界中行动的具身智能体。
研究人员将该框架应用于 ALFWorld , 这是一个基准测试,智能体必须在基于文本的模拟房屋中导航以完成家务 (例如,“把苹果洗干净并放进冰箱”) 。
CriticAgent 为该领域生成了一套完全不同的标准,包括 Task Understanding (任务理解) 、Plan Making (计划制定) 和 Response to Feedback (对反馈的反应) 。

结果 (如图 10 所示) 证明了框架的适应性。我们再次看到,成功执行 (深色条) 通常比失败执行得分更高。
有趣的是,观察 Task Understanding (任务理解) , 我们看到即使是失败案例得分也很高 (浅色条几乎和深色条一样高) 。这为开发者提供了一个迷人的见解: 智能体理解它们需要做什么 (因此得分高) ,但它们在 Action Execution (动作执行) 或 Plan Making (计划制定) 阶段失败了。
如果没有 AgentEval,开发者只能看到“失败”。有了 AgentEval,他们能看到“理解了任务,但未能执行计划”。这种可操作的洞察力让他们能够调试负责执行的具体模块,而不是重新训练语言理解模块。
结论
“AgentEval” 框架代表了我们构建 LLM 方式的成熟度转变。我们正在远离“凭感觉”的评估——即仅仅通过与机器人聊天来决定它是否好用——转向严格、自动化、多维的量化。
通过通过雇佣一组智能体来评论、量化和验证,开发者可以:
- 扩展评估: 对成千上万次交互进行评估,无需人力成本。
- 深化洞察: 超越二元成功,理解清晰度、效率和安全性。
- 确保稳健性: 利用 Verifier 循环来保证指标本身的稳定性和可靠性。
随着我们将更复杂的任务委托给 AI 智能体,验证它们的效用——而不仅仅是它们输出文本的能力——将成为可靠 AI 开发的基石。AgentEval 为如何构建这一验证层提供了一个充满希望的蓝图。
](https://deep-paper.org/en/paper/2405.02178/images/cover.png)