大型语言模型 (LLM) 已经征服了对话领域。它们可以写诗、调试代码并总结历史。但是,如果要求 LLM 规划一系列行动——比如“如何在不弄乱的情况下用勺子打开罐头?”——你就进入了一个完全不同的领域。这就是脚本规划 (Script Planning) 的范畴。
虽然 LLM 看起来总是很自信,但它们生成的逐步计划可能充满了微妙的逻辑错误、缺失的步骤或物理上的不可能。比生成这些脚本更难的是评估它们。我们如何在不需要人类逐一阅读的情况下,自动衡量一个计划是否合理?
在这篇文章中,我们将深入探讨研究人员 Liang 等人 (2024) 提出的 ABSEval , 这是一个引人入胜的框架。他们引入了一个新的数据集 MCScript , 以及一个利用 LLM 对其他 LLM 进行评分的多智能体评估系统,其结果与人类判断的吻合度惊人。
问题所在: 为什么“脚本”对 AI 来说很难
在 AI 研究中,“脚本”指的不是代码;它是在特定背景下为实现特定目标而设计的一系列结构化事件或动作。把它想象成日常生活的食谱。
对于人类来说,脚本是直观的。如果你想煮咖啡,你知道必须在冲泡之前研磨豆子。但对于 LLM 来说,理解物理世界中严格的逻辑顺序、因果关系和常识约束是困难的。
传统的评估指标,如 ROUGE or BERTScore , 在这里彻底失败了。这些指标基于单词重叠或语义相似性来比较生成的文本与参考文本。它们并不关心逻辑。如果一个 LLM 写了一个煮咖啡的脚本,让你在加热水之前倒水,标准指标可能会给它打高分,因为它使用了正确的单词 (“水”、“倒”、“加热”) 。然而,人类知道这个计划毫无用处。
脚本失败的一个例子
让我们看一个论文中的具体例子,以理解评估所需的细微差别。

在图 1 中,我们看到一个任务: “如何用勺子打开罐头?”
- LLM A 建议了一种“杠杆法 (Lever Method) ”。它遗漏了一个关键步骤 (在制造凹痕后撬开盖子) ,并且有一个顺序错误,它建议在正确制造凹痕之前就向下按压。
- LLM B 建议了一种“刮擦法 (Scrape Method) ”。虽然它包含了一个冗余指令,但整体逻辑更站得住脚。
简单的文本匹配算法很难因“顺序错误”而惩罚 LLM A。这凸显了对更智能评估器的需求——一个能够理解目标、约束和顺序的评估器。
搭建游乐场: MCScript
要测试脚本规划,你需要反映现实世界复杂性的数据。研究人员发现现有的数据集太抽象了 (例如,“创建一个决策树”) 。他们想要感觉像真实生活的任务。
他们创建了 MCScript , 这是一个包含 1,500 多个脚本评估任务的数据集。他们以“WikiHow”文章为基础作为抽象目标,然后使用 GPT-4 注入特定的约束 (constraints) 。

如上所示,他们选取像“如何购买迪士尼世界门票”这样的宽泛主题,并增加复杂的层次:
- 约束 1: 在线。
- 约束 2: 针对四口之家。
- 约束 3: 在旺季期间。
这将一个通用查询转变为一个具体的规划挑战: “研究并购买旺季期间一家四口的迪士尼世界在线门票。” 模型现在必须生成遵守这些特定限制的步骤,使评估内容更加丰富。
解决方案: ABSEval 框架
既然有了数据,我们如何在不雇佣成千上万人的情况下评估答案呢?研究人员提出了 ABSEval (基于智能体的脚本评估) 。
核心理念是协作评估 。 ABSEval 不是要求单个 LLM 给出一个分数 (这通常有偏见或不准确) ,而是将评估过程分解为分配给不同智能体的专门角色。这就像一个评审团,每个法官关注不同的标准。

如图 3 所示,该框架由四个协同工作的不同智能体组成。让我们分解一下它们的角色:
1. 答案合成智能体 (Answer Synthesize Agent)
开放式问题没有唯一的“正确”答案。打开罐头有很多种方法。为了解决这个问题, 答案合成智能体扮演“学习者”的角色。它观察待评估的脚本,并尝试合成一个“金标准答案 (Gold Answer) ”——即脚本的精炼、理想版本。这为其他智能体提供了一个高质量的比较基准。
2. 批评智能体 (Critic Agent)
批评智能体是注重细节的检查员。它将模型生成的脚本与合成智能体生成的金标准答案进行比较。它专门寻找结构性缺陷:
- 缺失步骤 (Missing Steps) : 模型是否忘记打开炉灶?
- 冗余步骤 (Redundant Steps) : 模型是否在谈论无关的话题?
- 重复步骤 (Duplicate Steps) : 模型是否连续两次说“搅拌混合物”?
3. 执行智能体 (Execute Agent)
这可能是最具创新性的组件。 执行智能体模拟运行脚本。它在脑海中“预演”步骤以验证逻辑。它检查:
- 满足约束 (Satisfy Constraints) : 脚本是否考虑了“四口之家”的约束?
- 完成目标 (Complete Goal) : 到第 10 步结束时,目标真的实现了吗?
- 顺序正确 (Order Correct) : 顺序是否遵循因果关系 (例如,先穿袜子再穿鞋) ?
4. 常识智能体 (Commonsense Agent)
最后, 常识智能体执行合理性检查。它会标记违反基本物理学或逻辑的步骤,例如“用水洗书以清洁它”。
ABSEval 真的有效吗?
研究人员不仅构建了工具;他们还通过人类判断对其进行了验证。他们要求人类标注员对脚本进行评分,然后将这些分数与 ABSEval 的输出以及标准指标进行比较。
结果很明确。当使用强大的模型 (如 Qwen-110B) 作为智能体的骨干时,ABSEval 与人类评估的一致性明显优于单一 LLM 评估器。

如表 2 所示, MSE (均方误差) ——越低越好——在使用 Qwen-110B 的 ABSEval 中最低 (0.087) 。这表明准确性很高。有趣的是,即使是像 GPT-4 这样强大的模型,在 ABSEval 框架内使用时,也比作为独立评估器表现得更好。
研究人员还证明,多智能体方法优于传统的 n-gram 指标。

图 6 可视化了不同模型的排名。注意 ROUGE/BERTScore (黄色/蓝绿色线) 与 ABSEval (红线) 的排名曲线之间的巨大差异。传统指标可能会仅仅因为使用了流行的关键词而给平庸的模型很高的排名,而 ABSEval 会因逻辑失败而惩罚它,从而提供对真实规划能力的更公平评估。
模型基准测试: 谁是最佳规划者?
随着框架的验证,作者评估了 15 个主流 LLM,包括 LLaMA 2、LLaMA 3、Qwen、Baichuan 和 Mistral。
评估涵盖了七个具体指标:
- 无缺失步骤
- 无冗余步骤
- 无重复步骤
- 可执行性
- 满足约束
- 完成目标
- 顺序正确
参数悖论
AI 界的一个普遍假设是“越大越好”。700 亿参数的模型在规划方面总是胜过 70 亿参数的模型吗?答案是……大部分时候是的,但并不总是如此。

图 5 提供了基于模型大小的性能热图。颜色越深表示性能越好。
- 重复步骤 (Duplicate Steps,第一列) : 几乎所有模型,无论大小,都擅长避免重复 (非常深的红色) 。
- 缺失步骤 (Missing Steps,最后一列) : 这是最难的类别。即使是巨大的 70B 模型在这里也很挣扎 (颜色较浅) 。这表明遗漏是 LLM 规划者最常见的失败模式。它们倾向于跳过关键细节。
有趣的是,论文指出,对于像“无冗余步骤”这样的指标,较大的模型并不总是获胜。有时,较大的模型更“健谈”,导致它产生不必要的指令幻觉,而较小的、经过指令微调的模型可能更简洁。
长度与准确性
关于脚本的长度,出现了另一个反直觉的发现。人们可能预期更长、更复杂的任务会混淆模型。

然而,图 12 显示,随着步骤长度的增加 (x 轴) ,模型在“无冗余步骤” (左下) 等指标上的表现通常保持不变甚至有所提高。这表明,当 LLM 被锁定在长链推理中时,它们实际上可能会更加专注于过程,从而减少离题的可能性。
关键要点
ABSEval 论文在如何思考评估生成式 AI 方面迈出了重要一步。以下是给学生和从业者的主要经验:
- 逻辑重于关键词: 我们必须超越像 ROUGE 这样的“单词匹配”指标。对于功能性任务 (脚本、代码、计划) ,评估必须考核结构和因果关系。
- 智能体的力量: 将复杂的评估任务分解为子角色 (批评者、执行者、学习者) ,其产生的结果比要求单个模型“给这个打分”要接近人类质量得多。
- “缺失步骤”问题: 目前的 LLM 听起来很自信,但它们经常在计划中遗漏关键的中间步骤。这仍然是未来研究的一个关键领域。
通过模拟人类审查计划的方式——检查约束、模拟执行和寻找漏洞——ABSEval 为未来的 AI 安全和能力测试提供了可靠的蓝图。随着 LLM 越来越多地作为智能体部署在现实世界中,像这样的框架对于确保它们“三思而后行”将至关重要。
](https://deep-paper.org/en/paper/file-2693/images/cover.png)