简介

想象一下,你正计划搬到一个新城市。你需要在一个特定的社区找到一套高层公寓,且该公寓在 2021 年的售价需要在某个特定范围内。或者,也许你是一个正在纽约旅游的健身爱好者,你需要找到 Tompkins Square Park 附近一家在早上 7:00 之前提供课程的健身房。

对于人类来说,这些任务虽然繁琐,但直截了当。它们需要打开浏览器,搜索位置,打开多个标签页 (地图、健身房网站、时间表) ,比较信息,然后综合得出答案。这需要时间——不是几秒钟,而是几分钟——并且需要具备“导航逻辑”。

然而,对于人工智能来说,这是一个巨大的挑战。虽然像 GPT-4 这样的大型语言模型 (LLMs) 知识渊博,但它们无法直接访问实时网络,而且在被问及具体的实时数据时经常会产生幻觉。检索增强生成 (RAG) 系统试图通过获取文档来弥补这一差距,但当答案需要浏览网站而不仅仅是关键词匹配时,它们往往会陷入困境。

这就引出了 Web 智能体 (Web Agents) 的概念: 这是一种旨在像人类一样浏览网络、点击按钮并滚动页面的 AI 系统。

在研究论文 ASSISTANTBENCH: Can Web Agents Solve Realistic and Time-Consuming Tasks? 中,来自特拉维夫大学、宾夕法尼亚大学、艾伦人工智能研究所、华盛顿大学和普林斯顿大学的研究人员探索了这些智能体的当前局限性。他们引入了一个严格的新基准测试 AssistantBench , 以及一种新颖的智能体架构 SeePlanAct (SPA) 。 他们的发现揭示了 AI 助手的大肆宣传与它们执行有用的、耗时的 Web 任务的实际能力之间存在显著差距。

比较 LM、RAG 和 Web 智能体处理房地产查询的方法。

如图 1 所示,虽然标准的 LM 可能会猜测 (产生幻觉) 房价,而 RAG 可能会检索到不相关的搜索结果,但真正的 Web 智能体尝试导航像 Zillow 这样的房地产网站来寻找经过验证的答案。

背景: 静态基准测试的局限性

要理解这篇论文的重要性,我们必须看看目前是如何评估 AI 智能体的。以前的 Web 智能体基准测试通常依赖于:

  1. 模拟环境: 沙盒环境,其中的“网络”是现实的简化、静态版本。
  2. 单站点任务: 仅需与一个网站交互的挑战 (例如,在特定航空公司网站上订票) 。
  3. 短视距任务: 只需点击一两次即可解决的任务。

然而,现实世界是混乱的。用户的查询往往需要访问地图来确定候选对象,访问各自的网站查找详细信息,然后交叉引用这些数据。这个过程是 耗时的 且需要 规划 。 如果一个智能体不能处理开放网络中的弹窗、动态布局和导航死胡同,它就无法真正协助人类。

作者认为,现有的基准测试未能捕捉到这些“协助”任务的难度。为了解决这个问题,他们构建了 AssistantBench

AssistantBench: 设计一个现实的测试

AssistantBench 是一个包含 214 个现实的、可自动验证的任务的数据集。这里的关键区别在于对“耗时”任务的关注——这些问题需要人类花费几分钟来解决,因为它们涉及多个步骤和网站。

数据收集流程

研究人员不仅仅是从互联网上抓取随机问题。他们采用了以人为本的方法来确保相关性:

  1. 种子任务 (Seed Tasks) : 他们要求真实用户回忆他们最近亲自执行过的、困难的网络搜索任务。
  2. 众包扩展 (Crowd Expansion) : 他们利用众包工作者将这些种子任务作为模板,生成新的、类似的问题 (例如,更改城市或具体标准) 。
  3. 专家领域 (Expert Domains) : 为了确保基准测试涵盖专业需求,他们招募了领域专家 (生物学家、律师等) 来创建需要特定专业网站的任务。

三步数据收集流程: 种子收集、众包扩展和专家领域。

一个任务看起来像什么?

AssistantBench 中的典型任务不是像“谁是法国总统?”这样的简单事实查询。相反,它是这样的:

“Tompkins Square Park 附近的哪些健身房有早上 7 点之前的健身课程?”

要解决这个问题,智能体不能简单地“知道”答案。它必须:

  1. 打开地图工具 (如 Google Maps) 。
  2. 搜索特定公园附近的健身房。
  3. 确定健身房候选名单。
  4. 导航到 每个 健身房的网站。
  5. 找到“时间表”或“课程”页面。
  6. 检查时间。
  7. 汇总最终列表。

显示健身房任务所需的地图搜索和时间表验证的黄金轨迹。

如图 2 所示,“黄金轨迹” (解决问题的正确路径) 涉及在地图应用程序和各种商业网站之间跳转,并沿途验证特定约束 (时间 < 7 AM) 。

核心方法: SeePlanAct (SPA)

论文评估了几种最先进的模型,包括著名的 Web 智能体 SeeAct 。 然而,他们发现现有的智能体通常表现得是被动反应式的——它们看着屏幕并点击最明显的按钮,缺乏长期策略。

为了解决这个问题,作者引入了 SeePlanAct (SPA)

“看并行动 (See and Act) ”的问题

传统的 Web 智能体在一个简单的循环上运行:

  1. 看 (See) : 截取当前页面的屏幕截图。
  2. 行动 (Act) : 根据该截图预测下一次鼠标点击或键盘输入。

这里的缺陷在于缺乏连续性。如果智能体访问了一个页面,读取了一条关键信息 (如健身房时间表) ,然后导航回搜索结果,它可能会“忘记”刚才看到的内容,因为新的截图不包含该信息。

SPA 架构

SPA 在标准循环中增加了两个关键组件: 规划 (Planning)记忆 (Memory)

展示规划和记忆组件的 SPA 智能体架构图。

如图 4 详细所示,SPA 的过程更为复杂:

  1. 分析当前屏幕: 智能体查看网页 (例如,维基百科页面) 。
  2. 更新记忆缓冲区: 如果智能体发现相关信息 (例如,“赖清德的出生日期是 1959 年 10 月 6 日”) ,它会将此写入持久的记忆文本缓冲区。即使智能体离开页面,该缓冲区也会一直伴随它。
  3. 完善计划: 智能体明确陈述其计划。例如,“下一步是返回提名人名单以查找下一个日期。”
  4. 描述下一个动作: 它生成要做什么的自然语言描述 (例如,“返回上一页”) 。
  5. 动作落地 (Ground Action) : 最后,它将该描述转化为与 HTML 元素的具体交互 (例如,点击“返回”按钮) 。

这种架构使 SPA 能够处理 多跳 (multi-hop) 任务。它可以访问页面、提取数据、存储数据、离开页面并继续搜索,而不会丢失进度。

作者还为 SPA 配备了开放网络所必需的新导航动作,例如:

  • GOBACK: 返回上一页 (对于“中心辐射式”浏览至关重要) 。
  • GOTO: 直接导航到 URL。
  • SEARCH: 直接使用搜索引擎查询。

为了说明 SPA 的能力,图 11 (如下) 展示了它如何处理一个问题,该问题要求它“分散 (fan out) ”到多个维基百科页面以收集不同候选人的出生日期。

SPA 成功导航多个维基百科页面以汇总候选人数据。

实验与结果

研究人员在 AssistantBench 上测试了多种系统:

  • 闭卷 LLM (Closed-Book LLMs) : 在没有网络访问权限的情况下提示 GPT-4 和 Claude-3.5 回答。
  • RAG (检索增强生成) : 使用搜索引擎检索文本片段的模型。
  • SeeAct: 一个标准的 Web 智能体。
  • SPA: 作者的新智能体。

残酷的真相: 这非常困难

最引人注目的结果令人清醒: 没有模型的准确率超过 26%。

这个低天花板表明,对于当前的人工智能来说,现实的 Web 协助是多么困难。AssistantBench 有效地暴露了当今系统的局限性。

  • Web 智能体 vs. LLM: 令人惊讶的是,闭卷 LLM 的准确率得分通常高于 Web 智能体。然而,这具有误导性。LLM 具有很高的“回答率” (它们几乎总是猜测) ,但精度很低 (它们经常产生幻觉) 。Web 智能体经常崩溃或卡住,导致它们放弃回答。
  • SPA vs. SeeAct: 在比较智能体时,SPA 明显优于基准 SeeAct。
  • SPA 回答了 两倍数量的问题
  • SPA 具有更高的精度 (当它回答时,正确的可能性更大) 。

表 7 (如下) 显示了使用 Claude-3.5-Sonnet 的细分数据。请注意, SPA -> CB 集成 (使用 SPA,但如果智能体失败则回退到闭卷模型) 实现了最高的准确率 (26.4) ,但纯 Web 智能体仍然举步维艰。

结果表显示所有模型准确率较低,其中 SPA 优于 SeeAct。

它们为什么会失败?

作者进行了深入的错误分析,以了解为什么性能如此之低。

1. 导航循环 (Navigation Loops) : Web 智能体很难解决“无限循环”问题。它们可能会向下滚动页面,错过信息,向上滚动,然后无限重复此操作。或者它们可能会点击一个链接,意识到它是错的,返回,然后不小心再次点击它。

图 14 展示了一个导航失败的视觉示例,智能体卡在一个旅游指南网站上上下滚动。

智能体卡在滚动循环中的视觉表示。

2. 轨迹长度 (Trajectory Length) : Web 智能体存在一个“金发姑娘 (Goldilocks) ”区域 (即恰到好处的区域) 。如果任务需要的步骤太少,那可能微不足道。如果需要的步骤太多,错误的概率就会复合增加。

图 5 显示了 SPA 相对于采取步骤数的准确率。性能在 10 步左右达到峰值。如果任务需要 20 步以上,准确率会降至接近零,因为智能体不可避免地会迷路或崩溃。

图表显示随着执行步骤增加,准确率下降。

3. 定位问题 (Grounding Issues) : “定位 (Grounding) ”是指智能体将其意图 (“点击搜索栏”) 与屏幕上的实际技术元素 (概念 <input id="search">) 相匹配的能力。大约 20% 的错误来自于智能体仅仅未能点击正确的按钮。

4. 商业聊天机器人也不安全: 作者还在这些任务上测试了 ChatGPT (启用了浏览功能) 。如图 6 所示,即使是商业产品也经常失败。常见的错误包括:

  • 过度依赖搜索片段: ChatGPT 经常阅读 Google 摘要 (可能是错误的) ,而不是点击进入网站进行验证。
  • 代码解释器幻觉: 当试图计算数据时,底层代码环境有时会对变量产生幻觉。

ChatGPT 的失败案例显示了幻觉和糟糕的搜索使用。

结论与启示

AssistantBench 为人工智能行业敲响了警钟。虽然我们经常看到智能体预订航班或订购披萨的令人印象深刻的演示,但这些通常是在受控环境中进行的。当面对“狂野”的开放网络——伴随着弹窗、复杂的 DOM 结构以及多步推理的需求——当前的智能体步履蹒跚。

SPA (SeePlanAct) 的引入为改进提供了蓝图。通过将 记忆 (我知道什么) 和 规划 (我需要做什么) 与即时的视觉动作解耦,智能体可以处理更复杂的多跳任务。

关键要点

  1. 基准测试至关重要: 我们无法改进我们无法衡量的东西。AssistantBench 提供了推动 Web 智能体向前发展所需的困难、现实的指标。
  2. 导航是瓶颈: 主要的失败模式不是“理解”文本;而是导航环境 (循环、错误的路径) 。
  3. 混合方法获胜: 目前最好的结果来自于集成——使用智能体进行浏览,但有一个知识渊博的 LLM 作为后备。

对于学生和研究人员来说,这就篇论文强调了“开放网络导航”在理论上是一个已解决的问题,但在实践中在很大程度上仍是一个未解决的问题。有用的 AI 助手的未来依赖于解决 AssistantBench 明确指出的长视距规划和鲁棒定位问题。