想象一下,如果有一个 AI 助手能像人类一样使用你的电脑。它可以通过直接与图形用户界面 (GUI) 交互来预订你的旅行、根据你的笔记创建演示文稿,或者管理你的文件: 点击图标、在文本框中输入文字、拖动文件。这就是计算机使用智能体的愿景——这种自主 AI 系统有潜力自动化无数数字任务,并显著提升生产力。

但构建这些智能体非常困难。对于 AI 来说,电脑屏幕并不是一串整齐的命令列表,而是一堆混乱的像素集合。目前的智能体通常在三个基本挑战上举步维艰:

  1. 定位不精确 (Imprecise Grounding):
    它们很难将“点击保存图标”这样的指令映射到该按钮的确切像素坐标。误点击和漏选很常见。

  2. 长程规划 (Long-Horizon Planning):
    多步骤任务——例如在应用程序之间切换、处理弹出窗口或适应轻微的界面变化——常常让智能体出错。它们可能在任务中途迷失方向或卡住。

  3. 通用模型瓶颈 (The Generalist Bottleneck):
    大多数方法都依赖一个庞大的“通用”模型来处理从宏观规划到低层点击执行的全部工作。这就像要求一位 CEO 同时担任公司的设计师和会计师——或许能力出众,但缺乏在每项工作上都做到完美的专业技能。

一篇新的研究论文介绍了 Agent S2,一个直面这些问题的框架。它不依赖于单个万能模型,而是将计算机使用视为一个需要团队协作的任务——将负责规划的通用模型与负责精确交互的专家模型相结合。最终?它实现了最先进的性能,显著超越了以往的方法。

图表显示 Agent S2 在 OSWorld 基准测试的 15 步和 50 步任务中,性能均优于其他几个最先进的计算机使用智能体。

图 1: Agent S2 在 OSWorld 的 15 步和 50 步评估中,成功率均创下新的 SOTA 记录。


背景: 构建计算机使用智能体的两条路径

在深入了解 Agent S2 的架构前,我们先回顾一下当今的主流方法。

1. 单体式方法 (The Monolithic Approach)

这种方法使用一个强大的端到端模型 (通常是巨型多模态大语言模型) 。你给它一张屏幕截图和一条用户指令,它就会输出下一个动作——例如,“点击坐标 (450, 120)”。

优点:

  • 流程简单
  • 知识面广泛

缺点:

  • “万事通,样样不精”。为 UI 定位等专门技能进行微调,通常会降低其通用推理能力。
  • 需要庞大且昂贵的数据集,以覆盖所有可能的交互。

2. 分层式方法 (The Hierarchical Approach)

这种方法将问题分解为高层与低层:

  • 管理者模型 (Manager model): 像项目经理一样,将用户请求 (例如“找到最新的销售报告并用邮件发出去”) 分解为子目标 (“1. 打开文件浏览器。2. 进入‘报告’文件夹。3. 找到文件。4. 打开邮件客户端……”) 。
  • 工作者模型 (Worker model): 执行每个子目标 (例如“点击 Dock 栏上的‘文件’图标”) ,使用原子级动作。

这种方法降低了认知负荷,但仍存在瓶颈:

  • 工作者既要描述一个动作 (“点击那个图标”) ,要找出确切的位置——这种定位负担限制了性能。
  • 典型的分层系统使用反应式规划 (reactive planning)——它们会坚持最初的计划,除非出现失败,这在动态环境中显得非常脆弱。

Agent S2 内部探秘: 两大创新

Agent S2 建立在分层方法之上,但引入了两项变革性创新:** 混合定位 (Mixture of Grounding, MoG)** 和 主动式分层规划 (Proactive Hierarchical Planning, PHP)

这是一个组合式系统,其中通用模型负责做什么为什么 (规划) ,而专家模型负责怎么做和*在哪里做 *(定位与执行) 。

图解展示了管理者 (M) 生成计划,工作者 (W) 执行计划,以及混合定位 (MoG) 专家 G1、G2、G3 产生精确动作。

图 2: Agent S2 的组合式框架将通用规划器与专业定位专家整合,实现精确的 UI 交互。


1. 混合定位 (MoG): 为任务匹配合适的工具

“定位瓶颈”是关键障碍。有些任务——例如选择某个特定短语——需要的能力与点击按钮不同。

Agent S2 的解决之道是:** 将每个动作分配给合适的专家**。工作者确定要执行的动作,并将其发送至三位专家中的一位:

  1. 视觉定位专家 (Visual Grounding Expert):
    接收屏幕截图和描述 (如“蓝色的登录按钮”) ,输出点击/拖动的精确坐标。适用于大多数通用交互。

  2. 文本定位专家 (Textual Grounding Expert):
    使用 OCR 精确定位字符位置以高亮文本片段——对于精细选择,比视觉匹配更准确。

  3. 结构化定位专家 (Structural Grounding Expert):
    以编程方式处理电子表格/表格。例如命令 set_cell_values({"D2": "=B2-C2"}) 可直接更新单元格,而不依赖可能不稳的点击。

通过将定位任务交由最适合的专家处理,Agent S2 能以更高精度执行更广泛的动作。


2. 主动式分层规划 (PHP): 适应才能生存

数字环境不断变化。静态计划在遇到意外弹窗或布局变化时容易失效。

Agent S2 的主动式循环如下:

对比图: 反应式规划遵循固定的初始计划;主动式规划在每个子目标完成后更新计划。

图 3: 主动式规划在每个子目标完成后都会重新评估并更新计划,而反应式规划仅在失败后才调整。

  1. 管理者: 观察当前状态和用户请求,设定初始子目标 \(\{g'_1, g'_2, g'_3, \dots\}\)。
  2. 工作者: 执行第一个子目标,调用 MoG 专家进行定位。
  3. 管理者: 在每个子目标完成后重新评估,生成更新后的剩余计划 \(\{g''_2, g''_3, \dots\}\)。
  4. 重复该过程,直至任务完成。

这种持续的适应性让 Agent S2 能在需要时插入新步骤,平稳应对变化,并在未出现失败前调整方向。


示例: 在文档中选择文本。Agent S2 首先尝试视觉专家,失败后切换到文本专家以获得精确选择,并据此重新规划后续动作。

示例: Agent S2 为了精确选择,从视觉定位切换到文本定位。

图 4: Agent S2 在任务中途通过切换定位专家实现自我修正,并基于更新状态重新规划。


实验: 测试 Agent S2

研究团队在三个主要基准上测试了 Agent S2:

  • **OSWorld **(Ubuntu 桌面任务)
  • **WindowsAgentArena **(Windows 操作系统任务)
  • **AndroidWorld **(智能手机 UI 任务)

OSWorld: 新的最先进水平

表格显示在 OSWorld 上的成功率,Agent S2 在 15 步和 50 步任务中均为最高。

表 1: OSWorld 基准测试结果 — Agent S2 在短期和长期任务中均显著优于以往智能体。

采用 Claude-3.7-Sonnet 作为核心,Agent S2 在复杂的 50 步任务中取得了 34.5% 的成功率——比之前的最佳结果相对提升了 32.7%。即便使用性能稍弱的 Claude-3.5-Sonnet,它也超越了使用更先进模型的单体式智能体。


WindowsAgentArena: 跨操作系统的泛化能力

表格显示 Agent S2 取得了 29.8% 的成功率,超过了 NAVI 和 Agent S。

表 3: 在 WindowsAgentArena 上,Agent S2 的成绩比此前最佳提升 52.8%,在 Windows 特定任务中表现出色。


为何有效: 消融实验

为了确认 MoG 和 PHP 的作用,研究人员进行了消融实验——移除某些组件以观察性能变化。

折线图显示移除 MoG 或 PHP 后成功率下降。

图 5: MoG 和 PHP 对性能至关重要,尤其在长任务中。

研究发现:

  • 移除 MoG 或 PHP 会显著降低成功率。
  • 随着任务长度增加,它们的优势更为突出——对长程问题的解决不可或缺。

此外: 将更小型的专业视觉定位模型集成到该框架中,在定位任务上的表现甚至可超越庞大的通用模型。

条形图比较 Agent S2 中的视觉定位模型。专业模型在定位任务上的表现优于通用模型。

图 6: 在 Agent S2 框架下,专业定位模型优于通用模型的定位表现。


错误分析: 瓶颈的转移

失败类别饼图: 规划 41%,定位 20.5%,交互 17.9%,不可行 10.3%,导航 10.3%。

图 8: 规划而非定位,已成为主要失败模式。

过去的智能体主要在定位环节失误。MoG 极大地减少了此类失败。如今,规划质量成为最大挑战——这表明交互精度已大体解决,焦点转向更深层的推理。


结论: 从 Agent S2 获得的启示

Agent S2 是自主计算机智能体的一次飞跃。通过用组合式框架取代单体式设计,它将主动规划的适应性与专家定位的精确性结合起来。

关键要点:

  1. 专业化有效: 专用的视觉、文本和结构化定位专家显著提升了精度。
  2. 适应性重要: 主动式规划实现动态路线修正。
  3. 组合更强大: 协同强大的通用模型与针对性的专家模型,优于“一体包揽”的巨型模型。

Agent S2 的成功预示着未来: AI 助手将是团队——由专业模型组成的交响乐——而非孤军奋战的独奏者。随着 UI 定位问题的解决,下一个前沿是强化长期推理能力,让我们更接近真正强大的数字助手。