Agent S2：AI 专家团队如何掌控你的电脑

想象一下，如果有一个 AI 助手能像人类一样使用你的电脑。它可以通过直接与图形用户界面 (GUI) 交互来预订你的旅行、根据你的笔记创建演示文稿，或者管理你的文件: 点击图标、在文本框中输入文字、拖动文件。这就是计算机使用智能体的愿景——这种自主 AI 系统有潜力自动化无数数字任务，并显著提升生产力。

但构建这些智能体非常困难。对于 AI 来说，电脑屏幕并不是一串整齐的命令列表，而是一堆混乱的像素集合。目前的智能体通常在三个基本挑战上举步维艰:

定位不精确 (Imprecise Grounding):
它们很难将“点击保存图标”这样的指令映射到该按钮的确切像素坐标。误点击和漏选很常见。
长程规划 (Long-Horizon Planning):
多步骤任务——例如在应用程序之间切换、处理弹出窗口或适应轻微的界面变化——常常让智能体出错。它们可能在任务中途迷失方向或卡住。
通用模型瓶颈 (The Generalist Bottleneck):
大多数方法都依赖一个庞大的“通用”模型来处理从宏观规划到低层点击执行的全部工作。这就像要求一位 CEO 同时担任公司的设计师和会计师——或许能力出众，但缺乏在每项工作上都做到完美的专业技能。

一篇新的研究论文介绍了 Agent S2，一个直面这些问题的框架。它不依赖于单个万能模型，而是将计算机使用视为一个需要团队协作的任务——将负责规划的通用模型与负责精确交互的专家模型相结合。最终？它实现了最先进的性能，显著超越了以往的方法。

图表显示 Agent S2 在 OSWorld 基准测试的 15 步和 50 步任务中，性能均优于其他几个最先进的计算机使用智能体。

图 1: Agent S2 在 OSWorld 的 15 步和 50 步评估中，成功率均创下新的 SOTA 记录。

背景: 构建计算机使用智能体的两条路径

在深入了解 Agent S2 的架构前，我们先回顾一下当今的主流方法。

1. 单体式方法 (The Monolithic Approach)

这种方法使用一个强大的端到端模型 (通常是巨型多模态大语言模型) 。你给它一张屏幕截图和一条用户指令，它就会输出下一个动作——例如，“点击坐标 (450, 120)”。

优点:

流程简单
知识面广泛

缺点:

“万事通，样样不精”。为 UI 定位等专门技能进行微调，通常会降低其通用推理能力。
需要庞大且昂贵的数据集，以覆盖所有可能的交互。

2. 分层式方法 (The Hierarchical Approach)

这种方法将问题分解为高层与低层:

管理者模型 (Manager model): 像项目经理一样，将用户请求 (例如“找到最新的销售报告并用邮件发出去”) 分解为子目标 (“1. 打开文件浏览器。2. 进入‘报告’文件夹。3. 找到文件。4. 打开邮件客户端……”) 。
工作者模型 (Worker model): 执行每个子目标 (例如“点击 Dock 栏上的‘文件’图标”) ，使用原子级动作。

这种方法降低了认知负荷，但仍存在瓶颈:

工作者既要描述一个动作 (“点击那个图标”) ，又要找出确切的位置——这种定位负担限制了性能。
典型的分层系统使用反应式规划 (reactive planning)——它们会坚持最初的计划，除非出现失败，这在动态环境中显得非常脆弱。

Agent S2 内部探秘: 两大创新

Agent S2 建立在分层方法之上，但引入了两项变革性创新:** 混合定位 (Mixture of Grounding, MoG)** 和 主动式分层规划 (Proactive Hierarchical Planning, PHP)。

这是一个组合式系统，其中通用模型负责做什么和为什么 (规划) ，而专家模型负责怎么做和*在哪里做 *(定位与执行) 。

图解展示了管理者 (M) 生成计划，工作者 (W) 执行计划，以及混合定位 (MoG) 专家 G1、G2、G3 产生精确动作。

图 2: Agent S2 的组合式框架将通用规划器与专业定位专家整合，实现精确的 UI 交互。

1. 混合定位 (MoG): 为任务匹配合适的工具

“定位瓶颈”是关键障碍。有些任务——例如选择某个特定短语——需要的能力与点击按钮不同。

Agent S2 的解决之道是:** 将每个动作分配给合适的专家**。工作者确定要执行的动作，并将其发送至三位专家中的一位:

视觉定位专家 (Visual Grounding Expert):
接收屏幕截图和描述 (如“蓝色的登录按钮”) ，输出点击/拖动的精确坐标。适用于大多数通用交互。
文本定位专家 (Textual Grounding Expert):
使用 OCR 精确定位字符位置以高亮文本片段——对于精细选择，比视觉匹配更准确。
结构化定位专家 (Structural Grounding Expert):
以编程方式处理电子表格/表格。例如命令 set_cell_values({"D2": "=B2-C2"}) 可直接更新单元格，而不依赖可能不稳的点击。

通过将定位任务交由最适合的专家处理，Agent S2 能以更高精度执行更广泛的动作。

2. 主动式分层规划 (PHP): 适应才能生存

数字环境不断变化。静态计划在遇到意外弹窗或布局变化时容易失效。

Agent S2 的主动式循环如下:

对比图: 反应式规划遵循固定的初始计划；主动式规划在每个子目标完成后更新计划。

图 3: 主动式规划在每个子目标完成后都会重新评估并更新计划，而反应式规划仅在失败后才调整。

管理者: 观察当前状态和用户请求，设定初始子目标 \(\{g'_1, g'_2, g'_3, \dots\}\)。
工作者: 执行第一个子目标，调用 MoG 专家进行定位。
管理者: 在每个子目标完成后重新评估，生成更新后的剩余计划 \(\{g''_2, g''_3, \dots\}\)。
重复该过程，直至任务完成。

这种持续的适应性让 Agent S2 能在需要时插入新步骤，平稳应对变化，并在未出现失败前调整方向。

示例: 在文档中选择文本。Agent S2 首先尝试视觉专家，失败后切换到文本专家以获得精确选择，并据此重新规划后续动作。

示例: Agent S2 为了精确选择，从视觉定位切换到文本定位。

图 4: Agent S2 在任务中途通过切换定位专家实现自我修正，并基于更新状态重新规划。

实验: 测试 Agent S2

研究团队在三个主要基准上测试了 Agent S2:

**OSWorld **(Ubuntu 桌面任务)
**WindowsAgentArena **(Windows 操作系统任务)
**AndroidWorld **(智能手机 UI 任务)

OSWorld: 新的最先进水平

表格显示在 OSWorld 上的成功率，Agent S2 在 15 步和 50 步任务中均为最高。

表 1: OSWorld 基准测试结果 — Agent S2 在短期和长期任务中均显著优于以往智能体。

采用 Claude-3.7-Sonnet 作为核心，Agent S2 在复杂的 50 步任务中取得了 34.5% 的成功率——比之前的最佳结果相对提升了 32.7%。即便使用性能稍弱的 Claude-3.5-Sonnet，它也超越了使用更先进模型的单体式智能体。

WindowsAgentArena: 跨操作系统的泛化能力

表格显示 Agent S2 取得了 29.8% 的成功率，超过了 NAVI 和 Agent S。

表 3: 在 WindowsAgentArena 上，Agent S2 的成绩比此前最佳提升 52.8%，在 Windows 特定任务中表现出色。

为何有效: 消融实验

为了确认 MoG 和 PHP 的作用，研究人员进行了消融实验——移除某些组件以观察性能变化。

折线图显示移除 MoG 或 PHP 后成功率下降。

图 5: MoG 和 PHP 对性能至关重要，尤其在长任务中。

研究发现:

移除 MoG 或 PHP 会显著降低成功率。
随着任务长度增加，它们的优势更为突出——对长程问题的解决不可或缺。

此外: 将更小型的专业视觉定位模型集成到该框架中，在定位任务上的表现甚至可超越庞大的通用模型。

条形图比较 Agent S2 中的视觉定位模型。专业模型在定位任务上的表现优于通用模型。

图 6: 在 Agent S2 框架下，专业定位模型优于通用模型的定位表现。

错误分析: 瓶颈的转移

失败类别饼图: 规划 41%，定位 20.5%，交互 17.9%，不可行 10.3%，导航 10.3%。

图 8: 规划而非定位，已成为主要失败模式。

过去的智能体主要在定位环节失误。MoG 极大地减少了此类失败。如今，规划质量成为最大挑战——这表明交互精度已大体解决，焦点转向更深层的推理。

结论: 从 Agent S2 获得的启示

Agent S2 是自主计算机智能体的一次飞跃。通过用组合式框架取代单体式设计，它将主动规划的适应性与专家定位的精确性结合起来。

关键要点:

专业化有效: 专用的视觉、文本和结构化定位专家显著提升了精度。
适应性重要: 主动式规划实现动态路线修正。
组合更强大: 协同强大的通用模型与针对性的专家模型，优于“一体包揽”的巨型模型。

Agent S2 的成功预示着未来: AI 助手将是团队——由专业模型组成的交响乐——而非孤军奋战的独奏者。随着 UI 定位问题的解决，下一个前沿是强化长期推理能力，让我们更接近真正强大的数字助手。

背景: 构建计算机使用智能体的两条路径#

1. 单体式方法 (The Monolithic Approach)#

2. 分层式方法 (The Hierarchical Approach)#

Agent S2 内部探秘: 两大创新#

1. 混合定位 (MoG): 为任务匹配合适的工具#

2. 主动式分层规划 (PHP): 适应才能生存#

实验: 测试 Agent S2#

OSWorld: 新的最先进水平#

WindowsAgentArena: 跨操作系统的泛化能力#

为何有效: 消融实验#

错误分析: 瓶颈的转移#

结论: 从 Agent S2 获得的启示#