人工智能正变得越来越擅长使用计算机。我们现在拥有能够通过直接控制图形用户界面 (GUI) 来预订航班、管理电子表格和编辑照片的AI系统——就像人类用户一样。这些计算机使用智能体 (CUA) 有望自动化无数繁琐的数字任务。

但这里有个问题: 尽管它们有时表现出色,但往往很脆弱。在一长串动作中,一个微小的失误——比如点击了错误的按钮、误解了菜单,或被弹出窗口干扰——都可能导致整个任务失败。对于复杂的多步骤工作流,这种不可靠性是一个重大障碍。甚至同一个智能体可能一次运行完美无缺,下一次却惨败,导致令人沮丧的高方差,从而限制了实际部署。

那么,如果我们不依赖于单个、不完美的智能体,而是并行运行多个智能体,然后简单地选择最佳结果呢?这种扩展方法听起来很简单,但也引出了一个棘手的问题:** 如何自动判断哪次尝试才是真正的“最佳”**?

Simular Research 的一篇新研究论文正面解决了这个挑战。作者们提出了行为最佳N选 (bBoN) ,一个让扩展CUA不仅可行,而且高效到令人惊讶的框架。他们的方法在具有挑战性的 OSWorld 基准测试中取得了新的最先进水平——绝对性能提升10%,成功率达到69.9%,距离人类水平 (≈72%) 仅一步之遥。

各种计算机使用智能体在 OSWorld 上的性能比较。该方法取得了 69.9% 的成功率,超越所有先前方法,并接近 72% 的人类水平基准。

图 1: 在 OSWorld 上 100 步的性能。bBoN 方法以 10% 的绝对提升击败了之前的 SoTA,几乎达到了人类水平性能。

在本文中,我们将探讨为何扩展智能体在根本上充满挑战,bBoN 框架如何借助行为叙事解决评估问题,以及为何其结果代表了构建稳健AI助手的一次重大飞跃。


为何AI智能体会失误——以及扩展的困境

要理解这篇论文的贡献,我们先来看看一个典型的 CUA 是如何工作的。你可以把它想象成一个解谜的智能体:

  • 智能体看到一个观察 \(o_t\)——一张桌面截图。
  • 它执行一个动作 \(a_t\)——例如,agent.click(x, y)
  • 它接收一个新观察,并持续操作,直到完成任务 (由用户指令 \(I\) 定义) 。

传统研究主要聚焦于改进智能体的**策略 **(\(\pi\)) ——即在给定指令和观察历史的情况下,决定采取哪个动作的“大脑”。目标是产出一个能力卓越的智能体,执行一条成功的动作轨迹

即便是最好的策略也是概率性的,这意味着它们可能会意外失败。提升可靠性的常用策略之一是测试时扩展——生成多个候选解决方案并择优选取。

有些方法采取步进式方案——在每一步,智能体提出多个可能的动作,由“评判器”选定一个再继续执行。虽然这有助于解决局部不确定性,但过早锁定单一路径,如果一开始选择了较难或次优的路线,就无法再切换到可能成功的更易路径。

作者们探索了一种更强大的替代方案:** 轨迹级最佳N选**,或称广域扩展——即多个智能体从头到尾运行,生成完整的解决方案轨迹,然后选出整体最优的轨迹。

时间线图显示三个智能体之间互不重叠的成功案例。bBoN 通过选择最成功的轨迹来利用它们的互补性。

图 2: 三个独立智能体运行中互不重叠的任务成功。bBoN 通过选择最有希望的轨迹来整合它们的优势。

这种方法利用了一个事实: 不同的智能体——甚至同一智能体的不同运行——往往会以不同方式失败,但在互补的任务集上取得成功。通过生成多个不同运行,你就增加了至少有一个成功的概率。

挑战在于评估并比较完整的轨迹。单个轨迹可能包含数百步操作,每步都有高分辨率截图。这是高密度的多模态数据,其中大部分与任务成功无关,而且许多计算机任务存在多种有效完成路径。那么,一个自动化评判器如何高效锁定正确轨迹?这正是 bBoN 所解决的问题。


行为最佳N选 (bBoN) 框架

bBoN 框架用两步方案解决了广域扩展中的核心问题:

  1. 转换: 将复杂、嘈杂的轨迹转化成简洁、结构化的行为叙事
  2. 评判: 使用强大的视觉语言模型 (VLM评判器) 整体比较这些叙事并选出优胜者。

系统示意图显示原始轨迹经由行为叙事生成器处理为结构化叙事,再由 bBoN 评判器评估。

图 3: 多个运行被转换为提炼动作效果的行为叙事,然后由 VLM 评判器进行比较评估并选出最佳。

1. 从原始轨迹到行为叙事

关键洞见是: 要理解发生了什么,你不需要每个截图的全部像素——你需要的是一份清晰的由动作导致的变化记录。

行为叙事生成器处理每次转换——“之前”截图 \(s_i\)、动作 \(a_i\)、“之后”截图 \(s_{i+1}\)——并生成简短的**事实 **(\(\phi_i\)) 描述变化:

  • 点击了“插入”菜单。
  • 打开了数据透视表对话框。
  • 在工作表名称字段中输入了“销售摘要”。

对于精确的指针动作 (点击、拖动) ,团队在“之前”图像上叠加标记显示目标位置,并提供“之后”图像中以指针为中心的放大裁剪图。这帮助 VLM 验证动作效果是否发生。

最终的叙事形式为 \(\tilde{\tau} = (s_0, \phi_0, \phi_1, \dots, \phi_{T-1}, s_T)\),包含任务开始与结束截图及动作-效果链——过滤掉了无关的视觉噪音。

2. bBoN 评判器

一旦转化成清晰叙事,比较候选轨迹就容易多了。bBoN评判器在一个多项选择式提示中一次接收全部 \(N\) 个叙事:

“根据用户请求和这 \(N\) 个关于不同智能体行为的摘要,哪一个最能完成任务?”

同时审查所有候选方案方便直接对比不同方法、识别细微差异,并做出更明智的选择。评判器还被要求引用叙事中的具体事实,以确保推理有据可依。

3. Agent S3 —— 更强的基础

当基础智能体本就能产出高质量运行时,扩展效果最佳。作者们打造了 Agent S3,在 Agent S2 基础上进行改进:

  • 集成编码智能体: 在任何步骤,Agent S3 可以选择 GUI 操作或调用编码智能体执行 Python/Bash,处理例如批量数据操作或文件转换等繁重任务。
  • 扁平化策略: 不采用多层级 (管理者-工作者) 架构,而是用单一强模型逐步规划,以实现更快、更灵活的决策。

这些改进使 Agent S3 自身成为一款最先进的智能体,也是 bBoN 的理想基础。

对比表显示 Agent S3 相较 Agent S2 的提升: 成功率更高 (+13.8%)、LLM 调用次数更少 (-52.3%)、任务完成更快 (-62.4%)。

表 2: Agent S3 与 Agent S2 对比——成功率和效率的提升。


实验与结果

团队主要在 OSWorld 上对 bBoN 进行基准测试,该套件包含数百个跨办公、操作系统、工作流等多个领域的真实世界 Ubuntu 任务。

OSWorld 主结果

表格显示 OSWorld 结果: Agent S3 (62.6% SoTA) vs. bBoN+Agent S3 (69.9%)。

表 1: OSWorld 成功率 (100步) 。使用 GPT-5 的 bBoN 将 Agent S3 的最先进性能提升 7.3%,达到 69.9%——接近人类水平。

Agent S3 单独运行已超过此前最先进系统。结合 bBoN 扩展 (N=10 次运行) ,成功率达到 69.9%——几乎填平与人类 (72%) 之间的差距。

随运行次数扩展

折线图显示 GPT-5 和 GPT-5 Mini 成功率随运行次数增加而升高。

图 4: 成功率通常随 \(N\) 增加而上升,无论大模型还是小模型都受益。

GPT-5 与 GPT-5 Mini 性能均随 \(N\) 增长而提高,验证了广域扩展的稳健性。

模型混合

表格显示各种模型混合的 SR 和 Pass@N。GPT-5+Gemini 2.5 Pro 结果最佳。

表 3: 多样性强且能力突出的集成 (如 GPT-5 + Gemini 2.5 Pro) 能取得最高成功率和任务覆盖。

关键洞见:

  • 更强的基础模型带来更佳结果;
  • 多样性扩展了覆盖范围——增加至少一次运行成功的几率。

行为叙事有效性

表格比较轨迹表示方法: 行为叙事优于仅截图和朴素字幕。

表 4: 行为叙事比基线高约 3.4%,验证了动作-效果表示的优势。

行为叙事在准确率上超过朴素字幕与原始截图子采样,证明了表示变化比静态状态更有价值。

比较式评判 vs. 独立评判

折线图比较 bBoN 的比较式评判器与 WebJudge 的独立排名,显示 bBoN 扩展性更佳。

图 5: 比较式评判明显优于独立排名——尤其在 \(N\) 较大时。

在单一提示中直接比较比独立评分扩展性更好,后者性能很快进入平台期。

泛化到非Ubuntu

表格显示 bBoN 在 WindowsAgentArena (+6.4%) 和 AndroidWorld (+3.5%) 的提升。

表 6 & 7: 即便在 N=3 时,bBoN 在 Windows 和 Android 基准中也提高了成功率。

bBoN 在 WindowsAgentArenaAndroidWorld 中均取得稳定增益,证明其原理可以广泛适用于不同操作系统。


结论

《扩展智能体在计算机使用中的非凡有效性》给出了提升 AI 可靠性的务实高效方案:
与其追寻难以企及的“完美”智能体,不如运行多个优秀智能体,并用有原则的选择机制挑出最佳者。

行为最佳N选 (bBoN) 框架正是这样的机制:

  • 叙事将密集轨迹提炼为动作-效果摘要;
  • 比较式评判在上下文中评估候选者;
  • **改进的基础智能体 **(Agent S3) 提供高质量运行。

这些要素共同把 OSWorld 性能推近人类水平,并在 Windows 和 Android 上表现出良好泛化。

尽管当前方法假设通过虚拟机进行独立运行,将其扩展到真实用户桌面及共享在线环境仍是一个开放挑战。但 bBoN 已建立起一种强大、可扩展的模式,可以将不稳定的 CUA 转化为稳定高性能的助手——这是迈向日常、可靠 AI 计算机使用的有希望的一步。