一个智能体很好，十个更好：扩展策略如何解锁AI计算机助手的近人类性能

人工智能正变得越来越擅长使用计算机。我们现在拥有能够通过直接控制图形用户界面 (GUI) 来预订航班、管理电子表格和编辑照片的AI系统——就像人类用户一样。这些计算机使用智能体 (CUA) 有望自动化无数繁琐的数字任务。

但这里有个问题: 尽管它们有时表现出色，但往往很脆弱。在一长串动作中，一个微小的失误——比如点击了错误的按钮、误解了菜单，或被弹出窗口干扰——都可能导致整个任务失败。对于复杂的多步骤工作流，这种不可靠性是一个重大障碍。甚至同一个智能体可能一次运行完美无缺，下一次却惨败，导致令人沮丧的高方差，从而限制了实际部署。

那么，如果我们不依赖于单个、不完美的智能体，而是并行运行多个智能体，然后简单地选择最佳结果呢？这种扩展方法听起来很简单，但也引出了一个棘手的问题:** 如何自动判断哪次尝试才是真正的“最佳”**？

Simular Research 的一篇新研究论文正面解决了这个挑战。作者们提出了行为最佳N选 (bBoN) ，一个让扩展CUA不仅可行，而且高效到令人惊讶的框架。他们的方法在具有挑战性的 OSWorld 基准测试中取得了新的最先进水平——绝对性能提升10%，成功率达到69.9%，距离人类水平 (≈72%) 仅一步之遥。

各种计算机使用智能体在 OSWorld 上的性能比较。该方法取得了 69.9% 的成功率，超越所有先前方法，并接近 72% 的人类水平基准。

图 1: 在 OSWorld 上 100 步的性能。bBoN 方法以 10% 的绝对提升击败了之前的 SoTA，几乎达到了人类水平性能。

在本文中，我们将探讨为何扩展智能体在根本上充满挑战，bBoN 框架如何借助行为叙事解决评估问题，以及为何其结果代表了构建稳健AI助手的一次重大飞跃。

为何AI智能体会失误——以及扩展的困境

要理解这篇论文的贡献，我们先来看看一个典型的 CUA 是如何工作的。你可以把它想象成一个解谜的智能体:

智能体看到一个观察 \(o_t\)——一张桌面截图。
它执行一个动作 \(a_t\)——例如，agent.click(x, y)。
它接收一个新观察，并持续操作，直到完成任务 (由用户指令 \(I\) 定义) 。

传统研究主要聚焦于改进智能体的**策略 **(\(\pi\)) ——即在给定指令和观察历史的情况下，决定采取哪个动作的“大脑”。目标是产出一个能力卓越的智能体，执行一条成功的动作轨迹。

即便是最好的策略也是概率性的，这意味着它们可能会意外失败。提升可靠性的常用策略之一是测试时扩展——生成多个候选解决方案并择优选取。

有些方法采取步进式方案——在每一步，智能体提出多个可能的动作，由“评判器”选定一个再继续执行。虽然这有助于解决局部不确定性，但过早锁定单一路径，如果一开始选择了较难或次优的路线，就无法再切换到可能成功的更易路径。

作者们探索了一种更强大的替代方案:** 轨迹级最佳N选**，或称广域扩展——即多个智能体从头到尾运行，生成完整的解决方案轨迹，然后选出整体最优的轨迹。

时间线图显示三个智能体之间互不重叠的成功案例。bBoN 通过选择最成功的轨迹来利用它们的互补性。

图 2: 三个独立智能体运行中互不重叠的任务成功。bBoN 通过选择最有希望的轨迹来整合它们的优势。

这种方法利用了一个事实: 不同的智能体——甚至同一智能体的不同运行——往往会以不同方式失败，但在互补的任务集上取得成功。通过生成多个不同运行，你就增加了至少有一个成功的概率。

挑战在于评估并比较完整的轨迹。单个轨迹可能包含数百步操作，每步都有高分辨率截图。这是高密度的多模态数据，其中大部分与任务成功无关，而且许多计算机任务存在多种有效完成路径。那么，一个自动化评判器如何高效锁定正确轨迹？这正是 bBoN 所解决的问题。

行为最佳N选 (bBoN) 框架

bBoN 框架用两步方案解决了广域扩展中的核心问题:

转换: 将复杂、嘈杂的轨迹转化成简洁、结构化的行为叙事。
评判: 使用强大的视觉语言模型 (VLM评判器) 整体比较这些叙事并选出优胜者。

系统示意图显示原始轨迹经由行为叙事生成器处理为结构化叙事，再由 bBoN 评判器评估。

图 3: 多个运行被转换为提炼动作效果的行为叙事，然后由 VLM 评判器进行比较评估并选出最佳。

1. 从原始轨迹到行为叙事

关键洞见是: 要理解发生了什么，你不需要每个截图的全部像素——你需要的是一份清晰的由动作导致的变化记录。

行为叙事生成器处理每次转换——“之前”截图 \(s_i\)、动作 \(a_i\)、“之后”截图 \(s_{i+1}\)——并生成简短的**事实 **(\(\phi_i\)) 描述变化:

点击了“插入”菜单。
打开了数据透视表对话框。
在工作表名称字段中输入了“销售摘要”。

对于精确的指针动作 (点击、拖动) ，团队在“之前”图像上叠加标记显示目标位置，并提供“之后”图像中以指针为中心的放大裁剪图。这帮助 VLM 验证动作效果是否发生。

最终的叙事形式为 \(\tilde{\tau} = (s_0, \phi_0, \phi_1, \dots, \phi_{T-1}, s_T)\)，包含任务开始与结束截图及动作-效果链——过滤掉了无关的视觉噪音。

2. bBoN 评判器

一旦转化成清晰叙事，比较候选轨迹就容易多了。bBoN评判器在一个多项选择式提示中一次接收全部 \(N\) 个叙事:

“根据用户请求和这 \(N\) 个关于不同智能体行为的摘要，哪一个最能完成任务？”

同时审查所有候选方案方便直接对比不同方法、识别细微差异，并做出更明智的选择。评判器还被要求引用叙事中的具体事实，以确保推理有据可依。

3. Agent S3 —— 更强的基础

当基础智能体本就能产出高质量运行时，扩展效果最佳。作者们打造了 Agent S3，在 Agent S2 基础上进行改进:

集成编码智能体: 在任何步骤，Agent S3 可以选择 GUI 操作或调用编码智能体执行 Python/Bash，处理例如批量数据操作或文件转换等繁重任务。
扁平化策略: 不采用多层级 (管理者-工作者) 架构，而是用单一强模型逐步规划，以实现更快、更灵活的决策。

这些改进使 Agent S3 自身成为一款最先进的智能体，也是 bBoN 的理想基础。

对比表显示 Agent S3 相较 Agent S2 的提升: 成功率更高 (+13.8%)、LLM 调用次数更少 (-52.3%)、任务完成更快 (-62.4%)。

表 2: Agent S3 与 Agent S2 对比——成功率和效率的提升。

实验与结果

团队主要在 OSWorld 上对 bBoN 进行基准测试，该套件包含数百个跨办公、操作系统、工作流等多个领域的真实世界 Ubuntu 任务。

OSWorld 主结果

表格显示 OSWorld 结果: Agent S3 (62.6% SoTA) vs. bBoN+Agent S3 (69.9%)。

表 1: OSWorld 成功率 (100步) 。使用 GPT-5 的 bBoN 将 Agent S3 的最先进性能提升 7.3%，达到 69.9%——接近人类水平。

Agent S3 单独运行已超过此前最先进系统。结合 bBoN 扩展 (N=10 次运行) ，成功率达到 69.9%——几乎填平与人类 (72%) 之间的差距。

随运行次数扩展

折线图显示 GPT-5 和 GPT-5 Mini 成功率随运行次数增加而升高。

图 4: 成功率通常随 \(N\) 增加而上升，无论大模型还是小模型都受益。

GPT-5 与 GPT-5 Mini 性能均随 \(N\) 增长而提高，验证了广域扩展的稳健性。

模型混合

表格显示各种模型混合的 SR 和 Pass@N。GPT-5+Gemini 2.5 Pro 结果最佳。

表 3: 多样性强且能力突出的集成 (如 GPT-5 + Gemini 2.5 Pro) 能取得最高成功率和任务覆盖。

关键洞见:

更强的基础模型带来更佳结果；
多样性扩展了覆盖范围——增加至少一次运行成功的几率。

行为叙事有效性

表格比较轨迹表示方法: 行为叙事优于仅截图和朴素字幕。

表 4: 行为叙事比基线高约 3.4%，验证了动作-效果表示的优势。

行为叙事在准确率上超过朴素字幕与原始截图子采样，证明了表示变化比静态状态更有价值。

比较式评判 vs. 独立评判

折线图比较 bBoN 的比较式评判器与 WebJudge 的独立排名，显示 bBoN 扩展性更佳。

图 5: 比较式评判明显优于独立排名——尤其在 \(N\) 较大时。

在单一提示中直接比较比独立评分扩展性更好，后者性能很快进入平台期。

泛化到非Ubuntu

表格显示 bBoN 在 WindowsAgentArena (+6.4%) 和 AndroidWorld (+3.5%) 的提升。

表 6 & 7: 即便在 N=3 时，bBoN 在 Windows 和 Android 基准中也提高了成功率。

bBoN 在 WindowsAgentArena 与 AndroidWorld 中均取得稳定增益，证明其原理可以广泛适用于不同操作系统。

结论

《扩展智能体在计算机使用中的非凡有效性》给出了提升 AI 可靠性的务实高效方案:
与其追寻难以企及的“完美”智能体，不如运行多个优秀智能体，并用有原则的选择机制挑出最佳者。

行为最佳N选 (bBoN) 框架正是这样的机制:

叙事将密集轨迹提炼为动作-效果摘要；
比较式评判在上下文中评估候选者；
**改进的基础智能体 **(Agent S3) 提供高质量运行。

这些要素共同把 OSWorld 性能推近人类水平，并在 Windows 和 Android 上表现出良好泛化。

尽管当前方法假设通过虚拟机进行独立运行，将其扩展到真实用户桌面及共享在线环境仍是一个开放挑战。但 bBoN 已建立起一种强大、可扩展的模式，可以将不稳定的 CUA 转化为稳定高性能的助手——这是迈向日常、可靠 AI 计算机使用的有希望的一步。

为何AI智能体会失误——以及扩展的困境#

行为最佳N选 (bBoN) 框架#

1. 从原始轨迹到行为叙事#

2. bBoN 评判器#

3. Agent S3 —— 更强的基础#

实验与结果#

OSWorld 主结果#

随运行次数扩展#

模型混合#

行为叙事有效性#

比较式评判 vs. 独立评判#

泛化到非Ubuntu#

结论#