想象一下,一个数字助手不仅能陪你聊天,还能真正使用你的电脑。你告诉它: “打开设置,把我的默认浏览器改成 Edge”,它就能像人类一样浏览菜单、找到正确的按钮并点击它们。
这就是图形用户界面 (GUI) 自动化的承诺。虽然我们在能够浏览网页或操作移动应用的 AI 智能体方面取得了长足进步,但桌面环境——特别是 Windows——仍然是一个巨大的、很大程度上未被征服的领域。
为什么?因为与结构化的网站代码不同,Windows 桌面是各种框架、遗留应用程序和重叠窗口组成的视觉“狂野西部”。
在最近一篇题为 “WinSpot: GUI Grounding Benchmark with Multimodal Large Language Models” 的论文中,来自微软及其学术合作伙伴的研究人员正面应对了这一挑战。他们引入了一种用于生成训练数据的新颖框架,以及一个旨在教导多模态大语言模型 (MLLMs) 如何在 Windows 操作系统中“看”和“点击”的综合基准测试。
在这篇深度文章中,我们将探讨为什么 Windows 对 AI 来说是一个难题,研究人员如何利用其他 AI 模型从零开始构建海量数据集,以及目前哪些模型在桌面自动化领域处于领先地位。
问题所在: 为什么 Windows 对 AI 来说很难
要理解 WinSpot 的重要性,我们首先需要了解 GUI 定位 (GUI Grounding) 。
GUI 定位是将自然语言指令 (例如“点击搜索按钮”) 翻译成屏幕上特定坐标 (例如像素 x: 200, y: 50) 的过程。
对于网络智能体来说,这相对“容易”。网站是基于 HTML 和文档对象模型 (DOM) 构建的。AI 可以查看代码,找到标签为 <button aria-label="Search"> 的按钮并与其交互。
Windows 则不同。

如图 Figure 1 所示,一个 Windows 任务涉及高层规划 (将目标分解为步骤) 和底层执行 (找到特定的像素坐标) 。挑战在于 Windows 应用程序没有像 HTML 那样可供 AI 轻松读取的标准化“代码”。
- 无标准结构: 应用程序可能使用 Win32 (遗留) 、UWP (现代) 或 Electron (基于网络封装) 构建。它们看起来不同,底层的行为也不同。
- 仅视觉: 通常,AI 得到的唯一信息是一张截图——一个像素网格。对于许多遗留应用程序,没有“辅助功能树” (描述按钮的元数据) 。
- 复杂性: Windows 允许屏幕重叠、弹窗和密集的信息显示,这是移动应用通常避免的。
现有的数据集主要集中在 Web 和 Android 上。由于缺乏针对 Windows 的专用数据集,研究人员一直像是在盲人摸象,无法在数十亿企业员工使用的操作系统上有效地训练或评估智能体。
传统方法 vs. 视觉方法
研究人员强调了我们必须如何处理桌面自动化的一个根本性转变。

Figure 2 清晰地展示了这种转变:
- (a) 传统数据构建: 在 Web 任务中,研究人员解析 HTML/DOM 文件来查找图标和按钮。这是结构化且精确的。
- (b) WinSpot 方法: 由于 Windows 缺乏这种可靠的结构,新框架仅依赖原始截图图像 。 它将计算机屏幕纯粹视为一个视觉场,要求 AI 通过形状和上下文来识别“保存”图标,而不是通过读取代码标签。
核心方法: 用 AI 构建数据集
如果不花数年时间手动点击截图,如何构建一个海量的 Windows“指令-坐标”对数据集?作者设计了一个巧妙的 两阶段标注框架 , 使用现有的 AI 模型为 新的 AI 模型生成数据。
这种“指令-可交互区域对齐”流水线是他们工作的核心引擎。让我们分解一下 Figure 3 中可视化的过程。

第一步: 收集与过滤 (守门人)
该过程始于收集原始图像。研究人员利用 Bing API 抓取截图,并将它们与开源数据集 (如 CoVA 和 WebSight) 相结合。
然而,从互联网上抓取会产生大量垃圾数据。为了确保高质量,他们使用了 Phi-3 Vision , 一个强大的多模态模型,作为过滤器 (见 Figure 3a )。他们向 Phi-3 提问: “这是一张有效的 Windows 截图吗?它是高分辨率的吗?”只有通过质量检查的图像才能进入下一步。
第二步: 图标定位 (定位器)
一旦有了干净的截图,下一步就是找到按钮。由于不能依赖代码,他们使用了一个专门的内部 ViT-BERT 模型 (Vision Transformer + BERT) 。
如 Figure 3b 所示,该模型扫描截图并在可操作元素 (图标、文本字段和按钮) 周围绘制边界框。它识别出东西在 哪里,即使它还不太清楚它们是 做什么 的。
第三步: 与 LLMs 对齐 (描述者)
现在我们有了一张截图和一个按钮周围的框。但我们需要指令。这就是 GPT-4o 发挥作用的地方。
研究人员将截图和检测到的边界框输入给 GPT-4o (Figure 3c) 。该模型被分配了两项任务:
- 描述元素: “这是一个放大镜图标。”
- 生成指令: “我想搜索一个文件,我应该点击哪里?”
这创建了一个完整的训练样本: 一张图像、一个用户问题和正确的坐标答案。
通过自动化这一流水线,团队生成了超过 60,000 个训练样本 , 在大幅降低人工标注成本的同时,覆盖了大量不同的 Windows 视觉风格。
介绍 WinSpot: 基准测试
虽然生成的数据非常适合 训练,但用于 测试 的基准必须完美无缺。你不能用可能错误的答案纸来评估学生。
为了创建 WinSpot 基准测试 , 作者选择了他们数据的一个子集,并对其进行了严格的人工验证。结果是涵盖 14 个核心 Windows 应用程序的超过 5,000 个坐标-指令对 。

Figure 4 展示了该基准的多样性。
- 上图: 一个“Windows 商店”任务,用户想要搜索一款游戏。
- 下图: 一个“任务管理器”任务,询问 CPU 详情。
这种多样性至关重要。一个能够浏览网页的智能体,在面对像任务管理器这样的系统工具或 Excel 中密集的电子表格时,可能会完全失败。
应用程序的多样性
为了确保基准反映真实世界的使用情况,研究人员平衡了不同类别的数据集。

如 Figure 5 所示,该数据集涵盖:
- 文件管理 (16.3%): Windows 资源管理器交互。
- 系统设置 (12.2%): 操作系统中复杂且经常嵌套的菜单。
- 生产力工具: 任务管理器、命令提示符等。
- Web & Store: 更熟悉、结构化的界面。
这种分布测试了智能体的泛化能力。它能否既处理 Microsoft Store 的标准化布局,又处理命令提示符那种独特的、纯文本的布局?

Figure 6 提供了更多训练数据的示例,展示了标注的粒度。无论是 PowerPoint 中的“智能查找”窗格还是资源管理器中的文件目录,模型必须理解上下文才能成功。
实验: 谁是桌面之王?
研究人员在 WinSpot 基准上测试了多个模型。他们对比了 通用 MLLMs (如 GPT-4o 和 GPT-4V) 与 GUI 专用模型 (如 SeeClick 和 Uground) 。
使用的指标是 点击准确率 (Click Accuracy) : 模型预测的坐标是否落在正确的边界框内?

Table 1 详细列出了结果,揭示了一些引人注目的趋势。
1. 通用模型在系统任务上挣扎
看看 GPT-4V 和 GPT-4o 的表现。虽然它们在“MS Store & Web”上表现尚可 (分别为 58.1% 和 47.7%) ,但在“System” (系统) 任务上表现崩塌 (6.3% 和 7.5%) 。
- 为什么? 这些模型主要是在网络数据上训练的。它们知道网站导航栏长什么样。但在预训练期间,它们可能很少看到 Windows 控制面板或深层嵌套的文件资源管理器窗口的截图。
2. 专用模型处于领先地位
表现最出色的是 Uground , 一个专门的 GUI 智能体。它达到了 44.2% 的总准确率 , 是 GPT-4V 的两倍多。
- Uground 在 System 任务 (51.4%) 和 File Management (27.2%) 中占据主导地位。这证明了在特定领域的 GUI 数据上进行微调是必不可少的。你不能仅仅依靠通用的“世界模型”来操作特定的操作系统。
3. “系统”差距
总体而言,每个模型在 File Management 和 System 设置上的表现都比 Web/Store 任务差。
- Web/Store: 结构化程度高,图标熟悉,布局标准。
- System/File: 密集的文本,非标准的列表,缺乏清晰的视觉提示。 这表明桌面自动化的“桌面”部分仍然是最难攻克的坚果。
结论与未来影响
WinSpot 论文提出了一个令人信服的观点: 如果我们希望 AI 智能体帮助我们工作,我们需要教它们操作系统的视觉语言。通过摆脱基于代码的依赖 (HTML/DOM) 并采用纯视觉方法,研究人员为能够跨 任何 应用程序工作的智能体打开了大门,无论这些应用程序是如何编码的。
然而,结果表明我们仍处于早期阶段。即使是最好的模型 (Uground) ,平均失败率也超过一半。“系统差距”凸显了目前的 AI 模型仍缺乏导航复杂 OS 层级所需的细粒度空间推理能力。
作者建议,未来在于 时序动态 (temporal dynamics) ——不仅教智能体看截图,还要理解随时间变化的一系列动作。浏览菜单不仅仅是一次点击;它是一个状态流。
WinSpot 为这一领域提供了地图。它作为一个严格的测试平台,可能会推动下一代“使用计算机的智能体”的发展,让我们更接近这样一个未来: 只需你开口要求,电脑就能自动创建电子表格或整理文件。
](https://deep-paper.org/en/paper/file-2399/images/cover.png)