图形用户界面 (GUI) 是数字世界的视觉语言。无论你是刷 Instagram、在 Windows 上整理文件,还是在移动应用上购物,你都依赖于图标、文本和空间关系的复杂排列来理解屏幕内容。

对于人类用户来说,这个过程是直观的。我们看到“结账”按钮,不仅因为位置相近且分组在一起,就能立刻明白它属于“购物车”面板。然而,对于多模态大型语言模型 (MLLMs) 和辅助工具而言,这仍然是一个巨大的挑战。虽然 AI 在描述一般图像方面已经做得很好,但它在 屏幕点读 (Screen Point-and-Read, ScreenPR) 这一特定任务上仍很吃力。

想象一下,视障用户触摸屏幕上的特定点。现有的工具可能会读出手指下的文字,但往往无法解释语境。这个“删除”按钮是针对邮件的还是草稿的?这个价格标签是鞋子的还是袜子的?

在这篇文章中,我们将深入探讨一篇题为 “Read Anywhere Pointed” 的论文,它引入了一种名为 Tree-of-Lens (ToL) Agent 的新颖解决方案。该智能体不仅能阅读文本,还能理解屏幕的层级布局,模仿人类在关注细节的同时保持全局观念的方式。

问题: 只见树木,不见森林

目前的 GUI 智能体和辅助工具缺乏空间感知能力。如果你向标准 MLLM (如 GPT-4o) 输入截图和坐标点并问: “这里是什么?”,它经常会产生幻觉或给出模糊的答案。它可能识别出了文本,但忽略了 布局 (layout)

为什么布局很重要?试想一个购物应用列出了两个相同的商品,但一个在你的“购物车”里,另一个在“推荐”里。如果 AI 仅仅说“商品: 玻璃杯,1.99美元”,用户完全不知道他们正在与哪个列表交互。

我们的 ToL 智能体描述用户指向的截图区域。与其他屏幕阅读工具不同,我们的 ToL 智能体可以为屏幕上任何位置的点输出具有布局感知能力的描述。

如图 1 所示,ToL 智能体通过提供包含内容 (“Proceed to Checkout”) 和布局语境 (“位于‘我的购物袋’下拉菜单底部”) 的描述来解决这个问题。

解决方案: Tree-of-Lens (ToL) 智能体

研究人员提出了一种受人类处理视觉信息方式启发的方法: 我们放大以查看细节,缩小以理解语境。他们称之为 Tree-of-Lens (ToL) 接地 (Grounding) 机制。

ToL 智能体的核心逻辑分两个阶段运行:

  1. 层级布局树构建: 理解屏幕结构。
  2. 目标路径选择与多透镜提示 (Multi-lens Prompting) : 为 MLLM 生成视觉提示。

让我们拆解一下架构。

Tree-of-Lens 智能体的流程。首先基于输入截图中检测到的全局和局部区域构建层级布局树。然后,从树中选定的目标路径生成一组具有不同视野宽度的层级透镜,并作为视觉提示发送给 GPT-4o,以生成内容和布局描述。

第一阶段: 构建层级布局树

GUI 本质上是一个树状结构——主窗口包含面板,面板包含分组,分组包含按钮。ToL 智能体试图仅从截图重建这个树的简化版本 (全局区域 vs. 局部区域) ,而无需访问底层代码。

为此,作者使用名为 Android 屏幕层级布局 (ASHL) 的新数据集训练了一个专门的目标检测模型 (在 DINO 检测模型上微调) 。该模型观察截图并预测不同元素的边界框。

然而,原始检测框是杂乱的。系统需要将它们组织成一棵树。这是通过合并重叠区域来实现的。如果两个检测到的区域重叠显著 (IoU > 0.9) 并且在代码结构中具有父子关系,它们就会被合并。

合并逻辑的数学定义如下:

描述基于交并比 (IoU) 合并区域的公式。

一旦区域合并完成,系统会将它们分类为 全局区域 (Global Regions) (容器) 和 局部区域 (Local Regions) (具体的交互元素) 。如果一个节点包含多个叶子节点,则被视为“全局”,而“局部”区域则是叶子本身。

基于叶节点数量定义全局和局部区域的公式。

这产生了一棵清晰的 3 层树:

  1. 根节点: 完整的截图。
  2. 中间层: 全局区域 (例如,导航栏、产品卡片) 。
  3. 叶节点: 局部区域 (例如,“主页”图标、“购买”按钮) 。

第二阶段: 多透镜提示

树构建完成后,智能体需要解释用户指出的特定点 \(P(x,y)\)。

并不是简单地向 MLLM 发送按钮的裁剪图像,ToL 智能体生成一系列称为 透镜 (Lenses) 的图像。这模仿了相机的变焦。

  1. 透镜 1 (细粒度) : 显示裁剪出的 全局区域 , 其中 局部区域 用框标记 (标签 ‘1’) ,特定点用圆点标记。
  2. 透镜 2 (粗粒度) : 显示 完整截图 , 其中 全局区域 用框标记 (标签 ‘2’) 。

基于点坐标从层级布局树生成的透镜示例。透镜 2 可以看作是透镜 1 的缩小视图。

如图 3 所示,透镜 1 帮助 AI 准确识别用户指向的内容 (文本输入框) 。透镜 2 帮助 AI 理解该输入框在整个应用程序中的位置 (在主要内容区域,标题下方) 。

然后,智能体将这些透镜连同一个特定的提示输入 GPT-4o,要求它描述方框 1 的内容及其与方框 2 的空间关系。

ScreenPR 基准测试

为了评估这一新方法,研究人员意识到现有的基准测试是不够的。他们创建了 屏幕点读 (ScreenPR) 基准测试

该基准测试具有多样性,涵盖三个主要领域:

  1. 网页 (Web)
  2. 移动端 (Mobile)
  3. 操作系统 (Operating Systems - Desktop)

显示 ScreenPR 基准测试关键统计数据的表格,涵盖网页、移动端和操作系统领域。

该基准测试包含 650 张截图和 1,500 个目标点。研究人员确保这些点均匀分布在屏幕空间中,而不只是集中在明显的元素上。

显示目标点归一化位置的散点图和局部区域面积分布的柱状图。

实验结果

那么,添加“透镜”真的有帮助吗?结果表明确实如此。

作者将 ToL 智能体与强基线模型进行了比较,包括原始 GPT-4o、LlaVA-NeXT 和 CogAgent。他们使用了两种类型的评估:

  1. 人工评估: 真人对描述进行评分。
  2. 循环一致性 (Cycle Consistency) : 一种自动化方法,让另一个 AI (GPT-4V) 根据 ToL 智能体生成的文本描述来猜测正确的截图裁剪区域。如果描述很好,第二个 AI 应该能猜对。

性能比较

将 ToL 智能体与 LlaVA-NeXT、CogAgent、GPT-4o 和 Scaffolding 进行比较的主要结果表。ToL 智能体在内容和布局准确性方面均取得了最佳性能。

ToL 智能体显著优于基线模型。查看循环一致性评估中的 布局准确性 :

  • GPT-4o: 21.87%
  • ToL Agent: 39.67%

这是一个巨大的飞跃,几乎使布局理解能力翻了一番。这表明,仅仅给像 GPT-4o 这样强大的模型提供原始截图是不够的;它需要透镜提供的视觉引导 (接地) 。

为什么它有效? (消融研究)

研究人员剥离了系统的部分组件,看看什么最重要。

消融结果表。移除多透镜提示或区域标记会显著降低性能。

  • 无多透镜: 性能略有下降。
  • 无点标记: 性能进一步下降。
  • 无局部和全局标记: 性能暴跌至接近基线水平。

这证实了 层级布局树——即识别那些局部和全局框——是推动成功的关键组件。

超越无障碍功能: 验证移动智能体

ToL 智能体不仅用于向人类朗读屏幕;它还可以充当其他 AI 智能体的“监督者”。

移动导航智能体 (在应用中点击以执行任务的机器人) 经常会犯错。它们可能会陷入死循环或点击错误的图标。ToL 智能体可用于验证这些操作。

使用我们的 ToL 智能体验证移动导航智能体动作的流程。

工作原理如下:

  1. 导航智能体规划动作 (例如,“点击设置”) 。
  2. ToL 智能体分析导航智能体打算点击的坐标。
  3. ToL 描述该区域 (例如,“这是搜索图标”) 。
  4. 验证器 (GPT-4) 比较指令 (“设置”) 和描述 (“搜索”) 。
  5. 如果不匹配,该动作会被标记为不正确。

验证移动智能体在 YouTube 上动作的示例。智能体正确识别了设置图标。

在上面的例子中,智能体正确验证了预期的点击确实是在“设置”图标上。

实验表明,ToL 智能体非常擅长检测“执行循环”——即机器人不断点击同一个东西而没有任何进展的情况。

显示不同验证方法性能的表格。ToL 智能体实现了最佳的 F1 分数和重复检测率。

结论

Tree-of-Lens (ToL) 智能体代表了细粒度 GUI 理解的一大进步。通过摆脱将原始截图作为平面图像处理的方式,转而将其建模为层级树,研究人员使 AI 能够更像人类一样“看”屏幕。

层级布局树多透镜提示 的结合,使模型既能捕捉按钮的微小细节,又能捕捉其在面板或窗口中的更广泛语境。这对于无障碍功能来说是一个游戏规则改变者,使屏幕阅读器不仅能回答“这是什么?”,还能回答“这在哪里?”。

随着 MLLM 的不断发展,像 ToL 接地这样的技术表明,我们如何向模型展示视觉数据与模型本身一样重要。无论是帮助视障用户浏览复杂的应用程序,还是确保自主智能体不会迷失在菜单中,具备布局感知的理解能力是下一代智能界面的关键。