图形用户界面 (GUI) 是数字世界的视觉语言。无论你是刷 Instagram、在 Windows 上整理文件，还是在移动应用上购物，你都依赖于图标、文本和空间关系的复杂排列来理解屏幕内容。

对于人类用户来说，这个过程是直观的。我们看到“结账”按钮，不仅因为位置相近且分组在一起，就能立刻明白它属于“购物车”面板。然而，对于多模态大型语言模型 (MLLMs) 和辅助工具而言，这仍然是一个巨大的挑战。虽然 AI 在描述一般图像方面已经做得很好，但它在 屏幕点读 (Screen Point-and-Read, ScreenPR) 这一特定任务上仍很吃力。

想象一下，视障用户触摸屏幕上的特定点。现有的工具可能会读出手指下的文字，但往往无法解释语境。这个“删除”按钮是针对邮件的还是草稿的？这个价格标签是鞋子的还是袜子的？

在这篇文章中，我们将深入探讨一篇题为 “Read Anywhere Pointed” 的论文，它引入了一种名为 Tree-of-Lens (ToL) Agent 的新颖解决方案。该智能体不仅能阅读文本，还能理解屏幕的层级布局，模仿人类在关注细节的同时保持全局观念的方式。

问题: 只见树木，不见森林

目前的 GUI 智能体和辅助工具缺乏空间感知能力。如果你向标准 MLLM (如 GPT-4o) 输入截图和坐标点并问: “这里是什么？”，它经常会产生幻觉或给出模糊的答案。它可能识别出了文本，但忽略了 布局 (layout) 。

为什么布局很重要？试想一个购物应用列出了两个相同的商品，但一个在你的“购物车”里，另一个在“推荐”里。如果 AI 仅仅说“商品: 玻璃杯，1.99美元”，用户完全不知道他们正在与哪个列表交互。

我们的 ToL 智能体描述用户指向的截图区域。与其他屏幕阅读工具不同，我们的 ToL 智能体可以为屏幕上任何位置的点输出具有布局感知能力的描述。

如图 1 所示，ToL 智能体通过提供包含内容 (“Proceed to Checkout”) 和布局语境 (“位于‘我的购物袋’下拉菜单底部”) 的描述来解决这个问题。

解决方案: Tree-of-Lens (ToL) 智能体

研究人员提出了一种受人类处理视觉信息方式启发的方法: 我们放大以查看细节，缩小以理解语境。他们称之为 Tree-of-Lens (ToL) 接地 (Grounding) 机制。

ToL 智能体的核心逻辑分两个阶段运行:

层级布局树构建: 理解屏幕结构。
目标路径选择与多透镜提示 (Multi-lens Prompting) : 为 MLLM 生成视觉提示。

让我们拆解一下架构。

Tree-of-Lens 智能体的流程。首先基于输入截图中检测到的全局和局部区域构建层级布局树。然后，从树中选定的目标路径生成一组具有不同视野宽度的层级透镜，并作为视觉提示发送给 GPT-4o，以生成内容和布局描述。

第一阶段: 构建层级布局树

GUI 本质上是一个树状结构——主窗口包含面板，面板包含分组，分组包含按钮。ToL 智能体试图仅从截图重建这个树的简化版本 (全局区域 vs. 局部区域) ，而无需访问底层代码。

为此，作者使用名为 Android 屏幕层级布局 (ASHL) 的新数据集训练了一个专门的目标检测模型 (在 DINO 检测模型上微调) 。该模型观察截图并预测不同元素的边界框。

然而，原始检测框是杂乱的。系统需要将它们组织成一棵树。这是通过合并重叠区域来实现的。如果两个检测到的区域重叠显著 (IoU > 0.9) 并且在代码结构中具有父子关系，它们就会被合并。

合并逻辑的数学定义如下:

描述基于交并比 (IoU) 合并区域的公式。

一旦区域合并完成，系统会将它们分类为 全局区域 (Global Regions) (容器) 和 局部区域 (Local Regions) (具体的交互元素) 。如果一个节点包含多个叶子节点，则被视为“全局”，而“局部”区域则是叶子本身。

基于叶节点数量定义全局和局部区域的公式。

这产生了一棵清晰的 3 层树:

根节点: 完整的截图。
中间层: 全局区域 (例如，导航栏、产品卡片) 。
叶节点: 局部区域 (例如，“主页”图标、“购买”按钮) 。

第二阶段: 多透镜提示

树构建完成后，智能体需要解释用户指出的特定点 \(P(x,y)\)。

并不是简单地向 MLLM 发送按钮的裁剪图像，ToL 智能体生成一系列称为 透镜 (Lenses) 的图像。这模仿了相机的变焦。

透镜 1 (细粒度) : 显示裁剪出的 全局区域 , 其中 局部区域 用框标记 (标签 ‘1’) ，特定点用圆点标记。
透镜 2 (粗粒度) : 显示 完整截图 , 其中 全局区域 用框标记 (标签 ‘2’) 。

基于点坐标从层级布局树生成的透镜示例。透镜 2 可以看作是透镜 1 的缩小视图。

如图 3 所示，透镜 1 帮助 AI 准确识别用户指向的内容 (文本输入框) 。透镜 2 帮助 AI 理解该输入框在整个应用程序中的位置 (在主要内容区域，标题下方) 。

然后，智能体将这些透镜连同一个特定的提示输入 GPT-4o，要求它描述方框 1 的内容及其与方框 2 的空间关系。

ScreenPR 基准测试

为了评估这一新方法，研究人员意识到现有的基准测试是不够的。他们创建了 屏幕点读 (ScreenPR) 基准测试 。

该基准测试具有多样性，涵盖三个主要领域:

网页 (Web)
移动端 (Mobile)
操作系统 (Operating Systems - Desktop)

显示 ScreenPR 基准测试关键统计数据的表格，涵盖网页、移动端和操作系统领域。

该基准测试包含 650 张截图和 1,500 个目标点。研究人员确保这些点均匀分布在屏幕空间中，而不只是集中在明显的元素上。

显示目标点归一化位置的散点图和局部区域面积分布的柱状图。

实验结果

那么，添加“透镜”真的有帮助吗？结果表明确实如此。

作者将 ToL 智能体与强基线模型进行了比较，包括原始 GPT-4o、LlaVA-NeXT 和 CogAgent。他们使用了两种类型的评估:

人工评估: 真人对描述进行评分。
循环一致性 (Cycle Consistency) : 一种自动化方法，让另一个 AI (GPT-4V) 仅根据 ToL 智能体生成的文本描述来猜测正确的截图裁剪区域。如果描述很好，第二个 AI 应该能猜对。

性能比较

将 ToL 智能体与 LlaVA-NeXT、CogAgent、GPT-4o 和 Scaffolding 进行比较的主要结果表。ToL 智能体在内容和布局准确性方面均取得了最佳性能。

ToL 智能体显著优于基线模型。查看循环一致性评估中的 布局准确性 :

GPT-4o: 21.87%
ToL Agent: 39.67%

这是一个巨大的飞跃，几乎使布局理解能力翻了一番。这表明，仅仅给像 GPT-4o 这样强大的模型提供原始截图是不够的；它需要透镜提供的视觉引导 (接地) 。

为什么它有效？ (消融研究)

研究人员剥离了系统的部分组件，看看什么最重要。

消融结果表。移除多透镜提示或区域标记会显著降低性能。

无多透镜: 性能略有下降。
无点标记: 性能进一步下降。
无局部和全局标记: 性能暴跌至接近基线水平。

这证实了 层级布局树——即识别那些局部和全局框——是推动成功的关键组件。

超越无障碍功能: 验证移动智能体

ToL 智能体不仅用于向人类朗读屏幕；它还可以充当其他 AI 智能体的“监督者”。

移动导航智能体 (在应用中点击以执行任务的机器人) 经常会犯错。它们可能会陷入死循环或点击错误的图标。ToL 智能体可用于验证这些操作。

使用我们的 ToL 智能体验证移动导航智能体动作的流程。

工作原理如下:

导航智能体规划动作 (例如，“点击设置”) 。
ToL 智能体分析导航智能体打算点击的坐标。
ToL 描述该区域 (例如，“这是搜索图标”) 。
验证器 (GPT-4) 比较指令 (“设置”) 和描述 (“搜索”) 。
如果不匹配，该动作会被标记为不正确。

验证移动智能体在 YouTube 上动作的示例。智能体正确识别了设置图标。

在上面的例子中，智能体正确验证了预期的点击确实是在“设置”图标上。

实验表明，ToL 智能体非常擅长检测“执行循环”——即机器人不断点击同一个东西而没有任何进展的情况。

显示不同验证方法性能的表格。ToL 智能体实现了最佳的 F1 分数和重复检测率。

结论

Tree-of-Lens (ToL) 智能体代表了细粒度 GUI 理解的一大进步。通过摆脱将原始截图作为平面图像处理的方式，转而将其建模为层级树，研究人员使 AI 能够更像人类一样“看”屏幕。

层级布局树和 多透镜提示 的结合，使模型既能捕捉按钮的微小细节，又能捕捉其在面板或窗口中的更广泛语境。这对于无障碍功能来说是一个游戏规则改变者，使屏幕阅读器不仅能回答“这是什么？”，还能回答“这在哪里？”。

随着 MLLM 的不断发展，像 ToL 接地这样的技术表明，我们如何向模型展示视觉数据与模型本身一样重要。无论是帮助视障用户浏览复杂的应用程序，还是确保自主智能体不会迷失在菜单中，具备布局感知的理解能力是下一代智能界面的关键。

问题: 只见树木，不见森林#

解决方案: Tree-of-Lens (ToL) 智能体#

第一阶段: 构建层级布局树#

第二阶段: 多透镜提示#

ScreenPR 基准测试#

实验结果#

性能比较#

为什么它有效？ (消融研究)#

超越无障碍功能: 验证移动智能体#

结论#