图形用户界面 (GUI) 是数字世界的视觉语言。无论你是刷 Instagram、在 Windows 上整理文件,还是在移动应用上购物,你都依赖于图标、文本和空间关系的复杂排列来理解屏幕内容。
对于人类用户来说,这个过程是直观的。我们看到“结账”按钮,不仅因为位置相近且分组在一起,就能立刻明白它属于“购物车”面板。然而,对于多模态大型语言模型 (MLLMs) 和辅助工具而言,这仍然是一个巨大的挑战。虽然 AI 在描述一般图像方面已经做得很好,但它在 屏幕点读 (Screen Point-and-Read, ScreenPR) 这一特定任务上仍很吃力。
想象一下,视障用户触摸屏幕上的特定点。现有的工具可能会读出手指下的文字,但往往无法解释语境。这个“删除”按钮是针对邮件的还是草稿的?这个价格标签是鞋子的还是袜子的?
在这篇文章中,我们将深入探讨一篇题为 “Read Anywhere Pointed” 的论文,它引入了一种名为 Tree-of-Lens (ToL) Agent 的新颖解决方案。该智能体不仅能阅读文本,还能理解屏幕的层级布局,模仿人类在关注细节的同时保持全局观念的方式。
问题: 只见树木,不见森林
目前的 GUI 智能体和辅助工具缺乏空间感知能力。如果你向标准 MLLM (如 GPT-4o) 输入截图和坐标点并问: “这里是什么?”,它经常会产生幻觉或给出模糊的答案。它可能识别出了文本,但忽略了 布局 (layout) 。
为什么布局很重要?试想一个购物应用列出了两个相同的商品,但一个在你的“购物车”里,另一个在“推荐”里。如果 AI 仅仅说“商品: 玻璃杯,1.99美元”,用户完全不知道他们正在与哪个列表交互。

如图 1 所示,ToL 智能体通过提供包含内容 (“Proceed to Checkout”) 和布局语境 (“位于‘我的购物袋’下拉菜单底部”) 的描述来解决这个问题。
解决方案: Tree-of-Lens (ToL) 智能体
研究人员提出了一种受人类处理视觉信息方式启发的方法: 我们放大以查看细节,缩小以理解语境。他们称之为 Tree-of-Lens (ToL) 接地 (Grounding) 机制。
ToL 智能体的核心逻辑分两个阶段运行:
- 层级布局树构建: 理解屏幕结构。
- 目标路径选择与多透镜提示 (Multi-lens Prompting) : 为 MLLM 生成视觉提示。
让我们拆解一下架构。

第一阶段: 构建层级布局树
GUI 本质上是一个树状结构——主窗口包含面板,面板包含分组,分组包含按钮。ToL 智能体试图仅从截图重建这个树的简化版本 (全局区域 vs. 局部区域) ,而无需访问底层代码。
为此,作者使用名为 Android 屏幕层级布局 (ASHL) 的新数据集训练了一个专门的目标检测模型 (在 DINO 检测模型上微调) 。该模型观察截图并预测不同元素的边界框。
然而,原始检测框是杂乱的。系统需要将它们组织成一棵树。这是通过合并重叠区域来实现的。如果两个检测到的区域重叠显著 (IoU > 0.9) 并且在代码结构中具有父子关系,它们就会被合并。
合并逻辑的数学定义如下:

一旦区域合并完成,系统会将它们分类为 全局区域 (Global Regions) (容器) 和 局部区域 (Local Regions) (具体的交互元素) 。如果一个节点包含多个叶子节点,则被视为“全局”,而“局部”区域则是叶子本身。

这产生了一棵清晰的 3 层树:
- 根节点: 完整的截图。
- 中间层: 全局区域 (例如,导航栏、产品卡片) 。
- 叶节点: 局部区域 (例如,“主页”图标、“购买”按钮) 。
第二阶段: 多透镜提示
树构建完成后,智能体需要解释用户指出的特定点 \(P(x,y)\)。
并不是简单地向 MLLM 发送按钮的裁剪图像,ToL 智能体生成一系列称为 透镜 (Lenses) 的图像。这模仿了相机的变焦。
- 透镜 1 (细粒度) : 显示裁剪出的 全局区域 , 其中 局部区域 用框标记 (标签 ‘1’) ,特定点用圆点标记。
- 透镜 2 (粗粒度) : 显示 完整截图 , 其中 全局区域 用框标记 (标签 ‘2’) 。

如图 3 所示,透镜 1 帮助 AI 准确识别用户指向的内容 (文本输入框) 。透镜 2 帮助 AI 理解该输入框在整个应用程序中的位置 (在主要内容区域,标题下方) 。
然后,智能体将这些透镜连同一个特定的提示输入 GPT-4o,要求它描述方框 1 的内容及其与方框 2 的空间关系。
ScreenPR 基准测试
为了评估这一新方法,研究人员意识到现有的基准测试是不够的。他们创建了 屏幕点读 (ScreenPR) 基准测试 。
该基准测试具有多样性,涵盖三个主要领域:
- 网页 (Web)
- 移动端 (Mobile)
- 操作系统 (Operating Systems - Desktop)

该基准测试包含 650 张截图和 1,500 个目标点。研究人员确保这些点均匀分布在屏幕空间中,而不只是集中在明显的元素上。

实验结果
那么,添加“透镜”真的有帮助吗?结果表明确实如此。
作者将 ToL 智能体与强基线模型进行了比较,包括原始 GPT-4o、LlaVA-NeXT 和 CogAgent。他们使用了两种类型的评估:
- 人工评估: 真人对描述进行评分。
- 循环一致性 (Cycle Consistency) : 一种自动化方法,让另一个 AI (GPT-4V) 仅根据 ToL 智能体生成的文本描述来猜测正确的截图裁剪区域。如果描述很好,第二个 AI 应该能猜对。
性能比较

ToL 智能体显著优于基线模型。查看循环一致性评估中的 布局准确性 :
- GPT-4o: 21.87%
- ToL Agent: 39.67%
这是一个巨大的飞跃,几乎使布局理解能力翻了一番。这表明,仅仅给像 GPT-4o 这样强大的模型提供原始截图是不够的;它需要透镜提供的视觉引导 (接地) 。
为什么它有效? (消融研究)
研究人员剥离了系统的部分组件,看看什么最重要。

- 无多透镜: 性能略有下降。
- 无点标记: 性能进一步下降。
- 无局部和全局标记: 性能暴跌至接近基线水平。
这证实了 层级布局树——即识别那些局部和全局框——是推动成功的关键组件。
超越无障碍功能: 验证移动智能体
ToL 智能体不仅用于向人类朗读屏幕;它还可以充当其他 AI 智能体的“监督者”。
移动导航智能体 (在应用中点击以执行任务的机器人) 经常会犯错。它们可能会陷入死循环或点击错误的图标。ToL 智能体可用于验证这些操作。

工作原理如下:
- 导航智能体规划动作 (例如,“点击设置”) 。
- ToL 智能体分析导航智能体打算点击的坐标。
- ToL 描述该区域 (例如,“这是搜索图标”) 。
- 验证器 (GPT-4) 比较指令 (“设置”) 和描述 (“搜索”) 。
- 如果不匹配,该动作会被标记为不正确。

在上面的例子中,智能体正确验证了预期的点击确实是在“设置”图标上。
实验表明,ToL 智能体非常擅长检测“执行循环”——即机器人不断点击同一个东西而没有任何进展的情况。

结论
Tree-of-Lens (ToL) 智能体代表了细粒度 GUI 理解的一大进步。通过摆脱将原始截图作为平面图像处理的方式,转而将其建模为层级树,研究人员使 AI 能够更像人类一样“看”屏幕。
层级布局树和 多透镜提示 的结合,使模型既能捕捉按钮的微小细节,又能捕捉其在面板或窗口中的更广泛语境。这对于无障碍功能来说是一个游戏规则改变者,使屏幕阅读器不仅能回答“这是什么?”,还能回答“这在哪里?”。
随着 MLLM 的不断发展,像 ToL 接地这样的技术表明,我们如何向模型展示视觉数据与模型本身一样重要。无论是帮助视障用户浏览复杂的应用程序,还是确保自主智能体不会迷失在菜单中,具备布局感知的理解能力是下一代智能界面的关键。
](https://deep-paper.org/en/paper/2406.19263/images/cover.png)