原文：https://arxiv.org/abs/2408.00203

来自微软的工作，比较经典了，当初Orientor转投的时候也简单尝试过效果

任务

纯视觉驱动的UI屏幕解析工具，将UI截图解析为结构化的信息，促进下游UI自动化任务

动机

多模态大模型对UI截图及其中的控件呈现出了基础的理解能力。但是在UI自动化任务中：

action grounding有困难
GPT-4V难以给出操作的准确xy坐标
set-of-marks (SoM)提升了操作的健壮性，但是依赖于HTML解析以及准确的bbox识别，限制了应用范围

set-of-marks：在输入的截图上标记可交互控件

Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps](/2025/10/25/paper-journal-tse-LiuLCWCWWHW25) 工作中提及，可以用不同的标记（比如不同颜色）来标注具有不同属性的控件，但是需要在文字prompt中给模型提供解释

希望构建一个跨平台、跨应用的泛化方法

3个component：可交互icon检测模型，icon描述模型，OCR模块

SoM输入给LLM，但控件标注信息来自于微调的icon检测模型

微调数据集来自100k个流行网页，通过DOM树提取控件bbox

微调BLIP-v2模型，对控件进行描述

微调数据集为GPT-4o生成，构建了7k个icon-描述对

为什么不直接用LLM的能力进行描述？

原文：我们认为这一局限性源于GPT-4V在执行复合任务时的能力受限——它需要同时完成识别每个图标的语义信息与预测特定图标区域后续动作的双重任务。

既然LLM已经在工作流中，为什么不直接调用LLM，但是分开做？逻辑不是很通

可能的解释：保持效率、降低成本

操作和bbox配对

按每张图上的bbox数量分成三挡难度：easy（<10），medium（10-40），hard（>40）

LLM输出完全不结构化，好怪

操作与bbox配对，跨平台

自行构建数据集的必要性？

3种类型的任务：跨领域，跨网页，跨任务

发现icon detection模型具有泛化能力