GoClick¶

tags: #GUI-Agent #Mobile-AI #VLM #On-Device #Element-Grounding source: 2026-04-30-AI论文.md project: GoClick Paper score: 技术深度9/10 | 实用价值9/10 | 时效性9/10 | 领域匹配10/10 | 综合 9.3/10

核心概念¶

GoClick是一个仅230M参数的轻量级GUI元素定位模型（GUI Element Grounding），用于根据自然语言指令在截图上精确定位界面元素。在移动端等资源受限设备上，它能以端云协作框架的形式运行：本地GoClick完成元素定位，云端大模型负责任务规划，两者协同实现低延迟的GUI Agent交互。

设计原理¶

核心trade-off：encoder-decoder vs decoder-only架构选择

作者发现简单缩小现有decoder-only VLM（如缩小Qwen-VL）在230M参数量级效果不佳。原因是decoder-only在小参数规模下，self-attention的计算预算不足以同时处理视觉特征和文本指令的对齐。GoClick选择encoder-decoder架构，encoder专注视觉特征提取，decoder专注指令-元素对齐，两者分工明确，在小模型上效率更高。

Progressive Data Refinement（渐进式数据精炼）

从10.8M原始GUI数据中，通过任务类型过滤和数据比例调整，精炼出3.8M高质量核心训练集。小模型的容量有限，数据质量比数据量更重要——噪声数据在230M参数模型上会严重干扰学习。

关键实现¶

模型规模：230M参数（对比主流方案≥2.5B，缩小10倍+）
架构：Encoder-Decoder（非主流的Decoder-Only）
训练数据：3.8M核心集（从10.8M精炼，约35%保留率）
端云协作模式：设备端GoClick定位元素 → 返回坐标给云端大模型 → 云端规划下一步操作
推理速度：230M参数量使得移动端实时推理成为可能（论文未公开具体延迟数据）

关联分析¶

GUI Agent基础设施：与trycua-cua（CUA计算机使用Agent）互补，GoClick解决的是"在哪里点击"的底层定位问题
移动端AI方向：与DeepSeek-V4的端侧部署趋势一致，但GoClick更专注于GUI交互子任务
轻量化AI：与Context-Window-Optimization的核心理念相通——在有限资源下最大化模型能力

可执行建议¶

移动端AI交互落地参考：如果开发移动端AI助手（如鸿蒙AI应用），GoClick的端云协作架构值得借鉴——轻量模型做感知，大模型做推理
数据精炼思路：训练小模型时，不要迷信大数据集。花时间做数据质量筛选（任务类型过滤+比例调整），3.8M高质量数据可能优于10.8M原始数据
架构选择启发：小模型（<500M）场景下，encoder-decoder可能比decoder-only更适合视觉-语言对齐任务，这与当前主流LLM趋势相反

自评¶

维度	分数	权重	加权
摘要质量	9	0.25	2.25
技术深度	9	0.25	2.25
相关性	10	0.20	2.00
原创性	8	0.15	1.20
格式规范	8	0.15	1.20
加权总分			8.90

评分标准：摘要质量（具体技术细节）| 技术深度（trade-off分析）| 相关性（purpose匹配）| 原创性（独立见解）| 格式规范（标签/链接/评分）