近日,清华大学联合面壁智能团队发布了 AgentCPM-GUI —— 一个面向中文 APP 的端侧 GUI Agent,已在中文 Android 场景和开源 Benchmark 取得 SOTA 性能。
据介绍,与传统 Agent 相比,GUI Agent 更强调通过图形界面的窗口、按钮而非文本去执行用户指令进行交互,从而跳出单一的、固定的工作流,让非技术用户也能轻松地与复杂系统进行交互。
在 Agent 发展的多样化方向中,GUI Agent 作为一条重要分支,拓展了 Agent 应用的场景和形式。
AgentCPM-GUI 通过高质量的 GUI Grounding 预训练,显著提升了模型对视觉界面元素的理解和定位能力。该模型在大规模中文安卓应用界面数据上进行预训练,覆盖了常见的按钮、输入框、标签、图标等通用 GUI 控件,具备较强的跨任务、跨应用泛化能力。
目前,AgentCPM-GUI 已开源了所有的 Benchmark 代码、数据和技术报告。
➤ 开源仓库:https://github.com/OpenBMB/AgentCPM-GUI
包含 SFT 训练代码、RFT 训练代码、评测脚本、中文 Grounding Benchmark、中文 Agent Benchmark