清华&面壁团队队开源 AgentCPM-GUI,面向中文 APP 的端侧 GUI Agent


近日,清华大学联合面壁智能团队发布了 AgentCPM-GUI —— 一个面向中文 APP 的端侧 GUI Agent,已在中文 Android 场景和开源 Benchmark 取得 SOTA 性能。

据介绍,与传统 Agent 相比,GUI Agent 更强调通过图形界面的窗口、按钮而非文本去执行用户指令进行交互,从而跳出单一的、固定的工作流,让非技术用户也能轻松地与复杂系统进行交互。

在 Agent 发展的多样化方向中,GUI Agent 作为一条重要分支,拓展了 Agent 应用的场景和形式。  

AgentCPM-GUI 通过高质量的 GUI Grounding 预训练,显著提升了模型对视觉界面元素的理解和定位能力。该模型在大规模中文安卓应用界面数据上进行预训练,覆盖了常见的按钮、输入框、标签、图标等通用 GUI 控件,具备较强的跨任务、跨应用泛化能力。

目前,AgentCPM-GUI 已开源了所有的 Benchmark 代码、数据和技术报告。

➤ 开源仓库:https://github.com/OpenBMB/AgentCPM-GUI

包含 SFT 训练代码、RFT 训练代码、评测脚本、中文 Grounding Benchmark、中文 Agent Benchmark


相關推薦

2024-08-08

面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新——仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。 面壁智能表示,MiniCPM-V 2.6 模型将实时视频理解、多图联

2025-05-01

,我们也会为基于 RWKV 的项目提供技术支持。 如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"[email protected]"。)

2023-11-04

深言科技与清华大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发

2023-08-16

清华大学研究团队发表的《LLM As DBA》论文介绍了用大模型管理数据库的技术。 论文地址:Arxiv  根据论文的内容,该团队开发了一款名为 D-Bot 的大语言模型工具,可以帮助对数据库进行管理。D-Bot 从文本来源中持续获取

2023-03-03

加入 Mastodon 社区的最佳途径......我们是一个小型的创业团队,在独立开发社区有着悠久的历史,深深地浸润在 Apple 文化、开源和构建数亿人使用的应用程序中。当我们将 Mammoth 与我们的 Moth.social 服务器和后端工作相结合时

2025-04-24

apReduce-V2 长文本整合生成技术。该技术由 AI9Star、OpenBMB、清华大学团队联合研发,核⼼在于借助⽂本卷积算法实现多篇参考⽂献的聚合来代替现有⽅法中常⻅的检索,从⽽实现对全部参考⽂章的充分利⽤。 目前,卷姬已上线官

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本

2024-09-26

可大幅降低AI应用开发的技术门槛和成本。该项技术是与清华大学高性能计算研究所合作的研发成果,可通过降低模型应用间的耦合性,提高资源利用率。Serverless API简化了AI应用开发过程,开发者只需注册账号即可直接调用,且

2025-05-07

传递和文件共享。 Skype 于 2003 年 8 月问世,创始团队来自瑞典、丹麦和爱沙尼亚。在跨国通话费用畸高的早年,Skype 的低费率具有很大吸引力,有一段时间更是可以免费呼叫美国和加拿大号码。Skype 的语音通话功能采用 P

2023-07-25

本次发布会的主讲人为知未智能的联合创始人兼CTO段清华,毕业于北京大学计算机系,长期以来从业于金融科技领域,具备多年金融科技的项目经验,同时在机器学习和自然语言处理领域有着深入的研究。 以段清华为核心的

2023-07-22

务及科技中介服务等。 根据官网介绍,智谱 AI 是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱

2023-06-22

从而更好地理解世界。” 值得一提的是,6 月 19 日,由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AI

2023-11-07

易有道(“子曰”大模型)、蚂蚁集团(百灵大模型)、面壁智能(“面壁露卡 Luca”)、出门问问(“序列猴子”)、昆仑万维(“天工”大模型)、美团(模型)、知乎(“知海图 AI”模型)、月之暗面(moonshot)、金山办

2025-05-09

工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。 智源研究院于2023年11月首次发布中文互联网语料库CCI 1.0,并于