Hugging Face 发布 ScreenSuite:开源 GUI 智能体评测套件


Hugging Face 开源了专用于评估 GUI 智能体的综合测试套件 ScreenSuite。

什么是 GUI Agent?简单说,就是“能像人一样操作屏幕”的 AI!它能识别界面内容、点击按钮、输入文字、滚动页面……实现真实的“虚拟助手”体验。

现在,Hugging Face 推出了全新的开源工具 ScreenSuite,帮助开发者和研究者评估这类视觉语言模型的实际操作能力!

ScreenSuite 能做什么?

它整合了 13 个评测集,覆盖:

  • 屏幕感知与 UI 定位
  • 单步操作指令执行
  • 多步骤任务规划与完成

ScreenSuite 已在多个主流 VLM 上完成评测,包括:

  • Qwen2.5-VL 系列(3B~72B)
  • UI-TARS、Holo1 等优秀开源模型
  • GPT-4o 等闭源模型

ScreenSuite 支持 Ubuntu、Android、Windows 多平台评测,结合虚拟机环境还原真实交互场景,适用于科研评估与模型迭代。与其他评测不同的是,ScreenSuite 完全基于视觉输入,不依赖 DOM 或辅助树,更贴近人类的使用方式,挑战也更真实。


相關推薦

2023-06-16

上下文窗口长度为 4096。 目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。 Hugging Face:https://huggingfac

2025-05-10

Hugging Face 推出了免费云端 AI 智能体工具 Open Computer Agent,支持用户通过文本指令,远程操控基于 Linux 的虚拟计算机,使用 Firefox 等应用。 https://huggingface.co/spaces/smolagents/computer-agent 据介绍,Open Computer Agent 工具集成 smolagents

2025-04-30

像编辑模型 Step1X-Edit,上线次日就在海外开源社区平台 Hugging Face 登上 Spaces 趋势热榜,该榜单反映了模型实际应用价值的受欢迎程度。 Step1X-Edit 提供强大的改图能力,可以帮用户完成日常工作和生活中最高频的 11 类图像编辑

2025-05-01

g 数据,总数据为 5.16T tokens。 快速体验 G1 1.5B :https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP,方便大家体验 RWKV-7 模型。APP 下载链接在本文靠后位置。 模型客观指标评测 英语和多语

2023-10-24

一起寻宝 AI 时代 根据 Yahoo 新闻的报道,人工智能公司 Hugging Face 发言人在周五的一封电子邮件中写道: 中国的人工智能社区非常出色,我们希望他们能更好地访问 HF,但目前我们对于政府的法规无能为力。 The Chinese AI

2023-08-24

科技媒体 The Information 的报道,开源模型库公司 Hugging Face 正进行一轮新的融资,本轮融资由 Salesforce 旗下投资机构 Salesforce Ventures 领投,Salesforce CEO Marc Benioff 在推特证实了这一消息。Hugging Face 此次融资预计将筹集约

2025-05-22

g 数据,总数据为 5.16T tokens。 快速体验 G1 2.9B :https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace 我们也开源发布了 RWKV 模型端聊天 APP,方便大家体验 RWKV-7 G1 模型,APP 下载链接在本文靠后位置。 模型客观指标评测 英语和多

2023-05-06

Hugging Face 日前联合 ServiceNow 发布了一个免费的大型语言模型 StarCoder(150 亿参数),该模型经过训练主要用途是可以生成代码,目的是为了对抗 GitHub Copilot 和亚马逊 CodeWhisperer 等基于 AI 的编程工具。 目前像是 GitHub Copilot 这

2025-05-31

AI 开发平台 Hugging Face 发布了 HopeJR 和 Reachy Mini 两款开源人形机器人。 HopeJR 是全尺寸人形机器人,具备 66 个驱动自由度(即 66 个独立动作),包括行走和手臂运动能力。Reachy Mini 则是桌面版机器人

2023-08-09

PyTorch 基金会宣布 Hugging Face 已加入为首要成员。与此同时,Hugging Face 开源负责人 Lysandre Debut 也成为了 PyTorch 基金会治理委员会的一员。 Hugging Face 是一个致力于降低机器学习和深度学习入门门槛的社区和公司,其模型

2025-05-28

南京大学Websoft研究团队构建了HuggingKG,这是一个基于Hugging Face社区的大型知识图谱,以及配套的多任务基准测试HuggingBench。 这两项资源的推出,将为开源资源的推荐、分类和溯源带来全新的解决方案。两项资源均已在Hugging Face

2023-06-29

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。 由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型