Hugging Face 开源了专用于评估 GUI 智能体的综合测试套件 ScreenSuite。
什么是 GUI Agent?简单说,就是“能像人一样操作屏幕”的 AI!它能识别界面内容、点击按钮、输入文字、滚动页面……实现真实的“虚拟助手”体验。
现在,Hugging Face 推出了全新的开源工具 ScreenSuite,帮助开发者和研究者评估这类视觉语言模型的实际操作能力!
ScreenSuite 能做什么?
它整合了 13 个评测集,覆盖:
- 屏幕感知与 UI 定位
- 单步操作指令执行
- 多步骤任务规划与完成
ScreenSuite 已在多个主流 VLM 上完成评测,包括:
- Qwen2.5-VL 系列(3B~72B)
- UI-TARS、Holo1 等优秀开源模型
- GPT-4o 等闭源模型
ScreenSuite 支持 Ubuntu、Android、Windows 多平台评测,结合虚拟机环境还原真实交互场景,适用于科研评估与模型迭代。与其他评测不同的是,ScreenSuite 完全基于视觉输入,不依赖 DOM 或辅助树,更贴近人类的使用方式,挑战也更真实。