微软开源 Web 智能体 Magentic-UI


微软研究院正式宣布开源 Magentic-UI,这是一款以人为中心的 AI 智能体研究原型,旨在通过网页浏览器实时协助用户完成复杂的网络任务。

Magentic-UI 基于微软此前发布的 Magentic-One 多智能体系统和 AutoGen 框架打造,强调透明性、可控性和人机协作,为用户和研究人员提供了一个探索 AI 智能体交互和监督机制的强大平台。

与追求完全自主的 AI 工具不同,Magentic-UI 将用户置于任务执行的核心,强调透明性和可控性,确保用户在自动化过程中始终保持主导权。Magentic-UI 支持用户通过计划编辑器或文本反馈直接修改 AI 的执行计划,在任务开始前即可明确每一步操作。这种协作规划(co-planning)机制让用户能够清晰了解 AI 的行动意图,避免了传统 AI 工具“黑箱”操作的不确定性。

此外,Magentic-UI 引入了行为防护(action guards)功能,敏感操作需经用户明确批准,用户还可自定义审批频率,确保安全性和灵活性。系统采用 Docker 沙箱技术隔离运行环境,有效防止对主机环境的意外影响,并通过网站白名单机制限制 AI 的访问范围,进一步提升安全性。据微软官方披露,Magentic-UI 已通过红队评估,成功抵御了跨站提示注入和钓鱼攻击等多重威胁。

多智能体协同,高效处理复杂任务

Magentic-UI 的核心在于其多智能体架构,基于2024年发布的 Magentic-One 系统,并由 AutoGen 框架驱动。系统由四个专业智能体组成,各自承担特定任务:

  • Orchestrator:作为主导智能体,负责任务规划、分解和协调,动态调整执行策略。
  • WebSurfer:专注于网页导航和操作,能够搜索信息、填写表单、与在线元素交互。
  • Coder:支持代码生成与执行,适合需要编程支持的任务,如数据分析或脚本自动化。
  • FileSurfer:处理文件管理,浏览本地目录、分析文件内容,支持多类型文档操作。

这些智能体通过内外双循环机制协同工作:外部循环管理任务整体计划,内部循环跟踪子任务进度,确保高效完成复杂工作流。例如,Magentic-UI 可用于自动化网页表单填写、深度网站导航(如筛选航班信息)或结合网页数据生成分析图表,显著提升生产效率。

用户可以通过文本输入和图像附件与 Magentic-UI 交互,系统生成自然语言计划,并支持实时编辑和干预。此外,Magentic-UI 具备计划学习(plan learning)功能,能从历史任务中学习并保存执行计划,优化未来任务的自动化效率。

微软表示,Magentic-UI 的设计遵循以人为中心的方法论,通过试点用户反馈不断优化,确保用户体验直观高效。这种开源模式不仅推动了人机协作技术的研究,还为开发者提供了模块化、可扩展的框架,助力构建更智能的 AI 应用。


相關推薦

2025-05-21

微软发布了名为“NLWeb”的开源项目,旨在简化创建网站的自然语言对话界面,使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”,支持自定义模型与数据交互,旨在帮助开发者轻松将网站

2025-05-27

2025 年 5 月 22 日,微软在北京微软大厦举办媒体沟通会,围绕 “探索未来工作趋势,以智能体重塑企业竞争力” 主题展开圆桌讨论与专访,分享了 AI 智能体技术突破、行业应用实践及安全治理方案。同时,结合微软 Build 2025 大

2025-04-29

微软近日在其官网发布了2025年工作趋势指数报告,分析了来自全球31个国家和地区的31,000家企业。报告结合了 LinkedIn 劳动力市场趋势、数万亿个 Microsoft365的生产力信号以及众多专家的见解,指出 “人机协作” 模式正在重塑企

2025-04-04

近日,微软CTO凯文・斯科特在参与录制的一档Twenty Minute VC播客节目中预言,“未来一年,AI 智能体(AI agents)最大的缺陷 —— 记忆能力将实现重大突破,它与人类的交互模式将发生显著变化。” AI智能体是能够独立行动和做

2025-04-15

谷歌开源了首个Agent开发套件—ADK,这也是OpenAI之后第二家大厂发布的标准化智能体SDK。 ADK能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音

2025-05-31

阿里巴巴开源了名为「WebAgent」的自主搜索 AI Agent 项目,包含两部分: WebDancer:端到端智能体训练框架,旨在增强基于网络的 AI 智能体的多步骤信息搜索能力 WebWalker :用于“Web 遍历中的 LLM 基准测试” WebAgent具备

2025-05-21

微软宣布在 Windows 11 中集成模型上下文协议(MCP),旨在未来使 Windows 11 成为一个智能代理操作系统。 MCP 与 Windows 的集成将为 AI 智能体连接原生 Windows 应用提供标准化框架,使应用能够无缝参与智能体交互。

2025-03-25

心的静态预训练模型之间的动态桥梁。" 阅读更多 微软发布 OmniParser V2,将任意 LLM 变成可操作计算机的 AI Agent OpenAI 发布首个 AI 智能体 OmniParser —— 基于 GUI Agent 的纯视觉屏幕解析工具

2025-04-02

型的展示。 Nova Act 是亚马逊试图利用自己的通用人工智能代理技术与OpenAI 的 Operator 和 Anthropic 的 Computer Use 竞争的尝试。几家领先的科技公司认为,能够为用户导航网络的人工智能代理将使当今的人工智能聊天机器人更加有

2025-04-23

Chat 与 Builder 面板。你可以通过 @Builder 方式将 Builder 作为智能体使用。详情参考《智能体》。 支持将文档内容和网页内容作为上下文: #Web:支持联网搜索,AI 会自动提取网页内的相关内容作为上下文。 #Doc:支持通过 URL

2024-07-19

开发团队宣布推出 Oscar ,这是一个用于构建 AI 智能体的开源平台,可以帮助软件产品团队监控问题或错误。 Oscar 源代码:https://go.googlesource.com/oscar Oscar 包地址:https://pkg.go.dev/golang.org/x/oscar 通过 Oscar 项目,开发者可以创

2025-05-10

Meta 开源了名为 LlamaFirewall 的安全框架,用于应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护。 https://meta-llama.github.io/PurpleLlama/LlamaFirewall/ 随着大型语言模型(LLMs)嵌入 AI 智能体并被

2025-05-04

做事的Agent"转变。5 月 7 日晚,DeepChat 作者谢孟军将做客开源PHP OSChina 直播栏目《技术领航》 ,在线演示要怎么用 DeepChat,它到底能干些什么? 直播主题:开源领域的桌面端 Manus:DeepChat 直播时间:5 月 7 日周三 19:00-20:00

2023-07-09

周一,MetaGPT项目正式在 GitHub 上开源发布。 项目链接:https://github.com/geekan/MetaGPT 目前该开源项目已经在不到1周时间内,获得1500+ 星 。 项目更是连日上榜GitHub Daily Trending! 从0到1,只需给MetaGPT一段话需求 通过官方