亚马逊发布可控制 Web 浏览器的 AI 智能体 Nova Act


亚马逊发布了 Nova Act,这是一款通用 AI 代理,可以控制网络浏览器并独立执行一些简单的操作。除了新的代理 AI 模型外,亚马逊还发布了 Nova Act SDK,这是一个工具包,允许开发人员使用 Nova Act 构建代理原型。

Nova Act 由亚马逊新近在旧金山开设的 AGI 实验室开发,还将为该公司即将推出的 Alexa+ 升级版提供关键功能,Alexa+ 是亚马逊广受欢迎的语音助手的生成式 AI 增强版。不过,从今天开始提供的 Nova Act 版本略显逊色。亚马逊称其为研究预览版。

开发人员可以通过新网站 nova.amazon.com 访问 Nova Act 工具包,该网站也是亚马逊各种 Nova 基础模型的展示。

Nova Act 是亚马逊试图利用自己的通用人工智能代理技术与OpenAI 的 Operator 和 Anthropic 的 Computer Use 竞争的尝试。几家领先的科技公司认为,能够为用户导航网络的人工智能代理将使当今的人工智能聊天机器人更加有用。

亚马逊可能不是第一个开发这种代理技术的公司,但通过 Alexa+,它的覆盖范围可能是最广泛的。

亚马逊表示,使用 Nova Act SDK 进行开发的开发人员应该能够代表用户自动执行基本操作,例如从 Sweetgreen 订购沙拉或预订晚餐。借助 Nova Act 工具包,开发人员可以整合工具,让 AI 代理浏览网页、填写表格或在日历上选择日期。

亚马逊声称,Nova Act 在公司内部的几项测试中表现优于 OpenAI 和 Anthropic 的代理。例如,在衡量 AI 代理如何与屏幕上的文本交互的 ScreenSpot Web Text 中,Nova Act 得分为 94%,优于 OpenAI 的 CUA(得分为 88%)和 Anthropic 的 Claude 3.7 Sonnet(90%)。

不过,亚马逊并没有使用更常见的代理评估(例如 WebVoyager)来对 Nova Act 进行基准测试。

Nova Act 是亚马逊上述 AGI 实验室推出的首款公开产品,该项目由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。两人之前都创立过自己的初创公司——Luan 创办了Adept,而 Abbeel 共同创办了Covariant——去年亚马逊聘请他们来领导其 AI 代理工作。

虽然 AGI 实验室开发能够订购 SweetGreen 的 AI 代理似乎有些奇怪,但 Luan 认为代理是创建超级智能 AI 系统的关键一步。Luan 将 AGI 定义为“一种能够帮助您完成人类在计算机上所做的一切的 AI 系统”。

Luan 表示,他的团队设计了 Nova Act SDK,以可靠地自动执行简短的任务,并为开发人员提供工具,让他们能够精确定义何时需要人工干预代理工作流程。他希望,这将使开发人员能够创建更可靠的代理应用程序,尽管不一定是完全自主的应用程序。

亚马逊在竞争激烈的市场中推出了首款通用人工智能代理,但这是该公司寄予厚望的一项关键技术。Nova Act 的早期测试可以让人们一窥拖延已久的 Alexa+ 的一些功能,这对亚马逊的人工智能努力来说是一个成败攸关的时刻。

OpenAI、Google和 Anthropic 的早期人工智能代理的主要问题是它们在不同领域的可靠性。在 TechCrunch 的测试中,这些系统速度很慢,难以长时间独立运行,而且容易犯人类不会犯的错误。我们很快就会看到亚马逊是否破解了密码——或者它的代理是否也存在困扰竞争对手的同样缺陷。

相关链接

  • https://www.aboutamazon.com/news/innovation-at-amazon/amazon-nova-website-sdk
  • https://github.com/aws/nova-act

相關推薦

2025-04-24

平台Suna,定位为热门AI工具Manus的开源替代品。Suna集成了浏览器自动化、文件管理、网络爬虫、扩展搜索、命令行执行、网站部署及API集成等功能,通过自然语言对话实现复杂任务的自动化处理。 主要功能: 浏览器自动化

2023-10-26

💰 成立AI安全基金以支持独立研究,构建安全的AI生态。亚马逊推出生成式AI助力广告商提升广告创意亚马逊发布了名为「图像生成」的生成式AI解决方案,帮助广告商轻松创造吸引人的广告创意,提高广告效果。【AiBase提要:】

2025-04-15

源了首个Agent开发套件—ADK,这也是OpenAI之后第二家大厂发布的标准化智能体SDK。 ADK能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音频、视

2022-09-02

试用例,他们的 Lima 驱动程序支持将改善他们的 Morph Web 浏览器体验。 Genode OS 展示了移植 Ubuntu Touch UI 以在 Genode 上运行。 Release Note

2025-04-23

字节跳动旗下的 AI 原生集成开发环境(AI IDE)Trae 已发布 v1.3.0 版本,具体变更细节如下: 合并 Chat 与 Builder 面板。你可以通过 @Builder 方式将 Builder 作为智能体使用。详情参考《智能体》。 支持将文档内容和网页内容作为

2023-11-14

用程序设置,但不是全部。 在不同语言配置(即调试/发布)之间切换可能需要更多时间来让代码洞察引擎跟上。也没有选项可以切换每个文件的解析上下文。 ReSharper C++ 仅适用于 Windows,而 Rider 则支持跨平台。ReSharper C++/Ride

2025-04-11

例如Manus就实现了任务自动规划和分解、按需编程、调用浏览器等工具的能力。但Manus想要打造通用智能体难度很大,企业更应该打造针对垂直场景的专业智能体。 四是打造企业专用能力和工具。企业除了各种AI标准工具外,还

2025-04-15

高德地图今日宣布推出基于地图的 AI 导航智能体(NaviAgent)。据技术负责人介绍,其核心架构采用 Planner-Executor 模式,通过感知、规划、执行、表达四大模块构建智能闭环,集成多项高德核心技术。 官方表示,该智能体“更

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2024-07-19

在印度班加罗尔谷歌 I/O Connect 开发者活动期间, Go 语言开发团队宣布推出 Oscar ,这是一个用于构建 AI 智能体的开源平台,可以帮助软件产品团队监控问题或错误。 Oscar 源代码:https://go.googlesource.com/oscar Oscar 包地址:https://

2025-04-23

更高效、更流畅、更定制 升级中,Trae新版本不仅带来了智能体与上下文理解能力,还提供多种 AI 工具,并支持MCP自由接入各类外部资源;在产品交互形态上,Trae新版本把原先的Builder与Chat板块融合,打破了传统以代码为中心

2025-04-02

源其算法 AI 搜索引擎 Perplexity 将开发“代理搜索” Web 浏览器 Comet

2022-04-20

,每家拥有网站公共部分的公司 —— 从 Ticketmaster 和亚马逊这样的在线零售商到 Twitter 这样的社交网络平台,都将暴露在搭便车者(free-riders)部署的入侵性机器人面前,除非他们将这些网站完全置于密码屏障之后。但如果

2025-04-04

制的一档Twenty Minute VC播客节目中预言,“未来一年,AI 智能体(AI agents)最大的缺陷 —— 记忆能力将实现重大突破,它与人类的交互模式将发生显著变化。” AI智能体是能够独立行动和做出决策的人工智能,英伟达首席执行