亚马逊发布可控制 Web 浏览器的 AI 智能体 Nova Act


亚马逊发布了 Nova Act,这是一款通用 AI 代理,可以控制网络浏览器并独立执行一些简单的操作。除了新的代理 AI 模型外,亚马逊还发布了 Nova Act SDK,这是一个工具包,允许开发人员使用 Nova Act 构建代理原型。

Nova Act 由亚马逊新近在旧金山开设的 AGI 实验室开发,还将为该公司即将推出的 Alexa+ 升级版提供关键功能,Alexa+ 是亚马逊广受欢迎的语音助手的生成式 AI 增强版。不过,从今天开始提供的 Nova Act 版本略显逊色。亚马逊称其为研究预览版。

开发人员可以通过新网站 nova.amazon.com 访问 Nova Act 工具包,该网站也是亚马逊各种 Nova 基础模型的展示。

Nova Act 是亚马逊试图利用自己的通用人工智能代理技术与OpenAI 的 Operator 和 Anthropic 的 Computer Use 竞争的尝试。几家领先的科技公司认为,能够为用户导航网络的人工智能代理将使当今的人工智能聊天机器人更加有用。

亚马逊可能不是第一个开发这种代理技术的公司,但通过 Alexa+,它的覆盖范围可能是最广泛的。

亚马逊表示,使用 Nova Act SDK 进行开发的开发人员应该能够代表用户自动执行基本操作,例如从 Sweetgreen 订购沙拉或预订晚餐。借助 Nova Act 工具包,开发人员可以整合工具,让 AI 代理浏览网页、填写表格或在日历上选择日期。

亚马逊声称,Nova Act 在公司内部的几项测试中表现优于 OpenAI 和 Anthropic 的代理。例如,在衡量 AI 代理如何与屏幕上的文本交互的 ScreenSpot Web Text 中,Nova Act 得分为 94%,优于 OpenAI 的 CUA(得分为 88%)和 Anthropic 的 Claude 3.7 Sonnet(90%)。

不过,亚马逊并没有使用更常见的代理评估(例如 WebVoyager)来对 Nova Act 进行基准测试。

Nova Act 是亚马逊上述 AGI 实验室推出的首款公开产品,该项目由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。两人之前都创立过自己的初创公司——Luan 创办了Adept,而 Abbeel 共同创办了Covariant——去年亚马逊聘请他们来领导其 AI 代理工作。

虽然 AGI 实验室开发能够订购 SweetGreen 的 AI 代理似乎有些奇怪,但 Luan 认为代理是创建超级智能 AI 系统的关键一步。Luan 将 AGI 定义为“一种能够帮助您完成人类在计算机上所做的一切的 AI 系统”。

Luan 表示,他的团队设计了 Nova Act SDK,以可靠地自动执行简短的任务,并为开发人员提供工具,让他们能够精确定义何时需要人工干预代理工作流程。他希望,这将使开发人员能够创建更可靠的代理应用程序,尽管不一定是完全自主的应用程序。

亚马逊在竞争激烈的市场中推出了首款通用人工智能代理,但这是该公司寄予厚望的一项关键技术。Nova Act 的早期测试可以让人们一窥拖延已久的 Alexa+ 的一些功能,这对亚马逊的人工智能努力来说是一个成败攸关的时刻。

OpenAI、Google和 Anthropic 的早期人工智能代理的主要问题是它们在不同领域的可靠性。在 TechCrunch 的测试中,这些系统速度很慢,难以长时间独立运行,而且容易犯人类不会犯的错误。我们很快就会看到亚马逊是否破解了密码——或者它的代理是否也存在困扰竞争对手的同样缺陷。

相关链接

  • https://www.aboutamazon.com/news/innovation-at-amazon/amazon-nova-website-sdk
  • https://github.com/aws/nova-act

相關推薦

2023-10-26

💰 成立AI安全基金以支持独立研究,构建安全的AI生态。亚马逊推出生成式AI助力广告商提升广告创意亚马逊发布了名为「图像生成」的生成式AI解决方案,帮助广告商轻松创造吸引人的广告创意,提高广告效果。【AiBase提要:】

2022-09-02

试用例,他们的 Lima 驱动程序支持将改善他们的 Morph Web 浏览器体验。 Genode OS 展示了移植 Ubuntu Touch UI 以在 Genode 上运行。 Release Note

2023-11-14

用程序设置,但不是全部。 在不同语言配置(即调试/发布)之间切换可能需要更多时间来让代码洞察引擎跟上。也没有选项可以切换每个文件的解析上下文。 ReSharper C++ 仅适用于 Windows,而 Rider 则支持跨平台。ReSharper C++/Ride

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2024-07-19

在印度班加罗尔谷歌 I/O Connect 开发者活动期间, Go 语言开发团队宣布推出 Oscar ,这是一个用于构建 AI 智能体的开源平台,可以帮助软件产品团队监控问题或错误。 Oscar 源代码:https://go.googlesource.com/oscar Oscar 包地址:https://

2025-04-02

源其算法 AI 搜索引擎 Perplexity 将开发“代理搜索” Web 浏览器 Comet

2025-04-04

制的一档Twenty Minute VC播客节目中预言,“未来一年,AI 智能体(AI agents)最大的缺陷 —— 记忆能力将实现重大突破,它与人类的交互模式将发生显著变化。” AI智能体是能够独立行动和做出决策的人工智能,英伟达首席执行

2025-04-02

工信部电子知识产权中心发布了《2024生成式人工智能全栈技术专利分析报告》,阐析了生成式人工智能全栈技术创新的新发展新突破,并围绕模型能力的最新拓展,由算力芯片和软件框架构成的基础层、大模型打造的模型层协

2022-04-20

,每家拥有网站公共部分的公司 —— 从 Ticketmaster 和亚马逊这样的在线零售商到 Twitter 这样的社交网络平台,都将暴露在搭便车者(free-riders)部署的入侵性机器人面前,除非他们将这些网站完全置于密码屏障之后。但如果

2025-04-02

擎天、联想百应与想帮帮。 刘军表示,此次三大品牌的发布标志着联想将全面进军AI服务领域,覆盖政企、中小企业和消费客户三大市场。 根据介绍,三大AI服务品牌中,联想擎天、想帮帮为首次与公众见面。前者面向政企

2023-12-02

12月1日,昆仑万维正式发布「天工SkyAgents」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用

2025-04-04

质数据集,使其能够应对各种复杂任务。 此外,官方发布的演示视频展示了Genspark Super Agent在通话预订场景中的表现。视频中,AI代理不仅能理解用户需求,还能流畅地与服务提供方进行电话沟通,最终完成预订流程。这一功

2024-07-05

基础模型的能力得到了提升。 “去年10月我宣布文心4.0发布的时候,说文心4.0的能力跟GPT4相比毫不逊色,好多的同行还不以为然,今天大家可以看到国内已经有多款闭源模型声称他们已经追平或者是超越了GPT4的水平。”李彦宏

2023-05-04

户识别和过滤虚假评论的公司,目前支持的网购平台包括亚马逊、沃尔玛、eBay、Best Buy、Shopify 和丝芙兰等,暂时不支持国内用户常用的淘宝和京东等。 Fakespot 会遍历产品的所有评论,然后使用人工智能和机器学习系统来检测