微软开源 JARVIS(贾维斯):用 ChatGPT 控制 AI 模型


微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。

论文地址:https://arxiv.org/abs/2303.17580

该系统提出了一种让 LLM 充当控制器的新方法,让 LLM 来管理现有的 AI 模型,来完成多模态的复杂 AI 任务,并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区(例如 HuggingFace)中各种 AI 模型以解决复杂 AI 任务的系统。

研究者指出解决大型语言模型 (LLM) 当前的问题可能是迈向 AGI(通用人工智能)的第一步,也是关键的一步。

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。

  • 受限于文本生成的输入和输出形式,当前 LLM 缺乏处理复杂信息(如视觉和语音)的能力
  • 在实际应用场景中,一些复杂任务通常由多个子任务组成,因此需要多个模型的调度和协作,这也超出了语言模型的能力范围
  • 对于一些具有挑战性的任务,LLM 在零样本或少样本设置下表现出优异的结果,但它们仍然比一些专家弱(如微调模型)

为了处理复杂的人工智能任务,LLM 应该能够与外部模型协调,以利用它们的能力。因此,关键点在于如何选择合适的中间件来桥接 LLM 和 AI 模型。

研究者发现,每个 AI 模型都可以通过总结其模型功能表示为一种语言形式。由此便引入了一个概念:「语言是 LLM 连接 AI 模型的通用接口」。通过将 AI 模型描述纳入提示中,ChatGPT 可以被视为管理人工智能模型的大脑。因此,这一方法可以让 ChatGPT 能够调用外部模型,来解决实际任务。

于是 HuggingGPT 就诞生了,该系统的工作流程包括四个阶段:

  • 任务规划:使用 ChatGPT 分析用户的请求,了解他们的意图,并将其拆解成可解决的任务。
  • 模型选择:为了解决计划的任务,ChatGPT 根据描述选择托管在 Hugging Face 上的 AI 模型。
  • 任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。
  • 生成响应: 最后使用 ChatGPT 整合所有模型的预测,生成 Response。

论文发布后不久,微软就在 GitHub 开源了基于论文实现的项目——JARVIS,项目地址:https://github.com/microsoft/JARVIS。其自我描述是用于连接 LLM 和 AI 模型的协作系统。该系统由 LLM(大语言模型)作为控制器和许多 AI 模型作为协作执行者(来自 HuggingFace Hub)组成。

目前该项目正在建设中,微软表示很快就会准备好所有的代码。

运行 JARVIS 的系统要求:

  • Ubuntu 16.04 LTS
  • NVIDIA GeForce RTX 3090 * 1
  • RAM > 12GB (minimal), 16GB (standard), 42GB (full)

相關推薦

2023-03-16

AI ,微软还亲自下场大搞 AI 。5 天前,微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强大,甚至可以用来写小说写论

2023-05-25

6 月份开始在 Windows 11 预览版中提供。 必应 (Bing) 成为 ChatGPT 内置搜索引擎 微软宣布 ChatGPT 将使用 Bing 作为其内置搜索数据提供商、与 OpenAI 共建统一 AI 插件平台,以及扩展 Bing 聊天机器人在微软 Copilots 产品线上的广泛应用

2023-01-19

上最先进的人工智能模型应用于他们自己的业务需要时,ChatGPT很快就会出现在 Azure OpenAI 服务中,该服务现在已经普遍可用。” 根据介绍,随着 Azure OpenAI 服务的普遍可用,更多企业可以申请访问包括 GPT-3.5、Codex 和 DALL・

2023-02-09

Google 在昨天推出了 ChatGPT 的竞品 Bard,时隔仅仅一天时间,刚向 OpenAI 投资数十亿美元的微软就做出了回应。在今天凌晨举行的一场小型发布会上,微软展示了必应(Bing)中由 AI 驱动的新搜索功能,以及内置了相同 AI 技术的新

2023-01-20

最近几周,OpenAI 的 ChatGPT 对话模型吸引了全世界的关注,它的功能处于消费者人工智能技术对话的最前沿。微软已经准备好向 OpenAI 投资,将其 AI 技术融入到 Windows 和其他微软产品中。谷歌也参与了 OpenAI 技术的开发,但它也在

2024-10-29

对 Chrome 浏览器进行了优化的 AI Agent,其代号为「Project Jarvis」,将为用户执行任务,包括“收集研究资料、购买产品或预订航班”。   报道称,Project Jarvis 将由 Gemini 2.0 提供 AI 支持,只能在 Web 浏览器上运行。该工具

2023-02-10

微软将 AI 集成进必应搜索和 Edge 浏览器、百度也公布类 ChatGPT 项目文心一言,近日 LAION 也开源了一个类 ChatGPT 项目 —— Open Assistant。 LAION 是一个德国非营利组织,这个名字你可能不太熟悉,但 Stable Diffusion 和 Imagen 这两个知

2023-03-08

上一次业内知名的 AI 演示活动,还要追溯到谷歌推出的 ChatGPT  AI 竞品:Bard。 但 Bard 的直播彻底翻车了, 这个聊天机器人在面对提问时生成了错误的回答,可以说是闹了一个大笑话,导致谷歌母公司 Alphabet 股价暴跌

2024-07-30

上花费 70 亿美元,以及在人员配备上花费 15 亿美元。 - ChatGPT 开发商获得的大约 35 亿美元的收入并不能满足其运营成本。 蓬勃发展的 AI 商业战略正在使投资这一领域的主要科技公司走上盈利的道路。在过去的几个月里,我

2023-05-08

使用用户输入的内容来进行训练,强化自身的功能。 ChatGPT 也同样如此,只不过 OpenAI 的首席执行官 Sam Altman 近日在接受 CNBC 的采访时确认,如果用户通过 API 来调用服务,那么他们将不会使用这些用户的数据来训练模型。但

2023-07-25

支持。 上周,外媒报道称,随着OpenAI旗下AI聊天机器人ChatGPT和谷歌旗下AI聊天机器人Bard的兴起,苹果也在开发自己的聊天机器人,这款机器人在该公司内部称之为“Apple GPT”。 今日,一位长期关注苹果的分析师称,根据训练

2023-02-08

在谷歌宣布推出与 ChatGPT 竞争的 AI 产品 Bard 后,百度微信公众号今日也官宣介绍了该公司的大模型新项目 —— 文心一言(英文名 ERNIE Bot)。公告注释称: ①.百度在人工智能四层架构中,有全栈布局。包括底层的芯片、

2023-01-18

如早在 2019 年就向 OpenAI 投资了 10 亿美元,本月初还将 ChatGPT 技术整合到其 Bing 搜索引擎中,以挑战谷歌搜索引擎。

2023-10-26

果的可信度,尤其在涉及新闻和事实核查方面。IBM发现:ChatGPT非常擅长生成让人点击的钓鱼邮件IBM研究揭示,ChatGPT能够生成欺骗性强的虚假电子邮件,虽然点击率略低于人工邮件,但制作速度远快于人工,引发担忧。【AiBase提要