LAION-AI 推出 OpenFlamingo,有望成为 GPT-4 开源替代品


非营利组织  LAION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。

其数据集 OpenFlamingo-9B 的 Demo 页面展示了训练结果,用户可以上传图片让该模型进行识别。

小编浅试了一下,一张简单的图片耗时 11 秒,可以相当精准地描述图片的主体:

对于另一张内容较多的图片,识别的时间则上到 16 秒左右,但识别出来的内容仍是图片中心的主体,并没有其他细节内容。

可以看出精度并不是很理想,还需要继续迭代。

LAION-AI  称 OpenFlamingo 的目标是开发一个可以处理各种视觉语言任务的多模态系统,最终目标是在处理视觉和文本输入方面与 GPT-4 的功能相匹配。

OpenFlamingo 的首个版本主要包含如下内容:

  • 一个用于训练 Flamingo 风格 LMM 的 Python 框架(基于 Lucidrains 的 flamingo 实现和 David Hansmair 的 flamingo-mini 存储库)。
  • 具有交叉图像和文本序列的大规模多模态数据集。
  • 视觉语言任务的上下文学习评估基准。
  • ​​ OpenFlamingo-9B 模型(基于 LLaMA )的第一个版本

OpenFlamingo-9B 模型在 LAION-AI 自研的多模态 C4 数据集上训练,LAION-AI 称即将发布该数据集的细节。

OpenFlamingo 的整体架构图如下,可以看出技术细节上很大程度上是跟着 DeepMind 的 Flamingo 模型走,Flamingo 模型在包含交叉文本和图像的大规模网络语料库上进行训练,OpenFlamingo 同样是使用交叉注意力层来融合预训练的视觉编码器和语言模型。


相關推薦

2022-10-09

此,除非 Linux 6.1 的开发出现一些意外状况导致无法准时推出,否则 Linux 6.1 将会在今年正式推出,按照传统 Linux 6.1 将会成为下一个年度 LTS 版本。 目前最新的 LTS 版本为去年 10 月发布的 Linux 5.15 LTS,EOL 日期为 2023 年 10 月。如

2023-10-26

游戏、内容等领域广泛应用。🤖📱💼AI应用阿里国际站推出AI生意助手阿里巴巴国际站推出了全新的AI工具——生意助手Smart Assistant,旨在通过AI技术提高外贸商家的运营效率、提升转化率和寻找商机。【AiBase提要:】🤖 阿里巴

2023-06-15

penAI 也开发了一个 32000 个 token 的 GPT-4 版本,但尚未公开推出。 OpenAI 刚刚发布的gpt-3.5-turbo-16k模型支持 16000 tokens 的上下文长度,这意味着可以一次处理大约 20 页的文本,这对于需要模型处理和生成较大文本块的开发者来说是

2023-03-31

主管技术,力图开发出能够比肩 GPT-4 的模型。 自 ChatGPT 推出之后,AI 领域可以说是彻底发生了洗牌,Google 和 DeepMind 都认识到自己已经落后于 OpenAI,随着微软将 GPT-4 集成进 Bing、Edge 和 Office 等工具更是加速了 AI 工具的普及和

2023-10-18

带来新的突破,继续为生命科学界提供助力; 多模态成为新的前沿,各种智能体热度大大增加。 2、行业局势 英伟达凭借各国、初创公司、大型科技公司和研究人员对其 GPU 的巨大需求,跻身市值万亿美元俱乐部;

2023-07-18

次两次。譬如他曾经承诺的 SpaceX 将人类送上火星,以及推出特斯拉机器人出租车服务等均未如期实现;此前的开源 Twitter 算法一事,也是一推再推。 目前,xAI 的发展尚处于早期阶段。马斯克表示,随着工作的推进他将对反馈

2024-08-07

爱好者及普通用户带来了前所未有的惊喜。 Ultra 是 Intel 推出的新一代处理器品牌,也就是大家熟知的 Meteor Lake,升级全新的 Intel 4 制造工艺、分离式模块化架构、全新的 CPU/GPU 架构,更在能耗比上取得了显著提升,为 Meteor Lake

2023-09-12

智能模型 AudioCraft;语音生成人工智能模型 Voicebox。它还推出了 I-JEPA(一种可以像人类一样学习的计算机视觉模型)和 FACET(一种基准数据集,旨在帮助研究人员审核计算机视觉模型的偏差)。 但其模型性能一直在 ChatGPT 

2023-04-04

大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。” 根据介绍,这些模型使用 Chinchilla 公式进行训练,可

2023-04-04

、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持。 根据介绍,通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网

2023-03-16

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学

2023-05-25

。本文对部分值得开发者关注的亮点进行汇总。 微软推出 Windows Copilot 微软宣布在 Windows 11 中加入名为 Windows Copilot 的 AI 助手。这是一个集成在操作系统中的侧边栏工具,可以帮助用户完成各种任务,如内容摘要、重写、解

2023-10-28

智能模型 AudioCraft;语音生成人工智能模型 Voicebox。它还推出了 I-JEPA(一种可以像人类一样学习的计算机视觉模型)和 FACET(一种基准数据集,旨在帮助研究人员审核计算机视觉模型的偏差)。 延伸阅读 Meta AI 多语言阅读

2024-08-15

目前 Genie 已开放申请试用:https://cosine.sh/register,未来将推出更多惊喜功能。