MosaicML 推出 300 亿参数模型,训练成本 70 万


AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。


相關推薦

2023-06-16

6月15日,搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70

2023-06-28

已签署最终协议,将以 13 亿美元收购生成式 AI 创业公司 MosaicML。此笔交易是截至目前生成式 AI 领域内所公布的最大一笔收购案。 收购完成之后,MosaicML 将成为 Databricks Lakehouse 平台的一部分,MosaicML 的整个团队和技术都将并入

2023-06-10

TOGETHER 宣布其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。 RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama

2022-09-06

景的泛化性依然存在挑战。为了应对以上问题,PAI 团队推出了 EasyNLP 中文 NLP 算法框架,助力大模型快速且高效的落地。 EasyNLP 背后的技术框架如何设计?未来有哪些规划?今天一起来深入了解。 二 EasyNLP简介 EasyNLP 是 PAI 算

2023-11-01

栖大会现场,作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。 据介绍,通义千问2.0模型参数达到千亿级别,不管是在阅读理解还是逻辑思维、数据等方面,都有大幅度提升,能够全面达到国际先进水平。 与此

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2022-07-16

个名为 Bloom 的自然语言处理模型,该模型具有 1760 亿个参数,一举超越市面上的所有竞争对手,成为目前规模最大的语言模型。 该项目始于去年,由人工智能初创公司 Hugging Face Inc.(最近融资了 1 亿美元)与法国研究机构 CNR

2023-07-08

满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知

2023-04-04

、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持。 根据介绍,通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网

2022-10-19

由初创公司 StabilityAI 于今年发布的深度学习文字转图像模型,它主要用于根据文字的描述产生详细图像。Stable Diffusion 的诞生除了让 AI 绘画这个领域突然火爆,还催生出了售卖 AI 关键词等新兴产业。 今天,Stable Diffusion 背后

2023-07-25

巨大的机遇。此外,开源PHP继“Gitee”平台后,今年还将推出其自己的“Hugging Face”平台,届时JIANG或将成为第一批开源的中国本土的大模型之一。 本次发布会的主讲人为知未智能的联合创始人兼CTO段清华,毕业于北京大学计

2023-04-04

ache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。 “今天的发布旨在供任

2023-08-16

据印度新闻媒体平台Analytics India Magazine近日的一份报告称, OpenAI可能在2024年底破产。 报告称,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。OpenAI目前正处于烧钱的状态,尽管该公司试图通过GPT-3.5和GPT-4来实现盈

2023-07-13

秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI也