MosaicML 推出 300 亿参数模型，训练成本 70 万

2023-06-25 發表於开源资讯

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B，单从参数来看，这个模型具有 300 亿参数，放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头，有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示，MPT-30B 的训练成本为 70 万美元，远低于训练 GPT-3 所需的数千万美元。此外，MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低，体积较小，它也可以更快速地被训练，并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型，可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室，相比以往，这使得每 GPU 的吞吐量增加了 2.4 倍以上，带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字，300 亿参数为什么这么特殊呢？MosaicML 首席科学家 Frankle 则解释道，首先 300 亿参数能够确保它可以在本地硬件上轻松运行，同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段，通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外，MosaicML 还专注于提高数据质量，以提高模型性能。他们目前正在开发工具，帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步，接下来他们将以降低成本为前提，推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型，开发者还可以在自己的硬件上用自己的数据对模型进行微调。

MosaicML 推出 300 亿参数模型，训练成本 70 万

相關推薦

OpenAI 可能在 12 个月内破产

大数据巨头 Databricks 斥资 13 亿美元收购 MosaicML

百川智能发布 70 亿参数开源中英文大模型 baichuan-7B

苹果发布 300 亿参数多模态大模型 MM1.5

Qwen3 正式发布！模力方舟首发上线体验，昇腾算力全面适配

Transformers 作者：未来互联网将演变为 AI Agent 网络

70 亿参数大语言模型 RedPajama 7B 完整版发布，开源可商用

通义千问 APP 上线，通义千问 720 亿参数模型下月开源

阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地

字节跳动发布视频生成基础大模型 Seaweed-7B

1000 多名研究人员参与，BigScience 开源迄今最大规模语言模型

阿里云开源通义千问 720 亿参数模型 Qwen-72B

AI 重塑千行百业华为云发布盘古大模型 3.0 和昇腾 AI 云服务

低成本开源聊天机器人 Vicuna：可达到 ChatGPT/Bard 90% 以上水平