Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿


AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。

“今天的发布旨在供任何人使用和复制......人工智能有可能改变世界经济,但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”

根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比,训练时间更快、训练成本更低,并且功耗更低。

Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性,并在指导 AI 研究方面产生了巨大影响。据我们所知,Cerebras-GPT 是第一个预测公共数据集模型性能的 scaling law。”

大型语言模型可以大致分为两个阵营。第一组包括 OpenAI 的 GPT-4 和 DeepMind 的 Chinchilla 等模型,这些模型在私有数据上进行训练以达到最高水平的准确性;但是这些模型的训练权重和源代码不向公众开放。第二组包括 Meta 的 OPT 和 Eleuther 的 Pythia 等模型,它们是开源的,但没有以 compute-optimal 的方式进行训练。

Cerebras-GPT 则意在与 Pythia 互补,它共享相同的公共 Pile 数据集,旨在构建一个训练有效的 scaling law 和模型系列,涵盖各种模型尺寸。构成 Cerebras-GPT 的七个模型中的每一个都使用每个参数 20 个 tokens 进行训练;Cerebras-GPT 通过选择最合适的训练 tokens,最大限度地减少所有模型大小的单位计算损失。

研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现,例如句子完成和问答。结果表明,Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。

Cerebras GPT 在 16 个 CS-2 系统上使用了标准数据并行进行训练。研究人员围绕 CS-2 设计了专门构建的 Cerebras Wafer-Scale Cluster,以实现轻松扩展。它使用称为 weight streaming 的 HW/SW 共同设计的执行,可以独立缩放模型大小和集群大小,而无需模型并行。介绍称,通过使用此架构,扩展到更大的集群就像更改配置文件中的系统数量一样简单。

研究人员还在一个名为 Andromeda 的 16x CS-2 Cerebras Wafer-Scale Cluster 上训练了所有 Cerebras-GPT 模型。使所有的实验都能快速完成,而不需要在 GPU集群上进行传统的分布式系统工程和模型并行调整。最重要的是,它使研究人员能够专注于 ML 的设计而不是分布式系统。“我们相信,轻松训练大型模型的能力是广大社区的关键推动因素,因此我们通过 Cerebras AI Model Studio 在云端提供了 Cerebras Wafer-Scale Cluster。”

Cerebras 联合创始人兼首席软件架构师 Sean Lie 称,由于很少有公司有资源在内部训练真正的大型模型,因此此次发布意义重大。“通常需要成百上千个 GPU,将七个经过全面训练的 GPT 模型发布到开源社区中,恰恰说明了 Cerebras CS-2 系统集群的效率。”

该公司表示,Cerebras LLM 因其开源性质而适用于学术和商业应用。它们还有一些优势,例如其训练权重产生了一个极其准确的预训练模型,可以用相对较少的额外数据为不同的任务进行调整;这使得任何人都可以基于很少的编程知识,创建一个强大的、生成性的 AI 应用程序。

更多详情可查看官方博客。


相關推薦

2023-08-31

2790 亿个英语/代码词块的数据集上进行训练。该模型由 Cerebras、阿联酋人工智能大学和 G42 旗下子公司 Inception 合作研发。 Jais 的命名来自阿联酋的最高峰,阿联酋人工智能大学教授 Timothy Baldwin 表示,由于没有足够的阿拉伯

2023-02-28

GPT-3 不同,我们只使用公开的数据集,使我们的工作与开源兼容并可重现,而大多数现有模型依赖的数据要么不公开,要么没有记录。 目前 LLaMA 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的

2023-11-06

、以及模型能力均达到了“4+级”。 10月30日,昆仑万维开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。「天工」Skywork-13B系列目前包括130亿参数的两大模型,Skywork-13B-Ba

2023-06-25

更高质量的模型。 开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

2024-03-19

向量维度(embedding size)为4096或4608。而几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7B参数规模。其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。 因此南加大团队指出,可以推

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-10-21

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 北京智谱华章科技有限公司(简称“智谱AI”)宣布,今年已累计获得超 25 亿人民币融资。 参与方主要包括社保基金中关村自主创新基金(君

2023-07-22

tGLM(内测版)发布。 相关阅读: 清华系公司智谱 AI 开源 ChatGLM-6B 大模型,千亿基座对话模型开启内测 360 合作智谱 AI,共研千亿级大语言模型 360GLM 智谱 AI 官宣:ChatGLM2-6B 可免费商用

2023-07-14

根据英国《金融时报》的报道,Meta 准备发布其人工智能模型 LLaMA 的商用版本,允许初创公司和企业在该技术的基础上构建定制软件。 此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候,Meta 面向研究人员和学

2023-11-01

下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源通义千问70亿参数模型Qwen7B和140

2023-09-22

发 30 岁就要被干掉? 36氪从多名独立信源处获悉,大模型公司“智谱AI”于近日完成 B-4 轮融资。其中,腾讯战投、阿里巴巴战投等多家机构参与投资。该轮融资完成后,智谱AI的估值达到约10亿美金。 对此,智谱 AI 方不予置

2023-09-30

为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。 Mistral AI 是一个成立仅六个月的初创公司,于 6 月份筹集了 1.18 亿美元的巨额种子轮资金,据称是欧洲历史上最大的种子轮融资

2023-11-04

大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落

2023-08-10

但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是使用闭源让大家网上调用的方式。在我们的官网,大家已经可以申请内