GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)


业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出,OpenAI 之所以不 Open,不是为了保护人类不被 AI 毁灭,而是因为他们构建的大模型是可复制的,未来中国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才,以及先发优势带来的领先地位。

据介绍,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用 MoE 模型来进行构建。

具体而言,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。如果是在云端进行训练,以 每 A100 小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

详情。


相關推薦

2023-07-14

根据英国《金融时报》的报道,Meta 准备发布其人工智能模型 LLaMA 的商用版本,允许初创公司和企业在该技术的基础上构建定制软件。 此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候,Meta 面向研究人员和学

2024-05-18

腾讯生成式AI产业应用峰会上,腾讯副总裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S版主要部署在手

2023-09-12

求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚不确定

2023-04-25

:品曲,宗雁,佀畅,侠雕,伟林 导读 一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。毫无疑问,大模型的训练需要巨大的算力,这对分布式并行框架是一

2024-03-19

度(embedding size)为4096或4608。而几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7B参数规模。其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。 因此南加大团队指出,可以推测gpt-3

2023-12-02

天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B

2023-04-04

司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。 “今

2023-10-20

起聊 AI!>>> 微软研究院近日发布文章介绍了他们对 GPT 模型可信度的研究。文章称 GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄露训练数据和对话历史中的隐私信息。 ▲ https://arxiv.org/abs//2306.11698 微软联合

2023-08-24

onx Code Assistant 产品系列的新成员,由 IBM 的 watsonx.ai 代码模型提供支持。该模型从 1.5 万亿个 tokens 中学习了 115 种编码语言的知识;拥有 200 亿个参数,有望成为代码自动化领域最大的生成式人工智能基础模型之一。随着时间的

2023-04-01

重要,并且对于最先进的努力来说,同意限制用于创建新模型的计算的增长速度。” 我们同意。那一点就是现在。 公开信建议 AI 实验室和独立专家应该利用这次暂停,共同开发和实施一套用于高级 AI 设计和开发的共享安

2023-05-07

能之间的关系出现了很多看法转变。过去,他认为计算机模型不如大脑,其目的主要是为了改进模型以更多地了解大脑。但现在 GPT-4 等模型的性能让他惊觉,计算机模型以与大脑不同的方式工作 —— 它们使用反向传播,而大脑

2023-11-10

了 800 亿个晶体管。与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。 它配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),还具有高度可扩展的 NVLink 互连技术(最多可连接达 256 个 H100 GPU,相较于上一代采用

2023-08-17

工智能辅助审核系统。” OpenAI 声称,他们的大型语言模型(例如 GPT-4)可以理解并生成自然语言,使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。 一项新的内容政策发布后,首先得人工了解

2023-10-11

合作单位、标准核心参编单位,共同编订发布全球首个AI模型开发管理标准、全国首个商用人工智能开发平台等多项人工智能基础软件领域、大模型领域的标准。作为大模型生态共同体中的通用大模型代表企业,模型伙伴成员单