ChatGPT 参数规模很可能只有 7B（70 亿）

2024-03-19 發表於开源资讯

南加州大学最新研究，ChatGPT参数规模很可能只有7B（70亿）。南加大团队三位作者破解出了未公布的gpt-3.5-turbo嵌入向量维度（embedding size）为4096或4608。而几乎所有已知的开源大模型如Llama和Mistral，嵌入向量维度4096的时候都是约7B参数规模。其它比例的话，就会造成网络过宽或过窄，已被证明对模型性能不利。

因此南加大团队指出，可以推测gpt-3.5-turbo的参数规模也在7B左右，除非是MoE架构可能不同。数月前，曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B，在后续论文版本中又删除了这一信息。（量子位）

相關推薦

百川智能发布 70 亿参数开源中英文大模型 baichuan-7B

2023-06-16

，搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数

70 亿参数大语言模型 RedPajama 7B 完整版发布，开源可商用

2023-06-10

TOGETHER 宣布其 RedPajama 7B 已完成所有训练，并在 Apache 2.0 许可下全部开源。 RedPajama 是一个开源可商用大模型项目，由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama

通义千问 APP 上线，通义千问 720 亿参数模型下月开源

2023-11-01

栖大会现场，作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。据介绍，通义千问2.0模型参数达到千亿级别，不管是在阅读理解还是逻辑思维、数据等方面，都有大幅度提升，能够全面达到国际先进水平。与此

Mistral AI 发布 73 亿参数模型，“碾压” Llama 2 13B

2023-09-30

欧洲历史上最大的种子轮融资。Mistral 7B 是一个拥有 73 亿参数的模型。该公司声称在涵盖一系列任务的基准测试中，Mistral 7B 的表现均显著优于 Llama 2 7B 和 13B，并且与 Llama 34B 相当。在涵盖数学、美国历史、计算机科学、法律

vivo 公布蓝心大模型 BlueLM-7B 开源地址

2023-11-10

上下文理解。延伸阅读 vivo 开源蓝心大模型-7B：70 亿参数、适合中国开发者

AI 军备竞赛，Meta 推出全新大型语言模型

2023-02-28

ChatGPT 持续火热，大型科技公司争先恐后地涌入 AI 军备竞赛中，这也为 AI 领域又带来了一个新的模型与潜在竞争对手 —— LLaMA。 LLaMA 语言模型全称为 "Large Language Model Meta AI"，是 Meta 近日公布的一个全新的大型语言模型（LLM

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

： https://arxiv.org/abs/2308.12966 Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的

1000 多名研究人员参与，BigScience 开源迄今最大规模语言模型

2022-07-16

个名为 Bloom 的自然语言处理模型，该模型具有 1760 亿个参数，一举超越市面上的所有竞争对手，成为目前规模最大的语言模型。该项目始于去年，由人工智能初创公司 Hugging Face Inc.（最近融资了 1 亿美元）与法国研究机构 CNR

OpenAI 可能在 12 个月内破产

2024-07-30

上花费 70 亿美元，以及在人员配备上花费 15 亿美元。 - ChatGPT 开发商获得的大约 35 亿美元的收入并不能满足其运营成本。蓬勃发展的 AI 商业战略正在使投资这一领域的主要科技公司走上盈利的道路。在过去的几个月里，我

ChatGPT 每日成本约 70 万美元，OpenAI 或已在破产边缘

2023-08-16

能在2024年底破产。报告称，OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。OpenAI目前正处于烧钱的状态，尽管该公司试图通过GPT-3.5和GPT-4来实现盈利，但该公司目前还没有能够产生足够的收入来实现收支平衡。

字节跳动发布视频生成基础大模型 Seaweed-7B

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是，该模型以 66.5 万个 H100 GPU 小时训练成本，在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1，具体来看：

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

2023-10-10

拓展到32k tokens；同时，该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。全球首个70B长文本大语言模型发布 LongLoRA的提出，让全球大语言模型的对话缺陷第一次得到解决，自此，几十页的论文、几百页

Meta 将发布商用版 LLaMA

2023-07-14

Meta 面向研究人员和学者发布了自有大语言模型 LLaMA。其参数规模从 70 亿到 650 亿参数不等（包括 7B、13B、33B 和 65B 参数），该模型的一大优势是能运行在单张显卡上。三位知情人士表示，新的商用版本将更广泛地提供给企业

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型

2023-06-29

基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文权威 benchmark (C-EVAL/MMLU) 上均取得同尺寸较好的效果。即刻体验百川-7B 模型: https://hf.co/spaces/ysharma

熱門推薦