百川智能发布 70 亿参数开源中英文大模型 baichuan-7B


6月15日,搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。

baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。

目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

  • Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B
  • Github:https://github.com/baichuan-inc/baichuan-7B
  • Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

据介绍,baichuan-7B 在 C-Eval、AGIEval 和 Gaokao 中文权威评测榜单上,超过了 ChatGLM-6B 等其他大模型,并且在 MMLU 英文权威评测榜单上,领先 LLaMA-7B。


相關推薦

2023-06-29

查看论文: https://hf.co/papers/1911.02150 开源生态压轴出场 baichuan-7B: 免费可商用大语言模型 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持

2023-10-18

占比近70%,研发人员占比超80%。 目前,百川智能已发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,平均每 28 天发布一款新的大模型。 公告称,Baichuan-7B/13B两款开源大模

2023-09-08

办法》备案,并面向全社会开放服务。用户可以登录 www.baichuan-ai.com,感受百川大模型在知识问答、文本创作等领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan

2023-12-02

训练语料分布进行了优化。 强大的性能:Qwen-72B在多个中英文下游评测任务上(涵盖常识推理、代码、数学、翻译等),效果显著超越现有的开源模型。具体评测结果请详见下文。 覆盖更全面的词表:相比目前以中英词表为

2023-08-10

狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是使

2023-10-31

de2。 Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。 此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持

2023-07-19

智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。 那么百川开源的这个模型相对于其

2023-08-26

wen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文

2023-07-25

2023年7月16日,北京知未智能科技有限公司(知未智能KDF)产品与技术发布会于上海召开。会上发布了该公司从零训练的大语言模型——“JIANG”大语言模型,以及基于该模型研发的一系列产品,包括KDF智讯、KDF绝未、KDF中书等。

2023-11-04

学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界

2023-06-10

LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发布至今已被下载数千次,并被用来训练了 100 多个模型;以及一个在 5 月份就宣布训练完成的 RedPajama 3B,和刚宣布训练完成的 RedPajama 7B 大模型。 RedPajama-INCITE-7B-Base

2023-11-10

上下文理解。 延伸阅读 vivo 开源蓝心大模型-7B:70 亿参数、适合中国开发者

2023-06-25

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广

2023-06-22

合创始人伊尔亚・苏茨克维 (Ilya Sutskever) 曾表示,“人工智能的长期目标是构建多模态神经网络,即 AI 能够学习不同模态之间的概念,从而更好地理解世界。” 值得一提的是,6 月 19 日,由清华大学计算机系教授、人工智能研