百川智能发布 70 亿参数开源中英文大模型 baichuan-7B

2023-06-16 發表於开源资讯

6月15日，搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。

baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。

目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议，模型权重采用了免费商用协议，只需进行简单登记即可免费商用。

Hugging Face：https://huggingface.co/baichuan-inc/baichuan-7B
Github：https://github.com/baichuan-inc/baichuan-7B
Model Scope：https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

据介绍，baichuan-7B 在 C-Eval、AGIEval 和 Gaokao 中文权威评测榜单上，超过了 ChatGLM-6B 等其他大模型，并且在 MMLU 英文权威评测榜单上，领先 LLaMA-7B。

相關推薦

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型

2023-06-29

查看论文: https://hf.co/papers/1911.02150 开源生态压轴出场 baichuan-7B: 免费可商用大语言模型 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持

百川智能 A1 轮获阿里腾讯小米等 3 亿美元投资

2023-10-18

占比近70%，研发人员占比超80%。目前，百川智能已发布 Baichuan-7B/13B，Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型，平均每 28 天发布一款新的大模型。公告称，Baichuan-7B/13B两款开源大模

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

办法》备案，并面向全社会开放服务。用户可以登录 www.baichuan-ai.com，感受百川大模型在知识问答、文本创作等领域带来的全新体验。成立仅四个月，百川智能便相继发布了三款通用大语言模型。百川智能称，截止今日，Baichuan

阿里云开源通义千问 720 亿参数模型 Qwen-72B

2023-12-02

训练语料分布进行了优化。强大的性能：Qwen-72B在多个中英文下游评测任务上（涵盖常识推理、代码、数学、翻译等），效果显著超越现有的开源模型。具体评测结果请详见下文。覆盖更全面的词表：相比目前以中英词表为

百川智能发布全球首个儿科大模型“福棠·百川”

2025-03-21

用大模型，除了构建万亿级 token 的专业医疗数据，涵盖中英文专业医疗论文、医疗指南、教材和书籍等全方位的医学知识，还整合了超过 300 位北京儿童医院知名儿科专家的临床经验和数十年脱敏后的专家高质量病历数据。此外

百川智能发布 53B 大模型，预计今年内追上 GPT-3.5

2023-08-10

狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B；但不同于此前发布的 7B 和 13B 模型，Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式，因为大家部署起来成本也会非常的高，就是使

百川智能发布 Baichuan2-192K 大模型，上下文窗口全球最长

2023-10-31

de2。 Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型。此外，LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持

百川开源大模型 Baichuan-13B 评测

2023-07-19

智能团队于近日最新开源了13B模型，包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat，同时支持商用。目前为止中文社区已经陆续发布了大量的开源模型，主要集中在6B-13B之间。那么百川开源的这个模型相对于其

百川智能完成 50 亿元融资，国内第三家估值 200 亿元大模型独角兽

2024-07-27

百川智能已于近期完成了A轮融资，总融资金额达50亿元人民币，并且将以200亿估值开启B轮融资。 A轮的投资方有阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构，也包括北京市人工智能产业投资基金、上海人

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

wen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文

李开复旗下 AI 公司「零一万物」完成数亿美元融资

2024-08-08

万物。如今的“大模型六小虎”（智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰），正以惊人的速度，跨过200亿元的估值大关。 2024年8月5日，据彭博社报道，月之暗面刚交割一轮超过3亿美元的融资，投后估值

“JIANG”大模型发布，参数1400亿，聚焦金融和商业垂直领域

2023-07-25

2023年7月16日，北京知未智能科技有限公司（知未智能KDF）产品与技术发布会于上海召开。会上发布了该公司从零训练的大语言模型——“JIANG”大语言模型，以及基于该模型研发的一系列产品，包括KDF智讯、KDF绝未、KDF中书等。

70 亿参数大语言模型 RedPajama 7B 完整版发布，开源可商用

2023-06-10

LLaMA 论文的 RedPajama 基础数据集（5 TB 大小），自 4 月份发布至今已被下载数千次，并被用来训练了 100 多个模型；以及一个在 5 月份就宣布训练完成的 RedPajama 3B，和刚宣布训练完成的 RedPajama 7B 大模型。 RedPajama-INCITE-7B-Base

深言科技联合清华大学 NLP 实验室开源 LingoWhale-8B 模型

2023-11-04

学计算机系自然语言处理实验室（THUNLP）与北京智源人工智能研究院（BAAI）共同孵化，是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发，目前已发布产品包括世界

熱門推薦