70 亿参数大语言模型 RedPajama 7B 完整版发布,开源可商用


TOGETHER 宣布其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。

RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发布至今已被下载数千次,并被用来训练了 100 多个模型;以及一个在 5 月份就宣布训练完成的 RedPajama 3B,和刚宣布训练完成的 RedPajama 7B 大模型。

  • RedPajama-INCITE-7B-Base 在 RedPajama-1T 数据集的 1T tokens 上进行训练,并发布了训练和开放数据生成脚本的 10 个 checkpoints,允许模型的完全可重复性。该型号在 HELM 上落后 LLaMA-7B4 分,落后 Falcon-7B/MPT-7B 1.3 分。
  • RedPajama-INCITE-7B-Instruct 是 HELM 基准测试中得分最高的开放模型,使其成为各种任务的理想选择。它在 HELM 上的性能表现相较 LLaMA-7B 和目前最先进的开放模型如 Falcon-7B (Base and Instruct)  和 MPT-7B (Base and Instruct) 均高出2-9分。
  • RedPajama-INCITE-7B-Chat 在 OpenChatKit 中可用,包括一个用于轻松微调模型的训练脚本,现在可以试用。聊天模型建立在完全开源的数据之上,不使用来自 OpenAI 等封闭模型的提炼数据 - 确保在开放或商业应用程序中的使用。

其中,Base 模型是基础大语言模型,在 RedPajama 数据集上进行了训练,采用和 Pythia 模型一样的架构。LM Harness 结果:

Instruct 则是基于 Base 模型针对 few-shot prompts 微调的结果,通过对 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务进行训练,针对少样本性能进行了优化。Instruct 版本在少数几个任务上表现出优异的性能,超过了类似规模的领先开放模型;RedPajama-INCITE-7B-Instruct 似乎是此类规模下最好的开放式指令模型。HELM 基准测试结果:

此外,官方还宣布正在开发新版本的 RedPajama,即 RedPajama2,目标是在 2-3T tokens 数据集上进行训练。主要有以下规划:

  • 尝试基于 DoReMi 类似的技术来自动学习不同数据的混合。
  • 引入 Pile v1(来自 Eleuther.ai)和 Pile v2(CrperAI)等数据集,以丰富当前数据集的多样性和规模。
  • 处理更多的 CommonCrawl。
  • 探索更多的数据去重复策略。
  • 引入至少 1500 亿 tokens 的代码数据集,以帮助提高编码和推理任务的质量。

更多详情可查看官方博客。 


相關推薦

2023-06-16

,搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数

2023-11-01

栖大会现场,作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。 据介绍,通义千问2.0模型参数达到千亿级别,不管是在阅读理解还是逻辑思维、数据等方面,都有大幅度提升,能够全面达到国际先进水平。 与此

2023-07-14

Meta 面向研究人员和学者发布了自有大语言模型 LLaMA。其参数规模从 70 亿到 650 亿参数不等(包括 7B、13B、33B 和 65B 参数),该模型的一大优势是能运行在单张显卡上。 三位知情人士表示,新的商用版本将更广泛地提供给企业

2023-08-19

究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。 此外,该模型在生物医药专业领域

2024-03-19

南加州大学最新研究,ChatGPT参数规模很可能只有7B(70亿)。南加大团队三位作者破解出了未公布的gpt-3.5-turbo嵌入向量维度(embedding size)为4096或4608。而几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-08-26

: https://arxiv.org/abs/2308.12966 Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的

2023-06-29

基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark (C-EVAL/MMLU) 上均取得同尺寸较好的效果。 即刻体验百川-7B 模型: https://hf.co/spaces/ysharma

2023-09-30

欧洲历史上最大的种子轮融资。Mistral 7B 是一个拥有 73 亿参数的模型。该公司声称在涵盖一系列任务的基准测试中,Mistral 7B 的表现均显著优于 Llama 2 7B 和 13B,并且与 Llama 34B 相当。 在涵盖数学、美国历史、计算机科学、法律

2023-11-10

上下文理解。 延伸阅读 vivo 开源蓝心大模型-7B:70 亿参数、适合中国开发者

2023-10-10

拓展到32k tokens;同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。 全球首个70B长文本大语言模型发布 LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页

2023-11-06

量开源中文数据集。「天工」Skywork-13B系列目前包括130亿参数的两大模型,Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL、GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科

2023-10-18

已发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,平均每 28 天发布一款新的大模型。 公告称,Baichuan-7B/13B两款开源大模型在多个权威评测榜单均名列前茅,累积下载量超

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均