高质量多模态语料“书生·万卷”开源发布


继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料

“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

“书生·万卷”链接:https://opendatalab.org.cn/WanJuan1.0

今年7月6日,上海AI实验室正式发布全新升级的“书生通用大模型体系”,包括书生·多模态大模型书生·浦语语言大模型书生·天际实景三维大模型等三大基础模型,并且推出了书生·浦语开源体系https://github.com/InternLM/InternLM),它不仅开放了一个高质量的语言大模型 InternLM-7B,在多项主流评测中性能领先于Llama-2-7B,还提供了覆盖从数据、训练到评测的全链条开放体系。书生·浦语开源体系为企业提供免费商用许可,降低大模型应用门槛,全面赋能产业。

“书生·万卷”已被用于书生大模型预训练,其开源发布将进一步降低大模型技术探索和落地的门槛。

据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。


相關推薦

2023-12-02

源模型。 通义千问-72B (Qwen-72B) 主要特性: 大规模高质量训练语料:使用超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练

2023-03-31

AION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示

2024-09-27

Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模

2023-03-02

智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“Linux”。 基于FlagOpen,国内外开发者可以快速开

2023-11-07

次通过备案的百灵语言大模型,蚂蚁集团也在研发百灵多模态大模型,并已内测。 蚂蚁集团正式开源 CodeFuse 代码大模型 蚂蚁集团证实正研发语言和多模态大模型,命名“贞仪” 国内第二批通过备案的 AI 大模型包括 11 家

2024-09-27

文本、6B数据对)对数据进行预训练 再用中等规模的高质量的领域、知识增强的(图像、文本、3M数据对)数据预训练。 posting-train阶段: 通过监督微调、拒绝采样和直接偏好优化进行多轮对齐 使用 Llama 3.1 模型 过

2024-10-15

探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调整数据混合物。 MM1.5 的模型参数范围从 1B 到 30B,包括密集型和专家混合型(MoE)变体,并证明了精心的

2023-06-17

术与应用创新的“发源地”,共同推动人工智能框架生态高质量发展迈出更大步伐。 上海昇思AI框架&大模型创新中心正式启动 上海昇思AI框架&大模型创新中心首批伙伴入驻 随着人工智能的发展,AI大模型的重要性越

2023-11-10

 的长文本基础模型和对话模型。 据介绍,BlueLM 采用高质量语料库进行训练,规模达到了 2.6 万亿 的 token 数,该语料库包含中文、英文以及少量日韩数据。其中 BlueLM-7B-Chat 在 C-Eval 和 CMMLU 上均取得领

2023-11-06

天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。「天工」Skywork-13B系列目前包括130亿参数的两大模型,Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL、GSM8K等多个权威评测与基准测试上都展现

2023-10-11

,深化与云厂商、智算中心等伙伴的生态合作,共同构建高质量的“AI基础服务”。  未来,九章云极DataCanvas公司将围绕客户的人工智能升级需求,践行“云中云”战略,充分布局算力建设,加速多模态大模型行业落地,以

2023-10-10

,这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。 代码和Demo地址:https://github.com/dvlab-research/LongLoRA 论文地址:https:

2024-06-19

另外,《措施》提出系统构建算法产业矩阵,包括建设高质量中文数据集、加快算法产品供给、建设大模型开源社区等,并提出多项行动目标。《措施》鼓励企业建设面向行业的高质量中文语料数据库,推动典型行业数据汇集

2023-06-22

》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行