高质量多模态语料“书生·万卷”开源发布


继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料

“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

“书生·万卷”链接:https://opendatalab.org.cn/WanJuan1.0

今年7月6日,上海AI实验室正式发布全新升级的“书生通用大模型体系”,包括书生·多模态大模型书生·浦语语言大模型书生·天际实景三维大模型等三大基础模型,并且推出了书生·浦语开源体系https://github.com/InternLM/InternLM),它不仅开放了一个高质量的语言大模型 InternLM-7B,在多项主流评测中性能领先于Llama-2-7B,还提供了覆盖从数据、训练到评测的全链条开放体系。书生·浦语开源体系为企业提供免费商用许可,降低大模型应用门槛,全面赋能产业。

“书生·万卷”已被用于书生大模型预训练,其开源发布将进一步降低大模型技术探索和落地的门槛。

据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。


相關推薦

2023-12-02

源模型。 通义千问-72B (Qwen-72B) 主要特性: 大规模高质量训练语料:使用超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练

2023-03-31

AION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示

2023-03-02

智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“Linux”。 基于FlagOpen,国内外开发者可以快速开

2023-11-07

次通过备案的百灵语言大模型,蚂蚁集团也在研发百灵多模态大模型,并已内测。 蚂蚁集团正式开源 CodeFuse 代码大模型 蚂蚁集团证实正研发语言和多模态大模型,命名“贞仪” 国内第二批通过备案的 AI 大模型包括 11 家

2023-06-17

术与应用创新的“发源地”,共同推动人工智能框架生态高质量发展迈出更大步伐。 上海昇思AI框架&大模型创新中心正式启动 上海昇思AI框架&大模型创新中心首批伙伴入驻 随着人工智能的发展,AI大模型的重要性越

2023-11-10

 的长文本基础模型和对话模型。 据介绍,BlueLM 采用高质量语料库进行训练,规模达到了 2.6 万亿 的 token 数,该语料库包含中文、英文以及少量日韩数据。其中 BlueLM-7B-Chat 在 C-Eval 和 CMMLU 上均取得领

2023-11-06

天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。「天工」Skywork-13B系列目前包括130亿参数的两大模型,Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL、GSM8K等多个权威评测与基准测试上都展现

2023-10-11

,深化与云厂商、智算中心等伙伴的生态合作,共同构建高质量的“AI基础服务”。  未来,九章云极DataCanvas公司将围绕客户的人工智能升级需求,践行“云中云”战略,充分布局算力建设,加速多模态大模型行业落地,以

2023-10-10

,这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。 代码和Demo地址:https://github.com/dvlab-research/LongLoRA 论文地址:https:

2023-06-22

》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行

2023-09-05

模型;零一万物则是李开复旗下的大模型公司。 “多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态模型上,这些模型在遵循视觉和语言指令方面具有很强的能力。然而,我们认为语音也是人类

2023-10-31

天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。 除模型开源外,Skywork-13B系列大模型还将开

2023-09-22

成为国内首个金融行业大模型标准,为金融行业智能化的高质量发展提供了重要支撑,为全面促进大模型安全合规和可信发展提供了重要保障。 具体来看,该标准涵盖了金融大模型的关键能力要求,包括场景适配度、能力支持

2023-08-26

模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言(Vision Langua