高质量多模态语料“书生·万卷”开源发布


继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料

“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

“书生·万卷”链接:https://opendatalab.org.cn/WanJuan1.0

今年7月6日,上海AI实验室正式发布全新升级的“书生通用大模型体系”,包括书生·多模态大模型书生·浦语语言大模型书生·天际实景三维大模型等三大基础模型,并且推出了书生·浦语开源体系https://github.com/InternLM/InternLM),它不仅开放了一个高质量的语言大模型 InternLM-7B,在多项主流评测中性能领先于Llama-2-7B,还提供了覆盖从数据、训练到评测的全链条开放体系。书生·浦语开源体系为企业提供免费商用许可,降低大模型应用门槛,全面赋能产业。

“书生·万卷”已被用于书生大模型预训练,其开源发布将进一步降低大模型技术探索和落地的门槛。

据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。


相關推薦

2025-03-28

介绍,“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览: 语种数量扩充:在5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。 数据模态、总量全面升级:在纯文本数据基

2023-12-02

源模型。 通义千问-72B (Qwen-72B) 主要特性: 大规模高质量训练语料:使用超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练

2023-03-31

AION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示

2025-05-09

院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方

2024-09-27

Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模

2023-03-02

智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“Linux”。 基于FlagOpen,国内外开发者可以快速开

2025-05-14

数据规模大:Chinese-LiPS总时长约为100小时,包含36,208条高质量语音片段,由207位专业讲者录制,具备良好的代表性与多样性。 覆盖主题丰富:内容涵盖科学技术、健康养生、文化历史、旅游探索、汽车工业、体育赛事等9大

2023-11-07

次通过备案的百灵语言大模型,蚂蚁集团也在研发百灵多模态大模型,并已内测。 蚂蚁集团正式开源 CodeFuse 代码大模型 蚂蚁集团证实正研发语言和多模态大模型,命名“贞仪” 国内第二批通过备案的 AI 大模型包括 11 家

2025-05-10

快手推出了基于多模态大模型的创新方案 KuaiMod,旨在优化短视频平台生态并提升用户体验。 KuaiMod 的核心在于其对短视频内容的质量判别。传统的内容判别方法往往依赖于静态规则和人工标注,成本高且难以应对用户偏好的动

2024-09-27

文本、6B数据对)对数据进行预训练 再用中等规模的高质量的领域、知识增强的(图像、文本、3M数据对)数据预训练。 posting-train阶段: 通过监督微调、拒绝采样和直接偏好优化进行多轮对齐 使用 Llama 3.1 模型 过

2023-11-10

 的长文本基础模型和对话模型。 据介绍,BlueLM 采用高质量语料库进行训练,规模达到了 2.6 万亿 的 token 数,该语料库包含中文、英文以及少量日韩数据。其中 BlueLM-7B-Chat 在 C-Eval 和 CMMLU 上均取得领

2025-05-10

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。HunyuanCustom 融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。 HunyuanCustom 整体架构

2023-06-17

术与应用创新的“发源地”,共同推动人工智能框架生态高质量发展迈出更大步伐。 上海昇思AI框架&大模型创新中心正式启动 上海昇思AI框架&大模型创新中心首批伙伴入驻 随着人工智能的发展,AI大模型的重要性越

2024-10-15

探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调整数据混合物。 MM1.5 的模型参数范围从 1B 到 30B,包括密集型和专家混合型(MoE)变体,并证明了精心的