智源研究院发布中文互联网语料库 CCI3.0


近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。

智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址

  • Flopsera:http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3
  • Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data
  • Datahub:https://data.baai.ac.cn/details/BAAI-CCI3

据介绍,CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。

CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。

此外,同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。

模型训练效果对比


相關推薦

2023-03-02

为现象级应用,人工智能进入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工智能重

2023-11-04

算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个

2023-08-16

报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成

2024-10-23

智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。 目前 Emu3 已开源了关键技术和模型。 公告称,Emu3在图像

2023-10-24

宝 AI 时代 澳大利亚国立大学、牛津大学和北京人工智能研究院的研究人员,合作开发了一种名为“3D-GPT”的新型人工智能系统,该系统可以简单地根据用户提供的基于文本的描述生成 3D 模型。相较传统的 3D 建模工作流,提供

2023-10-10

能力。这个局面如今被打破。 近日,贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Github全部python项目热度第五、github stars一周内破千,Twitter上的相关技术帖

2023-11-10

长文本基础模型和对话模型。 据介绍,BlueLM 采用高质量语料库进行训练,规模达到了 2.6 万亿 的 token 数,该语料库包含中文、英文以及少量日韩数据。其中 BlueLM-7B-Chat 在 C-Eval 和 CMMLU 上均取得领先结果

2023-07-25

,北京知未智能科技有限公司(知未智能KDF)产品与技术发布会于上海召开。会上发布了该公司从零训练的大语言模型——“JIANG”大语言模型,以及基于该模型研发的一系列产品,包括KDF智讯、KDF绝未、KDF中书等。 知未智能

2023-04-03

共数据集相结合,创建了一个超过 7000 亿标记的大型训练语料库。利用该训练语料库的一部分内容,团队训练了一个具有 500 亿参数的仅解码器的因果语言模型。由此生成的模型在现有的针对金融的 NLP 基准、一套彭博内部基准

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本

2023-08-19

水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

2023-10-31

k-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。 除模型开源外,Skywork-13B系列大模型还将开源600GB、150B

2023-09-22

机系唐杰教授创立,团队核心成员曾参与清华大学与智源研究院合作项目“悟道”的研发工作。 2022 年 8 月,清华大学知识工程实验室与智谱 AI 合作研发的高精度双语稠密千亿大模型 GLM-130B 正式上线,是同年亚洲唯一入选斯坦

2023-03-28

获得清华大学优秀博士学位论文奖,2013年加入微软亚洲研究院从事大规模机器学习平台的研发工作。 2015年至2016年底,专注于搭建基于异构集群的深度学习平台,项目荣获微软亚洲研究院院长特别奖 (top 1%)。2017年创立北京