国内多数模型训练使用中文数据已超 60%


国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示,当前我国网民数量达到11.23亿人,互联网普及率达到79.7%。

刘烈宏表示,我国数据产业处于快速发展阶段,数据产业链加速形成。据国家数据发展研究院研究,2024年,全国数据企业数量超过40万家,数据产业规模达5.86万亿元,较“十三五”末增长117%,预计未来几年仍将保持较高的增长水平。数据“采存算管用”全链条焕新迭代,催生出“数据即服务”“知识即服务”“模型即服务”等新模式、新业态。2024年,上市数据企业平均研发投入较“十三五”末增长79%,年均增速15.7%,产业链创新活力持续增强。

作为人工智能发展的三大核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,特别是高质量数据集的建设至关重要。例如在医疗健康领域,通过标注的医学影像高质量数据集,模型的疾病诊断准确率可以提升15%以上。2024年初,我国日均Token(即通常所说的词元,处理文本的最小数据单元)的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映出我国人工智能应用规模的快速增长。

截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片,400PB的总量相当于中国国家图书馆数字资源总量的140倍左右)。人工智能模型的训练也推动了数据交易需求的攀升,截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。目前已布局成都、沈阳、合肥等7个数据标注基地,助力高质量数据集的建设。

中文数据在国内大模型的训练性能提升方面发挥着重要作用。经过一段时间的努力,国内多数模型训练使用的中文数据占比已经超过了60%,有的模型已达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能的快速提升。


相關推薦

2023-10-27

其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三

2023-07-25

eforge.jp。开源PHP于 2013 年发布代码托管平台 Gitee,是目前国内领先的代码托管服务平台,并于 2020 年开始牵头建设工信部国家开源托管平台项目。Gitee 于 2017 年上线发布针对企业级的研发效能平台 Gitee 企业版。截至目前,Gitee

2025-07-28

写带下划线 智能翻译引擎:三级翻译引擎智能切换(国内大模型 > Google翻译 > 百度翻译) 快捷键支持: Ctrl+Alt+C - 中文转小驼峰 Ctrl+Alt+P - 中文转大驼峰 Ctrl+Alt+U - 中文转大写带下划线 智能类创建

2023-08-11

告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7

2023-09-05

司。 “多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态模型上,这些模型在遵循视觉和语言指令方面具有很强的能力。然而,我们认为语音也是人类与世界互动的一种重要方式。因此,对于通

2023-07-19

集中在6B-13B之间。 那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生

2023-11-04

THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个中文及跨语言反向词典WantWords

2023-12-02

nts」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或

2025-06-24

”系列大模型的数学模型(英文名称Confucius3-Math),这是国内首个专注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。 据了解,Confucius3-Math 是由网易有道 AI 团队开发的140 亿参数开源推理大语言模型,专门针对 K-1

2025-05-09

4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。 CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀

2022-09-06

、岑鸣、熊兮 一 导读 随着 BERT、Megatron、GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万亿的规模。然而,这类超大规模的模型运用于实

2023-08-16

大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。

2025-05-21

(Web / 客户端 / 小程序) ✅ 基础云存储(需付费扩容) ❌ 国内访问限速 ✅ 免费版 10GB / 付费版 500GB ❌ 团队协作功能简单 ✅ 品牌资产库 ❌ 存储空间固定 ✅ 免费云存储(容量有限) ❌ 无团队协作 ✅ 云录制存储(按会

2023-09-08

还将开放多模态等生成能力。 成立于2019年的智谱AI,是国内最早一批研发大模型的企业,由清华大学知识工程实验室(KEG)技术成果转化。 智谱清言在线体验:https://chatglm.cn/ 百川智能(百川大模型) 8 月 31 日,前搜狗 CEO