国内多数模型训练使用中文数据已超 60%

2025-08-15 發表於开源资讯

国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示，当前我国网民数量达到11.23亿人，互联网普及率达到79.7%。

刘烈宏表示，我国数据产业处于快速发展阶段，数据产业链加速形成。据国家数据发展研究院研究，2024年，全国数据企业数量超过40万家，数据产业规模达5.86万亿元，较“十三五”末增长117%，预计未来几年仍将保持较高的增长水平。数据“采存算管用”全链条焕新迭代，催生出“数据即服务”“知识即服务”“模型即服务”等新模式、新业态。2024年，上市数据企业平均研发投入较“十三五”末增长79%，年均增速15.7%，产业链创新活力持续增强。

作为人工智能发展的三大核心要素之一，数据在推动“人工智能+”过程中发挥着关键作用，特别是高质量数据集的建设至关重要。例如在医疗健康领域，通过标注的医学影像高质量数据集，模型的疾病诊断准确率可以提升15%以上。2024年初，我国日均Token（即通常所说的词元，处理文本的最小数据单元）的消耗量为1千亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映出我国人工智能应用规模的快速增长。

截至今年6月底，我国已经建设高质量数据集超过3.5万个，总体量超过了400PB（1PB可存储约5亿张2MB大小的高清照片，400PB的总量相当于中国国家图书馆数字资源总量的140倍左右）。人工智能模型的训练也推动了数据交易需求的攀升，截至今年6月底，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达到了246PB。目前已布局成都、沈阳、合肥等7个数据标注基地，助力高质量数据集的建设。

中文数据在国内大模型的训练性能提升方面发挥着重要作用。经过一段时间的努力，国内多数模型训练使用的中文数据占比已经超过了60%，有的模型已达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能的快速提升。

国内多数模型训练使用中文数据已超 60%

相關推薦

SuperCLUE 10 月榜单：vivo 自研大模型位列国内第一

“JIANG”大模型发布，参数1400亿，聚焦金融和商业垂直领域

我的开源项目-PandaCoder 迎来史诗级大更新啦

清华报告：文心一言稳坐国内第一，超越 ChatGPT

中英双语多模态对话模型 LLaSM，李开复零一万物参与

百川开源大模型 Baichuan-13B 评测

深言科技联合清华大学 NLP 实验室开源 LingoWhale-8B 模型

昆仑万维发布「天工 SkyAgents」平台，零代码打造 AI 智能体

网易有道开源首个专注数学教育的模型 Confucius3-Math

智源研究院发布开源中文互联网语料库 CCI 4.0

阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地

高质量多模态语料“书生·万卷”开源发布

视频协作软件对比

挑战 ChatGPT，国产有这 8 款 AI 大模型产品