国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示,当前我国网民数量达到11.23亿人,互联网普及率达到79.7%。
刘烈宏表示,我国数据产业处于快速发展阶段,数据产业链加速形成。据国家数据发展研究院研究,2024年,全国数据企业数量超过40万家,数据产业规模达5.86万亿元,较“十三五”末增长117%,预计未来几年仍将保持较高的增长水平。数据“采存算管用”全链条焕新迭代,催生出“数据即服务”“知识即服务”“模型即服务”等新模式、新业态。2024年,上市数据企业平均研发投入较“十三五”末增长79%,年均增速15.7%,产业链创新活力持续增强。
作为人工智能发展的三大核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,特别是高质量数据集的建设至关重要。例如在医疗健康领域,通过标注的医学影像高质量数据集,模型的疾病诊断准确率可以提升15%以上。2024年初,我国日均Token(即通常所说的词元,处理文本的最小数据单元)的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映出我国人工智能应用规模的快速增长。
截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片,400PB的总量相当于中国国家图书馆数字资源总量的140倍左右)。人工智能模型的训练也推动了数据交易需求的攀升,截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。目前已布局成都、沈阳、合肥等7个数据标注基地,助力高质量数据集的建设。
中文数据在国内大模型的训练性能提升方面发挥着重要作用。经过一段时间的努力,国内多数模型训练使用的中文数据占比已经超过了60%,有的模型已达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能的快速提升。