4月1日,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利在国家知识产权局正式公布。
据专利摘要介绍,该方法旨在在尽可能多发现网页链接的同时,降低网站流量冲击。系统通过分析已下载内容并对未下载链接进行质量推断,采用择优下载的机制分配额度,从而减少低质量或重复内容的采集,提高数据质量与下载效率,有效降低数据采集过程中的网络资源消耗。
此外,该方法还通过引入独立的信息回灌队列,确保网页元信息库的修改操作具备原子性与稳定性。
据悉,随着大语言模型在自然语言处理领域的广泛应用,高质量、多样化的训练语料需求不断提升。当前网页采集中存在诸多问题,如链接获取不全、网站过载风险以及重复或低质下载等。该专利试图从技术层面提升采集系统的效率与安全性,为大模型训练提供更稳健的数据基础。