DeepSeek 新专利公开:优化网页采集流程,降低网络资源消耗


4月1日,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利在国家知识产权局正式公布。

据专利摘要介绍,该方法旨在在尽可能多发现网页链接的同时,降低网站流量冲击。系统通过分析已下载内容并对未下载链接进行质量推断,采用择优下载的机制分配额度,从而减少低质量或重复内容的采集,提高数据质量与下载效率,有效降低数据采集过程中的网络资源消耗。

此外,该方法还通过引入独立的信息回灌队列,确保网页元信息库的修改操作具备原子性与稳定性。

据悉,随着大语言模型在自然语言处理领域的广泛应用,高质量、多样化的训练语料需求不断提升。当前网页采集中存在诸多问题,如链接获取不全、网站过载风险以及重复或低质下载等。该专利试图从技术层面提升采集系统的效率与安全性,为大模型训练提供更稳健的数据基础。


相關推薦

2024-08-16

8月15日,饿了么宣布将10项专利开源,并完成在上海技术交易所的公开挂牌,这也是国内首批通过全国技术要素市场公开挂牌的开源专利。10项专利中,7项为食品安全领域、3项为低碳环保领域,其中共有3项为AI相关专利。 此

2023-05-04

2001年的春天,腾讯申请了自己的第一个专利——单窗口多页浏览装置,发明人是Pony(马化腾)。 据介绍,这项专利促进了浏览器使用方式的改变——用一个窗口即可打开多页面。 当时的浏览器,如果同时打开很多网站需要

2025-03-27

低服务器资源占用,同时深度融合各种大模型如智谱AI 、DeepSeek 等,开放 linux 一键部署。 它可以提供标准的文本翻译API,一方面可以配合 translate.js 进行使用,另一方面如果你需要文本翻译,完全可以使用它,而不用再

2025-04-02

上又进一步。2025年1月,我国AI初创公司深度求索发布的DeepSeek R1以技术路径、成本控制与开源策略的全面创新,为AI研发提供了新范式。3月百度发布的文心大模型X1在性能对齐的情况下,进一步将API调用价格降至R1的一半。人工

2025-03-26

上新!DeepSeek-V3重磅升级 昨夜,DeepSeek-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开

2025-03-25

Xinference v1.4.0 发布 🚀! ✨ Gemma-3 模型重磅来袭,DeepSeek-v3 现已支持 Function Calling! 🎉 社区贡献者突破 100+!感谢大家的支持,期待更多伙伴加入贡献代码 💪💖。 🌍 社区版 📌 更新指南 * Pip:pip install 'xinference==1.4.0

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-03-20

全国大学生同上一堂人工智能大课”主讲专家。 著有《DeepSeek全攻略》、《走进具身智能》等广受欢迎的科普书。 OSCHINA 有幸邀请到了陈光教授(@爱可可-爱生活)做客「高手问答」栏目,和大家一起聊聊 AI。 本月初,陈光

2025-03-27

DeepSeek-V3 模型近日进行了更新,虽然大家都说更新后的 DeepSeek-V3-0324 强到没边——哪怕叫 DeepSeek V3.5 也不为过,但官方仍低调地称其是“小版本升级”。 下面是官方针对 DeepSeek-V3-0324 发布的更新说明。 DeepSeek V3 模型已完成

2024-09-30

千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支持编排AI工作流,有效满足复杂业务场景下的应用

2023-01-13

点击使用即可获得相应优惠!     ✦✦ 二、优化功能 (1)17Track 密钥变为可填写   (2)隐藏后台 logo 配置   (3)PC端前台分类模块鼠标移入显示全名称   (4)SMTP 添加帮助文档链接   (5)

2023-06-30

根据 Apple Insider 的报道,苹果公开的一项新专利显示,他们希望通过机器学习技术来深度帮助开发者。 正如专利名字所言,这是一项将学习模型集成到软件开发系统的技术 ("Integration Of Learning Models Into A Software Development S

2025-03-25

耗,但克里希纳认为,新兴的技术(例如中国初创公司 DeepSeek 展示的方案)能够极大降低AI能耗,使之降到当前能耗的1%以下: 「DeepSeek 已经向我们展示,即使是小型模型也能发挥巨大作用。当然,问题在于我们是否仍需要

2024-06-29

较长(3.35 秒)。这表明查询可能存在 CPU 消耗高或查询优化不足的问题。 结合这些指标,我们可以做的优化可能有: 索引优化:检查并优化相关表的索引,减少全表扫描的发生。 查询重写:分析并重写查询逻辑,减