DeepSeek 启用硬盘缓存技术,大模型价格再降一个数量级


DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

缓存命中的部分,DeepSeek 费用为 0.1元 每百万 tokens。至此,大模型的价格再降低一个数量级。

目前,硬盘缓存服务已经全面上线,用户无需修改代码,无需更换接口,硬盘缓存服务将自动运行,系统自动按照实际命中情况计费。只有当两个请求的前缀内容相同时(从第 0 个 token 开始相同),才算重复。中间开始的重复不能被缓存命中。

两个经典场景的缓存举例:

多种应用能从上下文硬盘缓存中受益:

  • 具有长预设提示词的问答助手类应用
  • 具有长角色设定与多轮对话的角色扮演类应用
  • 针对固定文本集合进行频繁询问的数据分析类应用
  • 代码仓库级别的代码分析与排障工具

公告指出,该技术最高可以节省 90% 的费用(需要针对缓存特性进行优化)。即使不做任何优化,按历史使用情况,用户整体节省的费用也超过 50%。缓存没有其它额外的费用,只有0.1 元每百万 tokens。缓存占用存储无需付费。

该缓存系统在设计的时候已充分考虑了各种潜在的安全问题。每个用户的缓存是独立的,逻辑上相互不可见,从底层确保用户数据的安全和隐私。长时间不用的缓存会自动清空,不会长期保留,且不会用于其他用途。


相關推薦

2025-04-02

上又进一步。2025年1月,我国AI初创公司深度求索发布的DeepSeek R1以技术路径、成本控制与开源策略的全面创新,为AI研发提供了新范式。3月百度发布的文心大模型X1在性能对齐的情况下,进一步将API调用价格降至R1的一半。人工

2025-03-27

DeepSeek-V3 模型近日进行了更新,虽然大家都说更新后的 DeepSeek-V3-0324 强到没边——哪怕叫 DeepSeek V3.5 也不为过,但官方仍低调地称其是“小版本升级”。 下面是官方针对 DeepSeek-V3-0324 发布的更新说明。 DeepSeek V3 模型已完成

2025-03-27

源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)达成过“开源周”,其在2月末连续五天发布五个代码库,并于近日继续开源上线了升级后的DeepSeek-V3模型。 阶跃星辰则在一个月左右时间开源三款多模态大

2025-03-27

,方便管理三方应用接入、授权、日志 AI组件支持接入DeepSeek,支持DS推理 PC前端:角色管理支持配置角色人员、菜单资源支持配置移动端菜单、确认删除提示支持明确哪条数据等 devtools工具:创建模型时支持导入视图、

2025-03-25

Xinference v1.4.0 发布 🚀! ✨ Gemma-3 模型重磅来袭,DeepSeek-v3 现已支持 Function Calling! 🎉 社区贡献者突破 100+!感谢大家的支持,期待更多伙伴加入贡献代码 💪💖。 🌍 社区版 📌 更新指南 * Pip:pip install 'xinference==1.4.0

2025-03-27

考和推理能力显著提升,AIGC已成为全网增速最快赛道,DeepSeek APP上线次月活跃用户规模突破1.8亿,豆包APP破亿,腾讯元宝、纳米AI搜索在DeepSeek大模型加持下,跻身TOP5。 QuestMobile数据显示,纳米AI搜索、腾讯元宝APP在接入DeepS

2025-03-27

低服务器资源占用,同时深度融合各种大模型如智谱AI 、DeepSeek 等,开放 linux 一键部署。 它可以提供标准的文本翻译API,一方面可以配合 translate.js 进行使用,另一方面如果你需要文本翻译,完全可以使用它,而不用再

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-03-26

上新!DeepSeek-V3重磅升级 昨夜,DeepSeek-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开

2025-03-20

Ollama 是开源跨平台大模型工具,让运行 Llama 3、DeepSeek-R1、Gemma 3 以及其他大语言模型变得更容易,现已发布最新版本 0.6.2。 Ollama 是一个开源的本地大语言模型运行框架,简化了利用 llama.cpp 后端运行各种 LLM 以及与其他桌面

2025-03-21

更多 百度发布文心大模型 4.5 与推理模型文心 X1 对标 DeepSeek-R1!百度发布文心大模型 X1,价格仅为 R1 一半

2025-04-03

4月1日,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利在国家知识产权局正式公布。 据专利摘要介绍,该方法旨在在尽可能多发现网页链接的同时,降低网站流

2023-12-01

布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。 目前 DeepSeek 已同时开源 7B 和 67B 的

2023-11-01

仅速度更快、能效更高,还引入一项全新技术 —— 动态缓存,同时带来首次登陆 Mac 的硬件加速光线追踪和网格着色等全新渲染功能。渲染速度与 M1 系列芯片相比最快可达 2.5 倍。中央处理器搭载的高性能核心和高能效核心比 M