DeepSeek 启用硬盘缓存技术,大模型价格再降一个数量级


DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

缓存命中的部分,DeepSeek 费用为 0.1元 每百万 tokens。至此,大模型的价格再降低一个数量级。

目前,硬盘缓存服务已经全面上线,用户无需修改代码,无需更换接口,硬盘缓存服务将自动运行,系统自动按照实际命中情况计费。只有当两个请求的前缀内容相同时(从第 0 个 token 开始相同),才算重复。中间开始的重复不能被缓存命中。

两个经典场景的缓存举例:

多种应用能从上下文硬盘缓存中受益:

  • 具有长预设提示词的问答助手类应用
  • 具有长角色设定与多轮对话的角色扮演类应用
  • 针对固定文本集合进行频繁询问的数据分析类应用
  • 代码仓库级别的代码分析与排障工具

公告指出,该技术最高可以节省 90% 的费用(需要针对缓存特性进行优化)。即使不做任何优化,按历史使用情况,用户整体节省的费用也超过 50%。缓存没有其它额外的费用,只有0.1 元每百万 tokens。缓存占用存储无需付费。

该缓存系统在设计的时候已充分考虑了各种潜在的安全问题。每个用户的缓存是独立的,逻辑上相互不可见,从底层确保用户数据的安全和隐私。长时间不用的缓存会自动清空,不会长期保留,且不会用于其他用途。


相關推薦

2023-12-01

布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。 目前 DeepSeek 已同时开源 7B 和 67B 的

2024-09-30

千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支持编排AI工作流,有效满足复杂业务场景下的应用

2024-07-18

的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。 开发人员可以从 GitHub 仓库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 License。 Mistral 声称,Codestral 早期版本的性能优于 CodeLlama 70B 和 Deep

2024-07-05

万物:https://platform.lingyiwanwu.com/docs#api-%E5%B9%B3%E5%8F%B0 Deepseek:https://platform.deepseek.com/api-docs/zh-cn/   UOS AI 如何接入本地模型 Ollama Ollama是一个开源的大语言模型本地部署工具,通过它可以方便的在本机部署开源大模型

2024-08-14

能是 10 万级别、千万级别、10 亿,甚至 100 亿以上。除了数量级之外,用户采用的向量维度也呈逐步增加的趋势,例如尽管现在不少用户还在使用 128 或 512 维的向量,但是业界一些向量 embeddings 服务厂商例如微软 Azure 和 OpenAI

2023-11-01

仅速度更快、能效更高,还引入一项全新技术 —— 动态缓存,同时带来首次登陆 Mac 的硬件加速光线追踪和网格着色等全新渲染功能。渲染速度与 M1 系列芯片相比最快可达 2.5 倍。中央处理器搭载的高性能核心和高能效核心比 M

2024-07-07

内公共大模型(包括通义千问、智谱AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■灵活编排:内置强大的工作流引擎,支持编排AI工作流程,有效满足复杂业务场景下的应用需求;

2024-08-17

度,阿里云聚焦“AI驱动,公共云优先”战略,持续扩大技术及规模优势。财报显示,阿里云的外部收入(不包含阿里巴巴关联公司用云收入)同比增长也达到6%,主要得益于AI推动相关产品采用率增加,公共云业务实现两位数增

2023-06-15

容。 在语言模型中,增加上下文窗口大小已经成为一种技术竞赛,Anthropic 公司最近宣布其 Claude 语言模型可以提供 75000 个 token 上下文窗口选项。此外,OpenAI 也开发了一个 32000 个 token 的 GPT-4 版本,但尚未公开推出。 OpenAI 刚

2024-09-26

月,5000 亿。 “9 月,13000 亿。” 短短四个月,豆包大模型日均 tokens 使用量就从千亿级跨越到了万亿级,呈现爆发式增长。 9 月 24 日,在深圳举行的 2024 火山引擎 AI 创新巡展上,火山引擎总裁谭待公布,豆包大

2023-01-30

份名为「Oracle Java SE Universal Subscription Global Price List」的价格表,该表为 Java SE 制定了新的收费标准。 这个价格表最值得关注的地方在于,甲骨文将基于公司总员工数来收取对应的费用,而不是使用 Java 的员工数。这种按员工总

2024-08-17

hropic 宣布在其 Claude 系列生成式 AI 模型的 API 中引入提示缓存(Prompt caching)功能,这将允许开发人员在 API 调用之间保存常用的提示,减少提示成本和延迟。 提示缓存允许用户缓存常用上下文,以便在将来的 API 调用中使用。

2022-09-10

大数据、大模型时代。 当前,全球主流 AI 框架和模型的技术演进及创新进展如何?如何提升算法模型的准确率和效率?如何将 AI 框架和模型应用于实际场景中,实现产业创新?在 AICON 2022“AI 框架与模型”分论坛上,众多

2023-10-21

备超越传统架构的无限扩展性。与传统分析不同,分布式缓存是根据 AI 负载 I/O 模式量身定制的。此外,还支持分析负载以及从数据摄取到 ETL(提取、转换、加载)、预处理、训练和服务的完整机器学习工作流 。 Alluxio Enterpris