Claude 推出"提示缓存"功能,减少延迟和成本


Anthropic 宣布在其 Claude 系列生成式 AI 模型的 API 中引入提示缓存(Prompt caching)功能,这将允许开发人员在 API 调用之间保存常用的提示,减少提示成本和延迟。

提示缓存允许用户缓存常用上下文,以便在将来的 API 调用中使用。该公司称,通过为模型配备背景知识和过去的示例输出,长提示的成本可降低高达 90%,延迟可降低高达 85%。

提示缓存在多种用例中很有用,包括能够保留代码库的汇总版本以供编码助手使用、在提示中提供长格式文档以及提供带有所需输出的几个示例的详细指令集。

用户还可以使用它与书籍、论文、文档和播客记录等长篇内容进行对话。 根据 Anthropic 的测试,与一本缓存了 100,000 个 token 的书籍聊天需要 2.4 秒,而没有缓存信息的情况下则需要 11.5 秒。这相当于延迟减少了 79%。

与基本输入令牌价格相比,缓存输入令牌的成本高出 25%,但实际使用缓存内容的成本低 10%。实际价格因具体型号而异。

该功能现已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 上作为公开测试版提供,并且很快将支持 Claude 3 Opus。详情可查看文档和定价页面。


相關推薦

2024-08-01

0k token)的性能。 综合表现最佳模型: Anthropic 的 Claude 3.5 Sonnet。该闭源模型在短、中、长上下文场景中的表现均优于竞争模型。Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Opus 在各个类别中的得分始终接近满分,击败了去年的冠

2024-07-18

Anthropic 推出了 Claude Android 应用,旨在将其 AI 聊天机器人带给更多用户。Anthropic 的这一最新举措旨加强与 ChatGPT 之间的竞争力,让 Claude 在更多地方可用。 Claude Android 应用程序的工作方式与5 月份发布的 iOS 版本相同,包括免

2023-10-26

个软件包中,也让 Bun 成为 Node 和 Deno 的有力替代品。 Claude 2 Anthropic 的 Claude 2 在单个提示中最多可接受 100K tokens(约 7 万字),并可生成多达数千个 tokens 的故事。Claude 可以编辑、改写、总结、分类、提取结构化数据、根据

2024-07-27

场景下也极大提高了系统的稳定性。这是因为 DiskANN 极大减少了对内存资源的依赖,因此也具备了非常高的可扩展性,在我们的实践经验中也得到验证,从千万数据规模到十亿再到百亿,查询性能的波动非常小,具备非常高的系

2023-10-31

: 彻底重构 For you 服务和排名系统,代码行数从 700K 减少到 70K,减少了 90%,计算占用量减少了 50%,帖子吞吐量增加了 80%。 重构了技术栈的 API 中间件层,并简化了架构,删除超过 10 万行代码和数千个未使用的内部端,

2023-08-17

供的最先进索引技术 RAPIDS RAFT。 在 Redis Enterprise 7.2 中,推出了可扩展搜索功能的预览版。它允许运行高 QPS、低延迟的工作负载,并跨集群实现最佳分布式处理。与之前 Redis Enterprise 的搜索和查询引擎相比,它可以将查询吞吐

2022-12-17

Next.js 框架背后的开发商 Vercel 宣布推出 Edge Functions,现已面向所有客户全面推出 (GA)。 根据介绍,Vercel Edge Functions 是 JavaScript、TypeScript 或 WebAssembly functions,通常比传统的 Serverless compute 更高效、更快速,因为它们在一个更精

2023-06-15

口大小已经成为一种技术竞赛,Anthropic 公司最近宣布其 Claude 语言模型可以提供 75000 个 token 上下文窗口选项。此外,OpenAI 也开发了一个 32000 个 token 的 GPT-4 版本,但尚未公开推出。 OpenAI 刚刚发布的gpt-3.5-turbo-16k模型支持 16000

2022-11-03

统一的 API 和统一的计算框架。今年,在此基础上,Flink 推出了 Streaming Warehouse [2],进一步升级了流批一体的概念:真正完成了流批一体的计算和流批一体的存储的融合,从而实现流批一体的实时化分析。 在 1.16 版本里

2023-09-27

功能: OpenAI 的 GPT-3.5 ,GPT-4 大语言模型 Anthropic 的 Claude instant ,Claude 2.0 大语言模型 国产模型:通义千问,文心一言,讯飞星火,商汤日日新,腾讯混元大语言模型 开源大模型:Llama2 ,ChatGLM2 ,AquilaChat 7B ,Bloomz 7B 等

2024-07-25

Apache Kafka 自诞生之日起,就以其卓越的设计和强大的功能,很快成为了流系统领域的事实标准。它不仅定义了现代流系统的架构,更以其独特的分布式日志抽象,为实时数据流的处理和分析提供了前所未有的能力。Kafka 的成

2023-02-16

据外媒 9to5linux 报道,Ubuntu 制造商 Canonical 已全面推出适用于 Ubuntu 22.04 LTS 系统的企业级实时(Real-Time) Ubuntu 内核。 实时 Ubuntu 内核基于 Ubuntu 22.04 LTS (Jammy Jellyfish) 中的 Linux 5.15 LTS 内核,可用于 x86_64 和 ARM 架构。专为航空航

2024-07-11

Apache Kafka 自诞生之日起,就以其卓越的设计和强大的功能,很快成为了流系统领域的事实标准。它不仅定义了现代流系统的架构,更以其独特的分布式日志抽象,为实时数据流的处理和分析提供了前所未有的能力。Kafka 的成

2024-09-26

emoryBurst 实施带来的内存分配减少。该特性于 2023 年 10 月推出,此后启用作业的数量逐渐从 3000+ 增加到 47 万。到 2024 年 1 月底,实现了每天 55 PB·h 的内存分配节省。这些发现突显了 memoryBurst 特性在降低内存需求和节省资源方