Anthropic 宣布在其 Claude 系列生成式 AI 模型的 API 中引入提示缓存(Prompt caching)功能,这将允许开发人员在 API 调用之间保存常用的提示,减少提示成本和延迟。
提示缓存允许用户缓存常用上下文,以便在将来的 API 调用中使用。该公司称,通过为模型配备背景知识和过去的示例输出,长提示的成本可降低高达 90%,延迟可降低高达 85%。
提示缓存在多种用例中很有用,包括能够保留代码库的汇总版本以供编码助手使用、在提示中提供长格式文档以及提供带有所需输出的几个示例的详细指令集。
用户还可以使用它与书籍、论文、文档和播客记录等长篇内容进行对话。 根据 Anthropic 的测试,与一本缓存了 100,000 个 token 的书籍聊天需要 2.4 秒,而没有缓存信息的情况下则需要 11.5 秒。这相当于延迟减少了 79%。
与基本输入令牌价格相比,缓存输入令牌的成本高出 25%,但实际使用缓存内容的成本低 10%。实际价格因具体型号而异。
该功能现已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 上作为公开测试版提供,并且很快将支持 Claude 3 Opus。详情可查看文档和定价页面。