Kimi 开放平台:下调模型推理服务和上下文缓存价格


Kimi 开放平台官方公众号发文宣布,基于Moonshot AI一年来的技术积累和性能优化,已经在北京时间2025年4月7日0点对Kimi开放平台提供的模型推理服务进行价格调整,具体调整方案如图所示:

注:kimi-latest 模型自动缓存后的价格仍为 ¥1 / M Tokens。

上下文缓存的价格调整方案如下:

更多详情可查看:

  • 模型推理产品定价
  • 上下文缓存产品定价

相關推薦

2024-08-03

味着月之暗面正式开启B端业务。 Kimi API 从今年 2 月开始开放给企业和开发者使用。在此期间,很多企业有了规模化的落地,对稳定性和数据安全提出了更高的要求。 本次发布的 Kimi 企业级 API 主要是在数据安全保障、并发速

2024-08-04

DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

2025-04-11

(检索增强生成)和工具调用等任务。该模型支持 128K 的上下文长度,并且可以在单个 8xH100 节点上进行推理。 据介绍,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:

2023-10-21

)、 Sally (Mihyoung) Lee(Uber) 和范斌(Alluxio)。活动现已开放报名:https://www.alluxio.io/ai-infra-day-2023/。 关于 Alluxio Alluxio 是全球领先的针对分析和 AI 的高性能数据平台提供商,可加速企业 AI 产品价值变现,并最大化基础设

2024-08-17

示,减少提示成本和延迟。 提示缓存允许用户缓存常用上下文,以便在将来的 API 调用中使用。该公司称,通过为模型配备背景知识和过去的示例输出,长提示的成本可降低高达 90%,延迟可降低高达 85%。 提示缓存在多种用

2025-03-27

fig.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。 V3-0324 模型权重下载请参考: Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324 Huggingface: https://

2025-03-27

他用户的测试中,新版 V3 在多轮对话中体现出了更强的上下文理解能力。 从网友反馈的实测效果来看,V3-0324 有这些提升: 编码能力已经接近 Claude3.7 了,比之前的老版本 v3 能力要强; 提升幅度大约与 Sonnet 3.5 到 Sonnet 3.6

2025-03-26

,实现跨节点通信开销降低37%,推理速度提升 128K超长上下文:可解析50页PDF文档或完整代码库,多轮对话记忆保持能力提升 FP8混合精度训练:显存占用压缩,单卡推理成本较初代降低 2. 代码生成质的飞跃 单次生成400+

2024-06-25

更新:   AI 对话:集成了通义、文心、Kimi等大模型的AI对话功能 国际化:前后端完整的国际化方案实现 代码生成:devtools支持配置并生成业务对象选择器、配置并生成链接弹窗查看关联数据详情、生成移动端CRUD

2023-07-19

放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空

2023-10-26

谷歌推出新工具“关于此图像”,可验证图像来源、提供上下文信息,旨在增强搜索结果的可信度。【AiBase提要】:🔍 谷歌推出“关于此图像”工具,帮助验证图像来源和提供上下文信息。📷 用户可从搜索和 Google 图片结果中

2023-07-16

提升,在同尺寸开源模型中具有较强的竞争力。 更长的上下文:基于 FlashAttention 技术,项目团队将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的

2024-08-16

态。此外,中国电子还推出了聚焦桌面操作系统跟技术的开放麒麟社区,成立了国内首个 BMC 开源社区。此外中国电子还积极参与 Linux、红帽等国际开源社区建设,以开放共赢姿态成为全球开源生态的一个重要力量。 开放原

2024-09-26

了升级,数学能力提升了 36%,专业知识能力提升了 35%,上下文窗口 token 数由128k 增加到了256K。对于大型语言模型,上下文窗口的大小是一个重要的参数,它决定了模型能够处理的长序列的能力。上下文窗口越大,模型