Kimi 长思考模型 API 正式发布


月之暗面发布了 Kimi 长思考模型 API kimi-thinking-preview

据介绍,kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型,它擅长深度推理,帮助解决更多更难的事情,当你遇到难解的代码问题、数学问题、工作问题时,都可以找 kimi-thinking-preview 模型来帮忙。

使用模型


kimi-thinking-preview 模型是目前最新的 k 系列思考模型,你可以简单地通过更换 _model _来使用它:

$ curl https://api.moonshot.cn/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $MOONSHOT_API_KEY" \
-d '{
"model": "kimi-thinking-preview",
"messages": [
{"role": "user", "content": "你好"}
]
 }'
{
"id": "chatcmpl-6810567267ee141b4630dccb",
"object": "chat.completion",
"created": 1745901170,
"model": "kimi-thinking-preview",
"choices":
[
{
"index": 0,
"message":
{
"role": "assistant",
"content": "你好!😊 我是Kimi,很兴见到你!有什么可以帮你的吗?",
"reasoning_content": "用户说“你好”,这是一句简单的问候语,没有包含复杂的信息或需求。我判断用户可能只是想开启一段对话,或者测试我的反应能力。这种情况下,我的目标是用友好且简洁方式回应,保持对话的轻松氛围,同时为后续可能的交流做好准备。\n\n我决定用“你好!😊 我是Kimi,很高兴见到你!有什么可以帮你的吗?”作为回复。这样既回应了用户的问候,又主动表达了愿意提供帮助的态度,同时通过添加情符号让语气更亲切自然。"
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 8,
"completion_tokens": 142,
"total_tokens": 150
}
}

‍或是通过 openai SDK:

import os
import openai

client = openai.Client(
base_url="https://api.moonshot.cn/v1",
api_key=os.getenv("MOONSHOT_API_KEY"),
)

stream = client.chat.completions.create(
model="kimi-thinking-preview",
messages=[
{
"role": "system",
"content": "你是 Kimi。",
},
{
"role": "user",
"content": "请解释 1+1=2。"
},
],
max_tokens=1024*32,
stream=True,
)

thinking = False
for chunk in stream:
if chunk.choices:
choice = chunk.choices[0]
# 由于 openai SDK 并不支持输出思考过程,也没有表示思考过程内容的字段,因此我们无法直接通过 .reasoning_content 获取自定义的表示 kimi 推理过程的
# reasoning_content 字段,只能通过 hasattr 和 getattr 来间接获取该字段。
#
# 我们先通过 hasattr 判断当前输出内容是否包含 reasoning_content 字段,如果包含,再通过 getattr 取出该字段并打印。
if choice.delta and hasattr(choice.delta, "reasoning_content"):
if not thinking:
thinking = True
print("=============开始思考=============")
print(getattr(choice.delta, "reasoning_content"), end="")
if choice.delta and choice.delta.content:
if thinking:
thinking = False
print("\n=============思考结束=============")
print(choice.delta.content, end="")

在使用 kimi-thinking-preview 模型时,API 响应中使用了 reasoning_content 字段作为模型思考内容的载体,对于 reasoning_content 字段:

  • openai SDK 中的 ChoiceDelta 和 ChatCompletionMessage 类型并不提供 reasoning_content 字段,因此无法直接通过 .reasoning_content 的方式访问该字段,仅支持通过 _hasattr(obj, "reasoning_content") _来判断是否存在字段,如果存在,则使用 getattr(obj, "reasoning_content") 获取字段值

  • 如果你使用其他框架或自行通过 HTTP 接口对接,可以直接获取与 content 字段同级的 reasoning_content 字段

  • 在流式输出(stream=True)的场合,reasoning_content 字段一定会先于 content 字段出现,你可以在业务代码中通过判断是否出现 content 字段来识别思考内容(或称推理过程)是否结束

  • reasoning_content 中包含的 Tokens 也受 max_tokens 参数控制,reasoning_content 的 Tokens 数加上 content 的 Tokens 数应小于等于 max_tokens

多轮会话


使用 kimi-thinking-preview 进行多轮对话时,思考内容(或称推理过程)不需要放入请求模型的上下文中。我们通过如下例子说明如何正确使用 kimi-thinking-preview 进行多轮对话:

import os
import openai

client = openai.Client(
base_url="https://api.moonshot.cn/v1",
api_key=os.getenv("MOONSHOT_API_KEY"),
)

messages = [
{
"role": "system",
"content": "你是 Kimi。",
},
]

# 第一轮对话
messages.append({
"role": "user",
"content": "请解释 1+1=2。"
})
completion = client.chat.completions.create(
model="kimi-thinking-preview",
messages=messages,
max_tokens=1024 * 32,
)

# 获取第一轮对话的结果
message = completion.choices[0].message
if hasattr(message, "reasoning_content"):
print("=============开始第一次思考=============")
print(getattr(message, "reasoning_content"))
print("=============第一次思考结束=============")
print(message.content)

# 移除 message 中的 reasoning_content,并将 message 拼接到上下文中
if hasattr(message, "reasoning_content"):
delattr(message, "reasoning_content")
messages.append(message)

# 第二轮对话
messages.append({
"role": "user",
"content": "我没听懂,再解释一遍。",
})
completion = client.chat.completions.create(
model="kimi-thinking-preview",
messages=messages,
max_tokens=1024 * 32,
)

# 获取第二轮对话的结果
message = completion.choices[0].message
if hasattr(message, "reasoning_content"):
print("=============开始第二次思考=============")
print(getattr(message, "reasoning_content"))
print("=============第二次思考结束=============")
print(message.content)

‍注:即使你不小心把 reasoning_content 字段放入上下文中,也不要过于担忧,reasoning_content 的内容不会计入 Tokens 消耗。

模型限制


kimi-thinking-preview 目前仍处于预览版阶段,仍有如下限制:

  • 不支持工具调用(ToolCalls),联网搜索功能也暂不支持

  • 不支持 JSON Mode(即设置 `response_format={"type": "json_object"}`

  • 不支持 Partial 模式

  • 不支持 Context Caching

注:如果强行对 kimi-thinking-preview 启用以上特性,模型可能会输出预期之外的内容。

最佳实践


我们会提供一些关于使用 kimi-thinking-preview 的最佳实践建议,遵循这些最佳实践通常来说能提升模型使用体验:

  • 使用流式输出(stream=True):kimi-thinking-preview 模型的输出内容包含了 reasoning_content,相比普通模型其输出内容更多,启用流式输出能获得更好的用户体验,同时一定程度避免网络超时问题

  • 建议设置 temperature=0.8,你可以根据实际需求调高或调低 _temperature _参数

  • 建议设置 max_tokens>=4096 以避免无法输出完整的 reasoning_content 和 content


详细文档:https://platform.moonshot.cn/docs/guide/use-kimi-thinking-preview-model


相關推薦

2025-07-30

生成榜单上表现领先。 九天数学大模型:在短思考、长思考模式下均达到业界 SOTA 水平,多项指标超越 Qwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同参数量级模型。 “九天善智多模态大模型”引入复杂时空建模、流匹

2024-08-03

月之暗面发布Kimi企业级API ,将面向企业级模型推理 。其主要面向具有一定规模化业务的企业,也意味着月之暗面正式开启B端业务。 Kimi API 从今年 2 月开始开放给企业和开发者使用。在此期间,很多企业有了规模化的落地,对

2025-07-18

速度慢的情况。 月之暗面表示,主要问题是访问量大 +模型体积大。月之暗面正在全力优化推理效率,也在加卡加机器。预计这几天内速度会有明显提升。同时,Kimi K2是完全开源的,大家也可以通过其他模型供应商接入使用

2025-07-15

月之暗面正式公布并开源旗下生成模型 Kimi K2,号称「具备超强代码和 Agent 能力的 MoE 架构基础模型」。 官方介绍,Kimi K2 总参数达到 1T,激活参数为 32B,上下文长度为 128k,并且支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功

2025-07-16

来自中国初创公司 Moonshot AI 的开源大语言模型 Kimi K2在 OpenRouter 平台的 token 消耗量(市场份额指标)上迅速攀升,超越 xAI 的 Grok4和 OpenAI 的 GPT-4.1,成为近期 AI 领域的焦点。 OpenRouter 作为一个统一 API 平台,允许开发者访问包

2025-07-15

,AI 写前端到达了可以实用的程度,此后几乎所有新出的模型都会秀一下自己写前端的能力,Kimi K2 当然也不能免俗。 这里,我想 share 一下个人对此的思考。 一直以来各种文本 AI 都是默认输出 Markdown, 产品都是高级的 ChatBot,

2025-07-26

Kimi-K2 和 Qwen3-Coder 这两个模型是最近在编程任务上表现不错的开源模型,关于二者的比较可阅读这篇文章:Kimi K2 和 Qwen-3 Coder 在编程任务的详细对比。 Kimi K2 是一个最先进的混合专家 (MoE) 语言模型,激活参数为 320 亿,

2025-07-25

测试围绕真实的 Rust 开发任务和前端重构任务展开,两个模型在相同的开发环境中表现出了截然不同的效果。结果显示,一款模型能稳定产出可运行的代码,而另一款却在理解基本指令上频频出错。这种实际测试中的落差,揭示

2025-05-14

想陪你聊天,更想帮你做事。 像现在的 K 线图功能,是模型自动调用外部工具生成的结果。我们正在逐步支持更多工具生态,让 Kimi 不止是对话的助手,更是具备行动力的智能体。 (我们也偷偷藏了一点点「人味儿」:App 点

2025-06-18

之暗面宣布开源 Kimi-Dev-72B,这是面向软件工程的代码大模型,并在 SWE-bench 上达到了开源模型中的 SOTA。 Kimi-Dev-72B 的设计理念和技术细节包括 BugFixer 和 TestWriter 的双重角色、中期训练、强化学习以及测试时自博弈。 据介绍

2025-07-18

《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。文章摘要如下: 继今年1月DeepSeek-R1

2025-04-08

化,已经在北京时间2025年4月7日0点对Kimi开放平台提供的模型推理服务进行价格调整,具体调整方案如图所示: 注:kimi-latest 模型自动缓存后的价格仍为 ¥1 / M Tokens。 上下文缓存的价格调整方案如下: 更多详情可查看:

2025-07-24

月之暗面(Moonshot AI)更新了Kimi K2模型的聊天模板,通过修改系统提示和参数处理方式,提升了工具调用的稳定性和可靠性。 具体变更包括: 更新了默认的系统提示; 在多轮工具调用中,强制使用模型返回的tool_id以提高

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾