写在 Kimi K2 发布之后:再也不仅仅是 ChatBot


转载自:https://bigeagle.me/2025/07/kimi-k2/

前两天我们忙活了大半年的 Kimi K2 终于发布了,在上线前熬了个大通宵之后饱饱睡了两天,今天终于有闲写一点心得。

叠甲:以下内容全部是我个人观点,不代表公司立场。

再叠甲:以下内容全部是我古法手作 (仅使用 Github Copilot 当高级输入法用)。

关于“写前端”

从 Claude 3.5 Sonnet 开始,AI 写前端到达了可以实用的程度,此后几乎所有新出的模型都会秀一下自己写前端的能力,Kimi K2 当然也不能免俗。 这里,我想 share 一下个人对此的思考。

一直以来各种文本 AI 都是默认输出 Markdown, 产品都是高级的 ChatBot,人们对一个 ChatBot 的期待无非就是能回答问题、写写文章、像人一样提供情绪价值。 有一次我在用户反馈中看到有用户要求 Kimi “把文章重新排版,要放进一页 A4 纸”,这个在纯文本模式显然是无法实现的,我还把这个case当作一种产品经理与程序员的笑话一笑了之。

在大约今年 3 月的时候,Kimi Researcher 立项开发,当时无论是 Open AI 还是 Gemini 的 Deep Research 最终交付物都是一份纯文字的研究报告, 我们就想能不能做得不一样一些,借助当时已经不错的前端编程能力,给用户最终输出一份更丰富多彩的交互式报告。这个 idea 的最终形态 在 Kimi Researcher 上线之后已经和公众见面了,收获了不少好评。

但当我看到这个 idea 之后,脑中浮现了完全不一样的东西:没有人规定文本 AI 必须输出 markdown,如果“前端编程”成为 AI 默认的交互方式, 产品形态会变成什么样?

也就是说,把人与AI的交互方式,从 chat-first 变成 artifact-first:你和 AI 交互的过程不是为了它直接输出一段内容,而是它理解用户的需求后 立刻开启一个小工程,交付一个前端应用出来,用户可以继续追问、修改、迭代,但这些都围绕着一份交付物进行。

眼尖的朋友可能已经发现,这不就是个 cursor / aider / openhands 么?没错,从实现方式来说这就是 AI 编程干的事情,但如果在产品上精妙设计一下, 把写代码的过程藏起来,对于不懂编程的用户,这就是 “我和 AI 说句话,它竟然直接给我做了个 PPT / 画了个流程图 / 写了个小游戏”, 这一次,AI 不仅能 “把文章重新排版放进 A4 纸” 里,还能给你变换颜色甚至加上动效,这是完全超越传统 ChatBot 的体验。

于是我趁着清明假期肝了一天,从 aider 抄了 workflow 和 prompt 做了个 demo 出来,交互仍然是 ChatBot 的形式, 但当用户问 “介绍一下小米 Su7” 时,普通的 chatbot 会给出一段文字简介, 我这个 demo 会直接输出一份图文并茂、可以交互的 PPT 一样的网页出来, 用户还可以继续提要求修改,什么“背景改成黑色”,“再补充介绍一下 Su7 Ultra” 之类的。

我拿着这个 demo 到产品部门 sell idea,大家都表示很有意思,但是活实在太多,下次一定,下次一定。现在 K2 已经发布,Kimi Researcher 也已上线,相信 kimi 产品 也会很快有一些令人惊奇的变化。

记得 2009 年,我大二的那一年,有个师兄说:“也许20年后的编译器,就是程序员说‘我要一个 firefox’,然后编译器哼哧哼哧算了2天,拿出一个 firefox 来。” 当时我们拿这个当笑话和幻想,现在看来,甚至不到20年。

关于 Tool Use & Agent

年初 MCP 开始流行,当时我们就想能不能让 Kimi 也通过 MCP 接入各种第三方工具。当时我们在 K1.5 研发过程中通过 RLVR (Reinforcement Learning with Verifiable Rewards) 取得了相当不错的效果,就想着复刻这套方法,搞它一堆真实的 MCP Server 直接接进 RL 环境中联合训练。

这条路很快撞墙,首先是部署麻烦,例如 Blender MCP 对于已经有 blender 的用户很容易,但在 RL 环境中装上 blender 就是一个负担;其次也是更致命的,不少第三方工具需要登录使用,你总不能为了训练 Notion MCP 使用而去注册一堆 Notion 账号吧?

但是我们换个思路,我的假设是:模型在预训练中已经知道工具该怎么用了,我们只需要把这个能力激发出来。这个假设的的基础很容易理解:预训练见过大量的代码数据,其中有大量的、用各种语言和表达方式的 API call, 如果把每个 API call 都当成一种工具,那么模型早就该会用了。另一个基础是,预训练模型本身就掌握了丰富的世界知识,比如你让他角色扮演一个 Linux Terminal,它完全能和你像模像样的交互一番, 那么显然对于 terminal tool 调用应当只需要少量数据就可以激发出来。

因此我们设计了一个比较精巧的 workflow,让模型自己合成海量的 Tool Spec 和使用场景,通过 multiagent 的方式合成了非常 diverse 的工具调用类数据,果然效果不错。

对于 Agent,我的理解就是,如果一个模型能做到这样,它就是个不错的 Agentic Model:

task = get_user_input()
history = [task, ]
while True:
resp = model(history, toolset)
history.append(resp)
if not resp.tool_calls:
break

for tool_call in tool_calls:
result = call_tool(tool_call)
history.append(result)

当然这个流程还可以更高级一些,比如toolset可以让模型自己动态生成(参考alita)。

在训练的视角,这样的数据也并不难合成,只要想办法把一段长长的任务改写成探索、思考、工具调用、环境反馈、错误重试、输出内容等不同形式交织轨迹,就不难激发出这样的能力。

我认为现阶段我们对模型 Agent 能力的开发还在早期,有不少数据在预训练阶段是缺失的(比如那些难以言语描述的经验/体验),下一代预训练模型仍然大有可为。

为什么开源

首先当然是为了赚个名声,如果 K2 只是一个闭源服务,现在一定没有这么多关注和讨论,搞不好还会像 Grok4 一样明明做得很好却要承担不少苛责。

其次是可以借助很多社区的力量完善技术生态,在我们开源不到24小时就看到有社区做出 K2 的 MLX 实现、4bit 量化等等,这些凭我们这点人力真的做不出来。

但更重要的是:开源意味着更高的技术标准,会倒逼我们做出更好的模型,与 AGI 的目标更一致

这一点不是很容易理解,不就是把 model weights 放出来吗,为什么会“倒逼模型进步”呢?

其实答案很简单,开源了就意味着第一方再也不能用各种 hack 的方式粉饰效果,必须拿出足够通用、任何第三方拿到同样的 weights 都要能很简单地复现出你的效果才行。

对于一个闭源的 ChatBot 服务,用户压根不知道背后是什么样的 workflow、有几个模型,我有听说过一些 rumor 说有的大厂的入口背后是几十个模型、数百种场景分类和数不清的workflow,还美其名曰这是“MoE模型”。 在“应用优先”或者“用户体验优先”的价值观下,这种做法非常自然,而且是性价比远远优于单一模型的选择,但这显然不是 AGI 该有的样子,对于 Kimi 这样的创业公司来说, 这种做法不但会让自己越来越平庸,极大阻碍技术进步,而且也不可能拼得过每个按钮都有个PM雕花的大厂们。

所以,当开源要求你不能走捷径的时候,反而更有利于做出更好的模型和产品。(如果有人用 Kimi K2 做出了比 Kimi 更有意思的应用,我一定会去 PUA 产品部门的。)

关于决心和一些可能引起争议的零散观点

去年 Kimi 大规模投流引起不少争议,乃至到现在还有很多 diss 的声音。

哈哈,我只是个小程序员,这个背后的决策逻辑咱也不知道,咱也不乱讲。

我只说一个客观的事情: 在年初我们停止投流之后, 国内不少应用商店搜索 kimi 甚至第一页都看不见, 在苹果 App Store 搜 kimi 会推荐豆包, 在某度搜 kimi 会推荐 “某度 DeepSeek-R1 满血版”。

即使在如此恶劣的互联网环境之下,Kimi 也没有恢复投流

年初 DeepSeek-R1 暴涨之后,很多人说 kimi 是不是不行了,你们是不是恨死 DeepSeek 了?恰恰相反,不少同事都认为 DeepSeek-R1 的爆火是个大好事, 它证明了硬实力就是最好的推广,只要模型做的好,就会获得市场认可;他证明了那条我们相信的路不仅能走通,而且是一条康庄大道。 唯一的遗憾就是:这条路不是我们走通的。

在年初的反思会上,我提出了一些相当激进的建议,没想到植麟后续的行动比我想的还要激进,比如不再更新 K1 系列模型,集中资源搞基础算法和 K2(还有更多不能说的按下不表)。

前一段时间各种 Agent 产品很火,我看到不少声音说 Kimi 不应该卷大模型,应该去做 Agent 产品,我想说:绝大多数 Agent 产品,离了 Claude 以后,什么都不是。Windsurf 遭 Claude 断供的事情更加证明了这一点。 2025 年,智能的上限仍然完全由模型决定,作为一家以 AGI 为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。

追求 AGI 是极其险峻的独木桥,容不得一丝分心和犹豫,你的追求也许不会成功,但犹豫一定会失败。 2024年6月智源大会上我听到开复老师脱口而出地说“我作为一个投资人我会关注AI应用的ROI”,我就知道他创立的那家公司活不长了。

最后

我知道 Kimi K2 还有数不清的缺点,现在我比任何时候都更想要 K3。

补充

我没有想到这篇文章引起很多关注(害怕),不得不承认我锐评一时爽,有些说法还是偏激了,我对整个行业都是充满尊敬的,创业不易,大家都是 AGI 的同路人。


相關推薦

2025-07-15

入价格(缓存未命中)4 元 输出价格 16 元 详情查看发布公告。

2025-07-16

intelligence)优化,支持高级工具使用、推理和代码生成。 发布仅数天,Kimi K2在 OpenRouter 平台的 token 消耗量已达到1.5%,超越了 xAI 的 Grok4和 GPT-4.1,位列排行榜前列。社交媒体数据显示,截至7月14日,Kimi K2的排名已升至 OpenRouter

2025-05-14

线图了,不是只用一串数据让你自己去脑补走势。 Kimi 不仅仅想陪你聊天,更想帮你做事。 像现在的 K 线图功能,是模型自动调用外部工具生成的结果。我们正在逐步支持更多工具生态,让 Kimi 不止是对话的助手,更是具备

2024-07-19

两个软件都没有打包。未来会尝试添加进deepin仓库的。 写在最后: 最后,再次感谢deepin相关SIG组的开发者,非常感谢你们在Asahi Linux以及m1-debian项目的协助与支持。正是由于你们的贡献开源、参与开源,deepin系统才会越来越美

2025-05-07

月之暗面发布了 Kimi 长思考模型 API kimi-thinking-preview。 据介绍,kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型,它擅长深度推理,帮助解决更多更难的事情,当你遇到难解的

2025-07-16

ity Edition 开发者使用 K2 模式。 大多数用户都会在新版本发布后的几个月内更新 IDE,因此我们也跟踪了 2024.3 和 2025.1 版本的综合使用情况。 即使算上 2024.3 版的用户,K2 模式的采用率也已超过 76%,并且这一数字每周都在稳

2025-05-04

ChatBot和Agent之间有着本质的区别。ChatBot更像是一个被动的对话机器人,它等待用户的指令,然后给出回应;而Agent则是一个能够主动理解用户意图,并按照用户规划的流程自主执行任务的智能助手。 5月3日,DeepChat 0.1.0 正式发

2025-06-18

月之暗面宣布开源 Kimi-Dev-72B,这是面向软件工程的代码大模型,并在 SWE-bench 上达到了开源模型中的 SOTA。 Kimi-Dev-72B 的设计理念和技术细节包括 BugFixer 和 TestWriter 的双重角色、中期训练、强化学习以及测试时自博弈。 据介

2024-08-03

月之暗面发布Kimi企业级API ,将面向企业级模型推理 。其主要面向具有一定规模化业务的企业,也意味着月之暗面正式开启B端业务。 Kimi API 从今年 2 月开始开放给企业和开发者使用。在此期间,很多企业有了规模化的落地,对

2025-03-21

源发文宣布,腾讯混元首次上榜海外权威大模型竞技场 Chatbot Arena 最新排名,跻身全球 Top 15。 Chatbot Arena 发起方 LMSYS Org (加州大学伯克利分校等机构支持的非营利组织)通过官方X账号对腾讯混元的加入表示欢迎。 “这是腾

2025-04-08

Kimi 开放平台官方公众号发文宣布,基于Moonshot AI一年来的技术积累和性能优化,已经在北京时间2025年4月7日0点对Kimi开放平台提供的模型推理服务进行价格调整,具体调整方案如图所示: 注:kimi-latest 模型自动缓存后的价格

2025-05-22

国家网络与信息安全信息通报中心发布通告,经公安部计算机信息系统安全产品质量监督检验中心检测,在应用宝平台中发现35款移动应用存在违法违规收集使用个人信息的情况,其中涉及不少 AI 应用,如智谱清言、Kimi等。

2023-07-11

让本地运维知识变得可泛化、可推理 OpsPilot 支持以ChatBot 的形态与Web 应用集成,主要提供以下能力: * 运维能力沉淀:通过将运维的知识、运维技能、排查动作进行沉淀,在解决问题的时候以领航员的形态,通过对

2023-04-16

根据 KotlinConf 2023 的消息,Kotlin 2.0 和 Kotlin K2 编译器即将发布。 Kotlin 2.0  从 Kotlin 1.8.20 开始,已经可以通过常规 Kotlin 语言版本标志( -language-version)启用 Kotlin 2.0 的预览。 Kotlin 2.0 发布后,将提供几个备受期待的功