“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习


在预训练时代,关键在于互联网文本。你最需要的是一大批量、多样化且高质量的互联网文档,供模型从中学习。

在监督微调(SFT)时代,核心则是对话数据。人们雇佣合同工人为问题撰写答案,类似于你在 Stack Overflow 或 Quora 上看到的内容,但专门针对大语言模型(LLM)的应用场景进行优化。

我认为以上两个阶段都不会消失,但在当前的强化学习时代,关键要素变成了“环境”(environments)。与前两者不同,环境能让大语言模型真正地进行交互——采取行动、观察结果等。这意味着我们有望超越简单的“统计专家行为模仿”,实现更深层次的学习。这些环境既可用于模型训练,也可用于模型评估。但和之前类似,现在核心的挑战在于:我们需要大量、多样化且高质量的环境,作为 LLM 练习的“习题集”。

从某种意义上说,这让我想起了 OpenAI 最早的项目——Gym。那正是一个旨在构建大量统一格式环境的框架,只不过当时远早于大语言模型的兴起,因此那些环境大多是当时简单的学术控制任务,比如倒立摆(cartpole)、ATARI 游戏等。而 PrimeIntellect 的“环境中心”(environments hub),以及其 GitHub 上的 verifiers 仓库,则构建了一个面向现代 LLM 的升级版框架,这是一个非常出色的尝试和构想。今年早些时候,我也曾提议有人来构建类似的东西。

环境的一个重要特性是:一旦框架的基本结构搭建完成,原则上社区和产业界就可以在不同领域并行开发,这令人非常振奋。

最后一点思考——就个人而言,从长期来看,我非常看好“环境”以及“具身智能体式交互”(agentic interactions)的发展前景,但我对“强化学习”(reinforcement learning, RL)本身持谨慎态度(看跌)。

我认为奖励函数(reward functions)存在严重问题,而且我相信人类在学习时并不主要依赖强化学习(也许在某些运动控制类任务中会用到,但在智力型问题解决中并非如此)。人类使用的是更强大、更高效的其他学习范式,而这些范式尚未被充分发明或规模化应用。

不过,目前已有一些初步的设想和雏形(例如,“系统提示学习”这一概念,即把模型更新从权重调整转移到提示词/上下文本身,之后可选择性地将知识“蒸馏”回权重中——这个过程有点像睡眠对大脑的作用)。

原文:https://x.com/karpathy/status/1960803117689397543


相關推薦

2025-08-26

“Vibe Coding”概念提出者 Andrej Karpathy 分享了他的 AI LLM 辅助编程体验: 继续探索最佳的 LLM 辅助编程体验。特别是,我发现,与其专注于某个完美的单一方式,我的使用方式正越来越多样化,分布在几个不同的工作流中,并将

2025-06-21

日前,OpenAI 联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 在 Y Combinator 的 AI 创业学院活动上,进行了个人演讲。 本次演讲中,Karpathy 提出了「软件 3.0 时代」这一概念,他认为自然语言正在取代传统代码,而大型语言模型(LL

2025-07-25

体上公开邀请前 OpenAI 创始成员及前特斯拉AI负责人 Andrej Karpathy 加入其团队。 Andrej Karpathy 曾在特斯拉担任 AI 高级总监、自动驾驶负责人,并于 2022 年 7 月宣布离职。在特斯拉任职期间,Karpathy 主要负责 Autopilot 半自动驾驶软

2025-07-29

腾讯研究院发布了一份《AI Coding⾮共识报告》,这份54页的研究报告系统梳理了AI编程(AI Coding)如何从根本上颠覆传统软件开发逻辑,并指出行业在高速发展中所面临的七大非共识与三大未来趋势。 七大非共识 非共识01:

2025-05-21

具由美团研发质量与效率团队打造,定位于新兴的“Vibe Coding(氛围编程)”赛道,通过对话式交互实现应用构建,主打“人人可用”的AI编程体验。 不同于Cursor这类以开发者为中心的辅助编程工具,也区别于Devin所代表的AI自

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2024-08-07

了一家初创公司;另一位二月份离职的联合创始人 Andrej Karpathy 则创办了一家教育初创公司。 目前,OpenAI 的 11 位原始创始人中只剩下三位:OpenAI 首席执行官 Sam Altman、Brockman 和语言与代码生成负责人 Wojciech Zaremba。Altman 也发文

2025-07-16

n Development)革新软件开发模式,解决“氛围编码”(Vibe Coding)带来的混乱和低效问题 。 Kiro借助AI智能体与开发者协作,在编写代码前自动生成需求文档、系统设计图和任务清单,并基于这些规范生成代码、测试用例和文档

2025-07-31

行代码。 从提交信息来看,这个 PR 应该是开发者 Vibe Coding 的“成果”——因为大部分 commits 都有 Claude Code 的头像。 此外这个 PR 的内容出奇地少,虽然它包含超过 12 万行代码,但其中大部分是 AI 生成的文档(86K 行,68%)

2025-04-09

太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)

2025-08-30

该公司专注于人工智能领域的创新技术研发,尤其在Vibe Coding方向取得突破,通过自然语言生成全栈应用程序,帮助非技术人员快速将创意转化为可执行的产品。此次融资将用于拓展市场和技术布局,进一步巩固其在欧洲AI领域

2025-07-17

动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路

2025-06-24

ules异步编码代理也将登陆 AI Studio,未来可能以“Vibe coding”桌面应用的形式推出。

2025-08-08

业开发者拒绝在正式开发流程中使用“氛围编程”(vibe coding)。 61.7% 的开发者因安全顾虑优先选择人工编写代码。 完整报告查看:https://survey.stackoverflow.co/2025