“全球最强”AI 编程助手 Genie 击败 Devin 和 GPT-4


AI 初创公司 Cosine 宣布,他们已经打造出世界上最强的 AI 编程助手 Genie,并在行业评测基准 SWE-Bench 中获得 30.08% 的好成绩(SWE-Bench 是用来评估大模型解决现实中软件问题的基准),超过了 Devin 和 GPT-4。

Genie 的技术报告中列出了训练数据包含的 15 种编程语言,Java、JS、C、C++、C#、Rust、Python 等热门语言,以及常用的 Scala、Kotlin、Swift、PHP 等也都全部涵盖。

其中,JavaScript、Python、TypeScript 和 TSX 是数据集中占比最多的语言,其余的占比均为 3%。

Cosine 公司表示,Genie 可以完全自主地与用户进行沟通,并完成解决 Bug、构建功能、重构代码等任务。

Cosine 采用特殊数据集和自我改进机制,使 Genie 在复杂编码中表现出色。

目前 Genie 已开放申请试用:https://cosine.sh/register,未来将推出更多惊喜功能。


相關推薦

2025-07-11

天召开的直播活动中,马斯克正式发布了 Grok 4,声称是全球最强 AI 模型,在处理学术问题上的表现已达到博士级别。整场发布会时长 53 分钟,马斯克演示了 Grok 4 模型的多模态功能、更快的推理能力等诸多新特性。 Grok 4 系

2025-07-16

7 月 14 日,AI 编程智能体 Devin 开发商 Cognition 宣布签署最终协议,收购 AI 编程初创公司 Windsurf,包括其知识产权(如 AI 驱动的集成开发环境 IDE)、产品、商标、品牌及剩余约 250 名员工。 此前谷歌以 24 亿美元“反向收购

2024-08-17

市场领先优势。 技术进展方面,该季度内阿里云发布了全球性能最强的开源模型Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。Qwen2-72B发布后即登顶HuggingFace 的Open LLM Leaderboard开源模型榜单。中文大

2022-09-06

TIOBE 公布了 2022 年 9 月的编程语言排行榜。 Julia 编程语言离榜单前 20 名的位置仅差 0.05%,它是一种为数值分析和计算科学设计的语言。在该领域有许多相互竞争的语言,那么是什么让 Julia 脱颖而出呢? TIOBE 方面指出,

2023-04-02

); Adieu, my lovely NGPTL++. NGPTL++ 编程语言的开发团队由来自全球各地的顶级软件工程师和计算机科学家组成,他们旨在创造一种极具创新性的编程语言,以应对日益增长的开发需求。这款语言的主要特点包括:灵活性、简洁性、性

2025-07-22

赢得了这场比赛。 这场赛事被认为是世界上最负盛名的编程比赛之一,邀请了12位顶尖人类程序员和一个AI竞争对手来应对极具挑战性的任务。 经过10小时的编程马拉松,Psyho以约9.5%的优势战胜了AI,赢得了第一名,而OpenAI的模

2025-08-07

和AI训练提供了灵活的工具。相比传统游戏引擎需要预先编程的固定场景,Genie3的动态生成能力让虚拟世界的创作更加即时和多样化。 Genie3 无需依赖传统物理引擎,而是通过大规模视频数据集训练,自主学习重力、物体运动和

2023-10-18

。 3、政策影响 世界已划分出明确的监管阵营,但全球治理的进展仍较为缓慢,最大的人工智能实验室正在填补这一空白; 据预测,人工智能将影响一系列敏感领域,包括选举和就业,但我们还没有看到显著的影响。

2023-06-28

记忆棋盘上的可能动作。2016 年,AlphaGo 以 4 比 1 的比分击败了世界围棋冠军李世石而声名大振,成为史上首个击败人类职业围棋选手、战胜围棋世界冠军的人工智能机器人。 《连线》杂志方面认为,语言模型的下一个大飞跃可

2025-06-17

程工具市场正经历爆发式增长。根据最新市场研究数据,全球AI代码工具市场在2024年达到67亿美元,预计到2030年将达到257亿美元,年复合增长率(CAGR)为24-27%[1]。另一项研究预测,AI代码工具市场将从2025年的151.1亿美元增长到2034年

2023-05-25

b Copilot X 是Copilot 的升级版,作为一款“GPT-4 加持”的 AI 编程助手,微软表示,它利用自然语言人工智能的优势,能够以内联和对话式聊天的方式在终端应用程序中推荐命令、解释错误,并帮助用户进行后续操作。 微软还表示

2023-03-31

开展自己的研究和探索。 DeepMind 开发的 AlphaGo 在 2016 年击败围棋名将李世石,也让 DeepMind 一举成名,成为了公认的 AI 行业领军企业。2020 年,DeepMind 开发的 AlphaFold 程序在 CASP13 比赛中表现出色,成功解决了许多生物学中的蛋

2025-05-21

正在加速其AI战略布局,即将推出一款名为“NoCode”的AI编程工具,并已悄然注册了“nocode.cn”域名,目前该网站正处于灰度测试阶段,预示这款面向非技术用户的全新产品即将正式面世。 该工具由美团研发质量与效率团队打造

2025-04-24

器人宣布推出并开源基于仿真功能的模型评测和验证工具Genie Sim Benchmark,专注为具身AI模型提供精准的性能测试和优化支持。 “作为Genie Sim(智元仿真平台)的开源评测版本,Genie Sim Benchmark是智元继开源百万真机数据集和海量