蚂蚁集团正式开源 CodeFuse 代码大模型


在今日的外滩大会分论坛上,蚂蚁集团正式开源代码大模型 CodeFuse。

据介绍,这是蚂蚁自研的代码生成专属大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。

CodeFuse 基于蚂蚁基础大模型研发,现已上架 Hugging Face:https://huggingface.co/codefuse-ai

本次开源的内容包括:

  1. MFT(多任务微调)框架,也称为MFTcoder
  2. 两个用于增强LLMs编码能力的数据集,包括Code Exercise和Evol-Instruction;
  3. 基于FasterTransformer的更快速、更可靠的部署框架;。

由此产生的模型集合包括CodeFuse-13B和CodeFuse-CodeLlama-34B,支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。

值得一提的是,CodeFuse-CodeLlama-34B基于CodeLlama作为基础模型,并利用上述MFT框架进行微调,在HumanEval Python pass@1评估中取得高达的74.4%(贪婪解码)的好成绩,甚至超过了GPT-4(67%)的表现

官方介绍称,CodeFuse的使命是开发专门设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。


相關推薦

2023-11-07

发百灵多模态大模型,并已内测。 蚂蚁集团正式开源 CodeFuse 代码大模型 蚂蚁集团证实正研发语言和多模态大模型,命名“贞仪” 国内第二批通过备案的 AI 大模型包括 11 家公司,部分已面向全社会开放服务。加上首批的 1

2023-06-22

根据《科创板日报》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态

2023-08-16

网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分

2023-09-22

估值达到约10亿美金。 对此,智谱 AI 方不予置评,腾讯集团和阿里云智能集团则回复称已参与投资。在此之前,智谱AI曾完成B-2轮数亿元融资,由美团战投独家投资。   智谱 AI 是由清华大学计算机系技术成果转化而来的

2023-10-11

云极DataCanvas公司完成总融资额3亿元D1轮融资。中国电子集团旗下中电智慧基金、华民投、中国太平旗下太平创新、浙江东方旗下东方嘉富等央国企旗下投资机构,以及卓源资本等专注人工智能赛道的知名财务投资机构参与本轮

2023-06-17

会成立 上海人工智能研究院、上海市闵行区政府、临港集团、昇思开源社区联合启动上海昇思AI框架&大模型创新中心(简称创新中心),创新中心将携手产业伙伴基于昇思MindSpore AI框架,支持全国范围的AI技术企业、高校与

2023-10-25

。 不过,对于此次故障原因,官方暂未作说明。 蚂蚁集团旗下的在线文档编辑与协同工具语雀出现服务器故障,在线文档、客户端和官网目前均无法打开。 官方微博回应称,语雀出现网络故障,导致无法访问,此故

2023-10-21

中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括君联资本在内的部分老股东跟投,华兴担任独家财务顾问。公告称,上述融资将

2023-06-15

运营中心初创组织成员: 99cloud(九州云) Ant Group(蚂蚁集团) AWCloud(海云捷迅) China Telecom(中国电信) China Mobile(中国移动) China Unicom(中国联通) Coredge EasyStack(易捷行云) H3C (新华三) Huawei(华为

2023-06-08

码生成,第三阶段将实现全领域的自然语言开发。 百度集团副总裁侯震宇表示,“Comate”代码助手是基于大模型打造的新一代编码辅助工具,已经在百度内部进行了大量测试。测试结果显示,在“Comate”辅助编写的代码中,近5

2023-12-02

往天工开放平台预约申请:https://agentspro.cn/#/ 昆仑万维集团 昆仑万维于2008年成立,2015年深交所上市,从游戏起家到AII In AGI与AIGC, 全面构建多元化的业务生态,至今十余年的发展,我们始终致力于为全球用户提供领先的互联

2023-09-01

能力,操作简单便捷。 稳定可靠 向量数据库源自腾讯集团自研的向量检索引擎 OLAMA,近40个业务线上稳定运行,日均处理的搜索请求高达千亿次,服务连续性、稳定性有保障。 项目地址: https://github.com/Tencent/vectordataba

2023-08-31

C 是一个高可扩展性、高性能、生产级的 Java RPC 框架。在蚂蚁金服 SOFARPC 已经经历了十多年及五代版本的发展。 SOFARPC 致力于简化应用之间的 RPC 调用,为应用提供方便透明、稳定高效的点对点远程服务调用方案。为了用户和开

2022-09-06

ter/examples/landing_large_ptms 应用案例 EasyNLP支撑了阿里巴巴集团内10个 BU20 多个业务,同时过 PAI 的产品例如PAI-DLC、PAI-DSW、PAI Designer 和 PAI-EAS,给集团用户带来高效的从训练到落地的完整体验,同时也支持了云上客户自定定制化模