蚂蚁集团正式开源 CodeFuse 代码大模型


在今日的外滩大会分论坛上,蚂蚁集团正式开源代码大模型 CodeFuse。

据介绍,这是蚂蚁自研的代码生成专属大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。

CodeFuse 基于蚂蚁基础大模型研发,现已上架 Hugging Face:https://huggingface.co/codefuse-ai

本次开源的内容包括:

  1. MFT(多任务微调)框架,也称为MFTcoder
  2. 两个用于增强LLMs编码能力的数据集,包括Code Exercise和Evol-Instruction;
  3. 基于FasterTransformer的更快速、更可靠的部署框架;。

由此产生的模型集合包括CodeFuse-13B和CodeFuse-CodeLlama-34B,支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。

值得一提的是,CodeFuse-CodeLlama-34B基于CodeLlama作为基础模型,并利用上述MFT框架进行微调,在HumanEval Python pass@1评估中取得高达的74.4%(贪婪解码)的好成绩,甚至超过了GPT-4(67%)的表现

官方介绍称,CodeFuse的使命是开发专门设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。


相關推薦

2023-11-07

发百灵多模态大模型,并已内测。 蚂蚁集团正式开源 CodeFuse 代码大模型 蚂蚁集团证实正研发语言和多模态大模型,命名“贞仪” 国内第二批通过备案的 AI 大模型包括 11 家公司,部分已面向全社会开放服务。加上首批的 1

2025-04-15

蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职。徐鹏一直从事人工智能领域技术研究,曾在谷歌工作11年,负责和领导了谷歌翻译的核心技术研发,并参与了谷歌显示广告系统的算法研发。 此前蚂蚁成立AI创新研发与应用部

2023-06-22

根据《科创板日报》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态

2025-03-25

彭博社援引知情人士报道称,蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低20%。对此,蚂蚁方面回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。 这得

2025-08-15

蚂蚁集团宣布正式开源基于 LLVM 的 JVM JIT 编译器 Jeandle。公告写道: 以“筋斗云”为喻,希望 Jeandle 可以为 JVM 加足马力,拓宽它的性能与生态边界,让 Java 如腾云驾雾般瞬息万里。 开源地址: https://github.com/jeandle/jeandl

2025-06-27

库技术创新和应用的宣言。 OceanBase 始创于 2010 年,是蚂蚁集团完全自主研发的国产数据库。2020 年 OceanBase 成立北京奥星贝斯科技有限公司并开始独立商业化运作。2021 年,OceanBase 正式开源(https://gitee.com/oceanbase),300 万行

2025-08-05

智源研究院(1个)、中国电信人工智能研究院(1个)、蚂蚁集团(4个)、快手(1个)、捏Ta(1个)、磐石(3个)、上海交通大学(1个)、腾讯(1个)、上海人工智能实验室(1个)、复旦大学(1个)。 1、阿里(9个):编

2024-07-13

蚂蚁集团发布了开源项目 EchoMimic。据介绍,EchoMimic 不仅能根据人像面部特征和音频来帮人物对口型,还可以结合面部标志点和音频内容生成较为稳定、自然的视频。 GitHub:https://github.com/BadToBest/EchoMimic EchoMimic 具备较高

2024-07-02

蚂蚁区块链科技(上海)有限公司发生工商变更,注册资本由1亿人民币增至15亿人民币。该公司成立于2018年12月,由蚂蚁链(上海)数字科技有限公司全资持股。 此前,蚂蚁链(上海)数字科技有限公司也完成了一轮增资,

2025-07-30

蚂蚁集团 inclusionAI 团队发布了全面升级版的全模态模型 Ming-Lite-Omni v1.5,基于 Ling-lite-1.5 构建,总参数量为 203 亿(其中 MoE 部分活跃参数为 30 亿),在图像-文本理解、文档理解、视频理解、语音理解与合成、图像生成与编辑等

2025-03-27

蚂蚁数科在苏州举办的新能源数字资产社区春季峰会上,宣布正式推出能源电力时序大模型EnergyTS。 EnergyTS专为新能源行业定制,在光伏场景测评中,其发电量预测准确率显著超越谷歌(TimesFM-V2.0)和亚马逊(Chronos-Large)等国际主

2024-08-16

,产业与生态,源见未来。 在致辞环节,上海张江(集团)有限公司董事长袁涛指出,开源在全球范围内蓬勃发展,已成为推动科技创新的重要力量。目前张江科学城在科学人才集聚,科技成果的转化,产业创新发展等方面

2023-10-25

。 不过,对于此次故障原因,官方暂未作说明。 蚂蚁集团旗下的在线文档编辑与协同工具语雀出现服务器故障,在线文档、客户端和官网目前均无法打开。 官方微博回应称,语雀出现网络故障,导致无法访问,此故