豆包团队开源多语言代码修复基准 Multi-SWE-bench


字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。

据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

该数据集是业内首个面向多语言代码问题修复的大模型评测基准,覆盖 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 等编程语言。

  • 论文链接:https://arxiv.org/abs/2504.02605
  • 榜单链接:https://multi-swe-bench.github.io
  • 代码链接:https://github.com/multi-swe-bench/multi-swe-bench
  • 数据链接:https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  • 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  • 1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。


相關推薦

2024-08-11

anslate.service 使翻译接口要翻译的内容支持 body传入,以给豆包大模型的豆包翻译提供支持 translate.service 的企业级通道后端负载测速增加第二层守护线程,避免测速进程异常时导致 slb not find 的异常 在线体验 http://res.zvo.cn/tran

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标

2023-09-08

跳动旗下抖音的一款基于云雀大模型开发的 AI 机器人「豆包」开始小范围邀请测试。用户可通过手机号、抖音或者 Apple ID 登录。 「豆包」是此前字节内部代号为 “Grace” 的 AI 项目,目前拥有文生文、文生图的功能。进入默认

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵

2025-04-18

限,取得72.2分; 基于司南OpenCompass开源评测框架,研究团队对InternVL3进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准

2024-08-10

阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、

2025-03-28

。 为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合

2024-07-31

是一个开源免费的跨境电商系统,由具有十年电商经验的团队精心打造。采用最新的 Laravel 11 框架,提供灵活的插件扩展和主题定制。InnoShop 致力于全球电商技术的创新,支持多语言和多货币,为商家提供全面的技术解决方案,

2023-11-04

大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个中文及跨语言反向词典WantWords、名句语义检索系统WantQuotes、智能写作工具深言达意等。 根据介绍

2022-10-26

MyCms 是一款基于 Laravel 开发的开源免费的开源多语言商城CMS企业建站系统。 MyCms 基于 Apache2.0 开源协议发布,免费且可商业使用,欢迎持续关注我们。 V3.9 更新内容 新增:模板自定义配置 新增:读取模板配置函数 新增:模

2024-09-22

、阅读 Markdown 文档更实用,也更愉悦。 VLOOK™ 属于开源软件(遵从 MIT License),也是 OSCHINA 开源PHP 推荐的国产开源产品、Typora 的首个增强插件。   🎉 — What's NEW — 🎉 🎉「# 魔法」上新 提供4种图

2023-10-31

/Chinese-Web-Text-150B数据集  该数据集是根据昆仑天工团队方面经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为150B,目前开源最大的中文数据集之一。 一些

2023-03-02

入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工智能重大科技项目支持下,2023年

2023-05-30

DBCart 企业级开源 (多语言) 商城系统,使用 PHP 语言基于 Laminas + Doctrine 2 组合框架开发完成。可定制、多终端、多场景、多支付、多语言、多货币等特性。 严谨的安全机制,可靠稳定; 方便的操作管理,节约时间; 清晰