Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral


法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。这款拥有2400万参数的轻量级模型,专为代理 AI 软件开发而设计,其性能甚至在特定基准测试中超越了许多参数高达数十亿的竞争对手,包括一些闭源模型。

与传统侧重于代码补全或独立函数生成的 LLM 不同,Devstral 经过优化,能够充当完整的软件工程代理。这意味着它可以理解跨文件的上下文,浏览大型代码库,并解决实际的软件开发问题。更重要的是,Devstral 基于宽松的 Apache2.0许可证发布,允许开发者和组织自由地部署、修改和商业化该模型。

Mistral AI 研究科学家 Baptiste Rozière 强调,他们希望为开发者社区提供一款可以在本地私下运行并根据需求修改的开源工具,Apache2.0协议赋予了用户极大的自由度。

基于 Codestral 的成功迭代

Devstral 是 Mistral 以代码为中心的模型系列 Codestral 的最新进展。Codestral 于2024年5月首次亮相,是一个拥有220亿参数、支持80多种编程语言的专业编码 LLM,并在代码生成和补全任务中表现出色。其快速迭代催生了基于 Mamba 架构的增强版 Codestral-Mamba 以及最新的 Codestral25.01,后者尤其受到 IDE 插件开发者和企业用户的青睐。Codestral 系列的成功为 Devstral 的诞生奠定了坚实的基础,使其能够从简单的代码补全扩展到完整的代理任务执行。

SWE 基准测试中表现惊艳

在 SWE-Bench Verified 基准测试中,Devstral 取得了46.8% 的优异成绩。SWE-Bench Verified 是一个包含500个真实 GitHub 问题的数据集,并经过人工验证以确保其正确性。这一成绩不仅领先于所有此前发布的开源模型,甚至超越了包括 GPT-4.1-mini 在内的多个闭源模型,领先幅度超过20个百分点。

Rozière 自豪地表示,Devstral 是迄今为止在 SWE-bench 验证和代码代理方面表现最佳的开源模型,并且令人惊讶的是,它仅有2400万参数,甚至可以在 MacBook 上本地运行。Mistral AI 开发者关系主管 Sophia Yang 博士也在社交媒体上指出,Devstral 在各种框架下的评估中都优于许多闭源替代方案。

Devstral 的卓越性能得益于对 Mistral Small3.1基础模型进行的强化学习和安全调整技术。Rozière 解释说,他们首先选择了一个强大的基础模型,然后利用专门的技术提升了其在 SWE-bench 上的表现。

不仅仅是代码生成,更是 AI 软件开发代理的基石

Devstral 的目标不仅仅是生成代码,更重要的是能够集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理框架中。这些框架使得 Devstral 能够与测试用例交互、导航源代码文件以及跨项目执行多步骤任务。Rozière 透露,Devstral 将与 OpenDevin 一同发布,后者为代码代理提供了一个脚手架,充当开发者模型的后端。

为了确保模型的可靠性,Mistral 在不同的代码库和内部工作流程中对 Devstral 进行了严格的测试,以避免过度拟合 SWE-bench 基准。他们仅使用来自非 SWE-bench 数据集的数据进行训练,并在不同的框架上验证了模型的性能。

高效部署与商业友好的开源许可

Devstral 紧凑的2400万参数架构使得开发者可以在本地轻松运行,无论是配备单个 RTX4090GPU 的机器,还是拥有32GB 内存的 Mac 电脑。这对于注重隐私保护和需要在边缘设备上部署的应用场景极具吸引力。Rozière 表示,该模型的目标用户包括热衷于本地和私有化操作的开发者和爱好者,他们甚至可以在没有互联网的环境中使用。

除了性能和可移植性之外,Devstral 的 Apache2.0许可证也为商业应用提供了极大的便利。该许可证允许无限制地使用、改编和分发,包括在专有产品中,这大大降低了企业采用的门槛。

Devstral 拥有128,000个 token 的上下文窗口,并使用包含131,000个词汇的铁拳分词器。它支持通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 等主流开源平台进行部署,并与 vLLM、Transformers 和 Mistral Inference 等库良好兼容。

API 与本地部署双管齐下

开发者可以通过 Mistral 的 Le Platforme API 访问 Devstral,模型名称为 devstral-small-2505,定价为每百万输入 token0.10美元,每百万输出 token0.30美元。对于希望本地部署的用户,对 OpenHands 等框架的支持可以实现与代码库和代理工作流的即时集成。Rozière 分享了他自己如何使用 Devstral 来完成更新软件包版本或修改标记化脚本等小型开发任务,并对其在代码中精确定位和修改的能力表示赞赏。

尽管 Devstral 目前以研究预览版的形式发布,但 Mistral 和 All Hands AI 已经着手开发功能更强大、规模更大的后续模型。Rozière 认为,小型模型和大型模型之间的差距正在迅速缩小,而 Devstral 等模型的出色表现已经能够与一些规模更大的竞争对手相媲美。

凭借其卓越的性能基准、宽松的开源许可和专为代理设计优化的特性,Devstral 不仅是一款强大的代码生成工具,更将成为构建自主软件工程系统的关键基础模型。


相關推薦

2025-05-30

Mistral AI 发布了其首款专门针对代码的嵌入模型 Codestral Embed。该模型在处理真实世界代码数据的检索用例时表现尤为出色,据称其性能显著优于市场上领先的代码嵌入器,包括 Voyage Code 3、Cohere Embed v4.0 以及 OpenAI 的大型嵌入

2024-07-18

法国人工智能初创公司 Mistral 以其强大的开源人工智能模型而闻名。今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,

2024-07-26

布最强开源大模型 Llama 3.1 后,法国 AI 初创公司 Mistral AI 也加入了竞争,今天发布了全新的旗舰开源模型 Mistral Large 2。 该模型拥有 1230 亿个参数,可在单个 H100 节点上以高吞吐量运行,在代码生成、数学、推理等方面

2025-04-15

,除了谷歌的Gemini系列模型之外,还支持Anthropic、Meta、Mistral AI、AI21 Labs、CAMB.AI、Qodo等200多个第三方开闭源模型。 ADK的亮点之一便是轻松开发复杂智能体,支持多层级结构组合的智能体实现复杂的协调和委派。开发者可以构建

2023-09-30

法国人工智能初创公司 Mistral AI 宣布推出其首款大语言模型 Mistral 7B 是一个,号称是迄今为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。 Mistral AI 是一个成立仅六个月的初创

2025-04-22

言模型:兼容Safetensor PyTorch格式的DeepSeek R1、Phi3、Qwen2、Mistral,以及GGUF格式的Llama3.1、Llama3.2,结合OpenVINO优化的TinyLlama、Mistral7B、Phi3mini和Phi3.5mini,提供高效的本地聊天与推理能力。 ComfyUI工作流:通过集成ComfyUI,AI Playground

2025-05-09

法国 AI 初创公司 Mistral 发布了新的 AI 模型 Mistral Medium 3,该模型注重效率,同时不影响性能。据介绍,在各项基准测试中,该模型性能达到或超过 Claude Sonnet 3.7 的 90%,而成本显著更低(每百万 token 输入 0.4 美元/输出 2 美元)

2025-03-20

Mistral AI 现已开源发布全新轻量级 AI 模型 Mistral Small 3.1。Mistral Small 3.1 能够处理文本和图像,参数仅为 240 亿。该模型提高了文本能力和多模态理解能力,并具备 128K 上下文窗口。 核心特性 轻量级部署:可在 单个 RTX 4090

2023-04-04

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用

2025-05-28

始创作者中,已有 11 人离职,其中多人加入了竞争对手 Mistral AI。 据介绍,Llama 创始团队的 14 名作者中,11 人已离开公司。这些离职者多为长期员工,他们的离开直接威胁到 Meta 在 AI 领域的创新能力。其中值得注意的是,Lla

2025-03-20

署和管理。 它支持多种先进的模型,如 LLaMA、DeepSeek、Mistral 等,并提供简单易用的界面和 API。Ollama 的特点包括轻量级设计、跨平台支持(Windows、Linux、macOS)、模型微调与自定义功能,以及高效的推理性能。 由于其便捷性

2025-05-17

bP 图像作为输入。 Meta Llama 4 Google Gemma 3 Qwen 2.5 VL Mistral Small 3.1 以及更多视觉模型 其他更新内容包括: 修复 Windows 上运行模型出现的空白终端窗口 修复 NVIDIA GPU 运行 Llama 4 的错误 优化 ollama

2024-08-01

要。 从国家到全球焦点:美国以外的法学硕士,例如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2- 72b -instruct,是该领域的新兴参与者,并且越来越受欢迎,代表了全球创建有效语言模型的努力。 改进空间:虽然 Google 的开

2024-03-14

本中删除,因为 Google 将在 6 个月后停止使用该机型。 Mistral AI 可重试的流式和非流式聊天客户端 函数调用 Mistral 应用程序的 Native compilation 函数调用改进 对函数调用进行了多项改进,并创建了一个示例程序。 Open