Mistral AI 发布开源代码大模型 Codestral Mamba、数学大模型 Mathstral


法国人工智能初创公司 Mistral 以其强大的开源人工智能模型而闻名。今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,其基础是去年底由其他研究人员开发的名为 Mamba 的新架构。

Codestral Mamba:https://mistral.ai/news/codestral-mamba/

Mathstral:https://mistral.ai/news/mathstral/

Mamba 试图通过简化注意力机制来提高大多数领先 LLM 所使用的 Transformer 架构的效率。与更常见的基于 Transformer 的模型不同,基于 Mamba 的模型推理时间更快,上下文时间更长。 包括 AI21 在内的其他公司和开发者已经发布了基于 Mamba 的新人工智能模型。

现在,Mistral 的 Codestral Mamba 7B 采用了这种新架构,即使输入文本较长,也能提供快速的响应时间。Codestral Mamba 非常适合代码生产力使用案例,尤其是本地编码项目。

Mistral 对该模型进行了测试,该模型将在 Mistral 的 la Plateforme API 上免费使用,可处理多达 256000 个词元的输入,是 OpenAI 的 GPT-4o 的两倍。

在基准测试中,Mistral 显示 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。

开发人员可以从 GitHub 仓库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 License。

Mistral 声称,Codestral 早期版本的性能优于 CodeLlama 70B 和 DeepSeek Coder 33B 等其他代码生成器。

代码生成和编码助手已成为人工智能模型的广泛应用,GitHub 的 Copilot(由 OpenAI 提供支持)、亚马逊的 CodeWhisperer 和 Codenium 等平台越来越受欢迎。

Mistral 推出的第二个模型是Mathstral 7B,这是一个专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Numina 项目共同开发了 Mathstral。

Mathstral 的上下文窗口为 32K,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的性能超过了所有为数学推理设计的模型。它可以在推理计算时间更长的基准测试中取得 "明显更好的结果"。用户可以按原样使用,也可以对模型进行微调。

"Mathstral 是为特定目的构建模型时实现出色性能 / 速度权衡的又一范例,这也是我们在 la Plateforme 积极推广的开发理念,尤其是其新的微调功能,"Mistral 在一篇博文中说。

用户可以通过 Mistral's la Plataforme 和 HuggingFace 进入 Mathstral。

Mistral 公司倾向于在开源系统上提供模型,它一直在与 OpenAI 和 Anthropic 等其他人工智能开发商展开激烈竞争。最近,该公司获得了 6.4 亿美元的 B 轮融资,估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资。


相關推薦

2025-05-23

开源工具,Apache2.0协议赋予了用户极大的自由度。 基于 Codestral 的成功迭代 Devstral 是 Mistral 以代码为中心的模型系列 Codestral 的最新进展。Codestral 于2024年5月首次亮相,是一个拥有220亿参数、支持80多种编程语言的专业编码 LLM

2025-05-30

Mistral AI 发布了其首款专门针对代码的嵌入模型 Codestral Embed。该模型在处理真实世界代码数据的检索用例时表现尤为出色,据称其性能显著优于市场上领先的代码嵌入器,包括 Voyage Code 3、Cohere Embed v4.0 以及 OpenAI 的大型嵌入

2024-07-26

布最强开源大模型 Llama 3.1 后,法国 AI 初创公司 Mistral AI 也加入了竞争,今天发布了全新的旗舰开源模型 Mistral Large 2。 该模型拥有 1230 亿个参数,可在单个 H100 节点上以高吞吐量运行,在代码生成、数学、推理等方面

2023-09-30

法国人工智能初创公司 Mistral AI 宣布推出其首款大语言模型 Mistral 7B 是一个,号称是迄今为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。 Mistral AI 是一个成立仅六个月的初创

2024-08-01

要。 从国家到全球焦点:美国以外的法学硕士,例如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2- 72b -instruct,是该领域的新兴参与者,并且越来越受欢迎,代表了全球创建有效语言模型的努力。 改进空间:虽然 Google 的开

2025-03-20

署和管理。 它支持多种先进的模型,如 LLaMA、DeepSeek、Mistral 等,并提供简单易用的界面和 API。Ollama 的特点包括轻量级设计、跨平台支持(Windows、Linux、macOS)、模型微调与自定义功能,以及高效的推理性能。 由于其便捷性

2025-05-09

法国 AI 初创公司 Mistral 发布了新的 AI 模型 Mistral Medium 3,该模型注重效率,同时不影响性能。据介绍,在各项基准测试中,该模型性能达到或超过 Claude Sonnet 3.7 的 90%,而成本显著更低(每百万 token 输入 0.4 美元/输出 2 美元)

2025-04-15

,除了谷歌的Gemini系列模型之外,还支持Anthropic、Meta、Mistral AI、AI21 Labs、CAMB.AI、Qodo等200多个第三方开闭源模型。 ADK的亮点之一便是轻松开发复杂智能体,支持多层级结构组合的智能体实现复杂的协调和委派。开发者可以构建

2025-05-23

推出大规模、可漫游的3D场景生成模型。 腾讯重申拥抱开源,已实现图像、视频、3D、文本等全模态开源,未来将持续推出多尺寸模型并开源更多多模态基础模型及插件。 腾讯也正在推广其AI IDE“Genie IDE”,目前已开放预约

2025-05-17

bP 图像作为输入。 Meta Llama 4 Google Gemma 3 Qwen 2.5 VL Mistral Small 3.1 以及更多视觉模型 其他更新内容包括: 修复 Windows 上运行模型出现的空白终端窗口 修复 NVIDIA GPU 运行 Llama 4 的错误 优化 ollama

2025-03-20

Mistral AI 现已开源发布全新轻量级 AI 模型 Mistral Small 3.1。Mistral Small 3.1 能够处理文本和图像,参数仅为 240 亿。该模型提高了文本能力和多模态理解能力,并具备 128K 上下文窗口。 核心特性 轻量级部署:可在 单个 RTX 4090

2024-08-17

8月15日晚间,阿里巴巴集团发布最新季度业绩,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长。同时,阿里云利润大涨,经调整EBITA利润同比增长155%,单季

2023-11-10

个面向飞行器的流体力学大模型“秦岭・翱翔”现已正式发布。 秦岭・翱翔大模型是西工大流体力学智能化国际联合研究所携手华为 AI4Sci Lab 在国产开源流体计算软件风雷的基础上,依托昇腾 AI 澎湃算力及昇思 MindSpore AI 框

2025-05-16

AI 研究机构 Epoch AI 发布《推理模型能扩展多远(How far can reasoning models scale?)》报告,其中对推理模型的现状和未来作出了分析总结。 Epoch AI 通过各家开源的技术报告,来分析了目前推理模型的训练成本,同时也进一步总结,