Mistral AI 发布 73 亿参数模型，“碾压” Llama 2 13B

2023-09-30 發表於开源资讯

法国人工智能初创公司 Mistral AI 宣布推出其首款大语言模型 Mistral 7B 是一个，号称是迄今为止同规模产品中最强大的语言模型；在 Apache-2.0 许可下开源，可完全免费使用，不受任何限制。

Mistral AI 是一个成立仅六个月的初创公司，于 6 月份筹集了 1.18 亿美元的巨额种子轮资金，据称是欧洲历史上最大的种子轮融资。Mistral 7B 是一个拥有 73 亿参数的模型。该公司声称在涵盖一系列任务的基准测试中，Mistral 7B 的表现均显著优于 Llama 2 7B 和 13B，并且与 Llama 34B 相当。

在涵盖数学、美国历史、计算机科学、法律等 57 个科目的大规模多任务语言理解 (MMLU) 测试中，Mistral 7B 模型的准确率为 60.1%，Llama 2 7B 和 13B 的准确率略高于分别为 44.4% 和 55.6%。

在常识推理和阅读理解测试中，Mistral 7B 的准确率也超过了两个 Llama 模型。在世界知识测试中，Llama 2 13B 与 Mistral 7B 不相上下，Mistral 称这可能是由于模型的参数数量有限，限制了它可以压缩的知识量。

唯一 Llama 2 13B 和 Mistral 7B 不相上下的领域则是世界知识测试，Mistral 声称“这可能是由于 Mistral 7B 的参数数量有限，从而限制了其可压缩的知识量。”

在编码任务方面，虽然 Mistral 称 Mistral 7B 的性能大为提高；但基准测试结果表明，它仍然没有超过经过微调的 CodeLlama 7B。在 0-shot Humaneval 和 3-shot MBPP 测试中，CodeLlama 7B 的准确率分别为 31.1% 和 52.5%，Mistral 7B 则分别为 30.5% 和 47.5%。

Mistral AI 表示，Mistral 7B 使用了 Grouped-query attention (GQA) 实现更快的推理，并使用 Sliding Window Attention (SWA) 以较小的成本处理更长的序列。

“Mistral 7B 采用了 SWA，其中每一层都关注先前的 4096 个隐藏状态。主要改进以及最初研究的原因是 O(sliding_window.seq_len) 的线性计算成本。在实际应用中，对 FlashAttention 和 xFormers 所做的更改使得在序列长度为 16k 且窗口为 4k 的情况下，速度提高了 2 倍。”

此外，该公司还计划在这项工作的基础上发布一个更大的模型，能够更好地推理并支持多种语言，预计将于 2024 年亮相。

更多详情可查看官方公告。

Mistral AI 发布 73 亿参数模型，“碾压” Llama 2 13B

相關推薦

Mistral AI 发布 1230 亿参数 Large 2 大模型 —— 狙击 Llama 3.1

Meta 开源基于 Llama 2 的 AI 代码生成大模型：Code Llama

法国 AI 初创公司 Mistral AI 发布新模型 Mistral Medium 3

OpenBuddy 发布基于 Llama 2 的新一代跨语言对话模型，开源可商用

Meta 将发布商用版 LLaMA

Mistral AI 发布 Devstral2507 系列

ChatGPT 参数规模很可能只有 7B（70 亿）

Mistral 推出首个推理模型系列 Magistral

Meta Llama 团队多名顶尖研究成员已出走

法国 AI 初创公司 Mistral 将发布推理模型 Magistral

Mistral AI 发布开源代码大模型 Codestral Mamba、数学大模型 Mathstral

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

Mistral 重返开源阵营：发布超高效代码 AI 模型 Devstral

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1