MiniMax 发布开源混合架构推理模型 MiniMax-M1

2025-06-18 發表於开源资讯

MiniMax 宣布开源 MiniMax-M1 模型，据称是全球首款开放权重的大规模混合注意力推理模型。

开源地址：

https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

https://github.com/MiniMax-AI/MiniMax-M1

模型亮点：

模型采用 MoE 与 lightning attention 相结合架构
模型大小为456B ，单 token 激活参数为 45.9 B
M1 原生支持 100 万 token 的上下文长度
包含 40K 和 80K 思维预算两个推理模型

该模型基于 MiniMax-Text-01 模型开发，采用了混合专家模型（MoE）架构并结合了闪电注意力机制。M1 的总参数量高达 4560 亿，每个词元激活 459 亿参数，原生支持 100 万词元的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。

其闪电注意力机制能高效扩展测试时计算，在生成 10 万词元时，M1 的浮点运算次数（FLOPs）仅为 DeepSeek R1 的 25%。这些特性使其特别适用于需要处理长输入和深度思考的复杂任务。

相關推薦

MiniMax 完成近 3 亿美元融资，估值超 40 亿美元

2025-07-17

近日有消息称，人工智能大模型企业 MiniMax 已接近完成新一轮近3亿美元的融资，当前汇率折合约21.52亿元人民币。此轮融资完成后，该公司估值将超过40亿美元，约合286.96亿元人民币。根据现有公开资料，目前国内大模型企业

腾讯混元 TurboS 技术报告发布：560B 参数混合 Mamba 架构、自适应长短链融合

2025-05-23

年初，腾讯混元 TurboS “快思考模型”正式发布，作为业界首款大规模混合 Mamba-MoE 模型，其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训，以及后训练阶段引入长短思维链融合技术。近日，腾

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

模型）三家上海企业机构：商汤（日日新大模型）、MiniMax（ABAB大模型）、上海人工智能实验室（书生通用大模型）下面是 8 款 AI 大模型（及产品）的简介和链接：百度（文心一言）文心一言（英文名：ERNIE Bot）是

Goose 起飞！RWKV 社区三月新增 14 篇学术论文和若干多模态项目

2025-03-29

参加 NVDIA GTC 2025 RWKV 社区项目动态 RWKV 端侧 APP 发布并开源新项目：WorldRWKV（RWKV 多模态）新项目：RWKV-TTS（RWKV 文本转音频） RWKV 学术研究动态 RWKV 学术研究包括基于 RWKV 架构的新论文或 RWKV 社区参加的学术研

OpenBMB 发布并开源 MiniCPM 4.1-8B

2025-09-09

OpenBMB 正式推出并开源 MiniCPM4.1-8B，这是首个开源的混合推理大语言模型，该模型通过系统性创新实现了端侧极致效率，支持深度推理模式与非推理模式一键切换。该系列在 8B 参数规模下通过模型架构、训练数据、训

NebulaFlow 重构边缘计算：分布式 AI 推理框架正式开源，低延迟赋能工业物联网

2025-06-05

网(IIoT)与边缘计算深度融合的今天，NebulaFlow开源框架的发布标志着分布式AI推理技术迈入新阶段。本文深度解析该框架如何通过创新的数据流编排机制，在工业质检、设备预测性维护等场景中实现毫秒级响应，同时揭示其三层异

腾讯开源轻量级混元-A13B 模型

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合（MoE）架构，总参数规模达800亿，激活参数为130亿。公告称，该模型在保持顶尖开源模型效果的同时，大幅降低了推理延迟与计算开销。对个

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。文章作

全新高效模型架构！RWKV-7s 闪耀 WAIC

2025-07-30

首日，承接 RWKV-7 优势的 RWKV-7s 新型高效大模型架构正式发布。凭借其原创的 DeepEmbed 和 DeepEmbedAttention 技术，成为现场焦点并荣获WAIC“镇馆之宝-未来之星”称号。镇馆之宝｜WAIC 2025镇馆之宝及系列奖项名单公布 RWKV-7s 是 RNN+

微软开源轻量级推理模型 Phi-4-mini-flash-reasoning

2025-07-12

微软发布了一款专为受限环境设计、参数量仅为3.8B的轻量级开源模型Phi-4-mini-flash-reasoning，其在数学推理任务上表现出色，且吞吐量大幅提升。 Phi-4-mini-flash-reasoning专为在内存和计算资源受限的环境下执行高强度、多步骤的数

英伟达研究团队发布混合架构语言模型 Jet-Nemotron

2025-08-29

英伟达研究团队发布了Jet-Nemotron，这是一个新一代的混合架构语言模型系列。该系列通过Post Neural Architecture Search (PostNAS)流程，在冻结预训练全注意力模型MLP权重的前提下，仅对注意力模块进行高效的设计探索，实现了与领先全

Minimax 正在内测 Agent 功能

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问，并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示，用户可自行选择“标准”或“深度”两种模式，输入任务并交由MiniMax Agent执行。其

黄仁勋演讲实录：夸赞“中国开源AI已成为世界进步催化剂”

2025-07-17

万中国开发者基于NVIDIA平台创新，DeepSeek、阿里、腾讯、MiniMax、百度等领先模型在这里诞生并开源，推动全球AI发展。中国的开源AI已成为世界进步的催化剂，让每个国家、每个行业都有机会参与AI革命。 “十年内，工厂将由软

Skywork-R1V 2.0 版本再开源，最强高考数理解题利器

2025-04-25

继开源 Skywork-R1V 后，昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0（简称 R1V 2.0) 。公告称，Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型，该多模态模型在高考理科难题的深度

熱門推薦