MiniMax 发布开源混合架构推理模型 MiniMax-M1


MiniMax 宣布开源 MiniMax-M1 模型,据称是全球首款开放权重的大规模混合注意力推理模型。

开源地址:

https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

https://github.com/MiniMax-AI/MiniMax-M1

模型亮点:

  • 模型采用 MoE 与 lightning attention 相结合架构
  • 模型大小为456B ,单 token 激活参数为 45.9 B
  • M1 原生支持 100 万 token 的上下文长度
  • 包含 40K 和 80K 思维预算两个推理模型

该模型基于 MiniMax-Text-01 模型开发,采用了混合专家模型(MoE)架构并结合了闪电注意力机制。M1 的总参数量高达 4560 亿,每个词元激活 459 亿参数,原生支持 100 万词元的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。

其闪电注意力机制能高效扩展测试时计算,在生成 10 万词元时,M1 的浮点运算次数(FLOPs)仅为 DeepSeek R1 的 25%。这些特性使其特别适用于需要处理长输入和深度思考的复杂任务。


相關推薦

2025-07-17

近日有消息称,人工智能大模型企业 MiniMax 已接近完成新一轮近3亿美元的融资,当前汇率折合约21.52亿元人民币。 此轮融资完成后,该公司估值将超过40亿美元,约合286.96亿元人民币。根据现有公开资料,目前国内大模型企业

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾

2023-09-08

模型) 三家上海企业机构:商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型) 下面是 8 款 AI 大模型(及产品)的简介和链接: 百度(文心一言) 文心一言(英文名:ERNIE Bot)是

2025-03-29

参加 NVDIA GTC 2025 RWKV 社区项目动态 RWKV 端侧 APP 发布并开源 新项目:WorldRWKV(RWKV 多模态) 新项目:RWKV-TTS(RWKV 文本转音频) RWKV 学术研究动态 RWKV 学术研究包括 基于 RWKV 架构的新论文 或 RWKV 社区参加的学术研

2025-06-05

网(IIoT)与边缘计算深度融合的今天,NebulaFlow开源框架的发布标志着分布式AI推理技术迈入新阶段。本文深度解析该框架如何通过创新的数据流编排机制,在工业质检、设备预测性维护等场景中实现毫秒级响应,同时揭示其三层异

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合(MoE)架构,总参数规模达800亿,激活参数为130亿。 公告称,该模型在保持顶尖开源模型效果的同时,大幅降低了推理延迟与计算开销。对个

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2025-07-12

微软发布了一款专为受限环境设计、参数量仅为3.8B的轻量级开源模型Phi-4-mini-flash-reasoning,其在数学推理任务上表现出色,且吞吐量大幅提升。 Phi-4-mini-flash-reasoning专为在内存和计算资源受限的环境下执行高强度、多步骤的数

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问,并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示,用户可自行选择“标准”或“深度”两种模式,输入任务并交由MiniMax Agent执行。其

2025-07-17

万中国开发者基于NVIDIA平台创新,DeepSeek、阿里、腾讯、MiniMax、百度等领先模型在这里诞生并开源,推动全球AI发展。中国的开源AI已成为世界进步的催化剂,让每个国家、每个行业都有机会参与AI革命。 “十年内,工厂将由软

2025-04-25

继开源 Skywork-R1V 后,昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(简称 R1V 2.0) 。 公告称,Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度

2024-08-02

到默认采用动态图并可实现动静统一与训推一体的2.0版本发布,飞桨框架已经可以完美融合动态图的灵活性与静态图的高效性,并支持模型的混合并行训练;再到近日,为大模型时代而锤炼的3.0版本的正式出炉!飞桨正式开启了

2024-08-01

! 省流版本: RWKV 官方公告 RWKV-6-World 14B 模型已发布 RWKV 中文官网 rwkv.cn 正式上线 RWKV 社区新项目 RWKV RAG:一键式 RWKV RAG 本地搭建项目,实现了最小封装和极高的扩展性 RWKV-Keras:RWKV 的 Keras 实现,支持 RWKV 模

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B