MiniMax 发布开源混合架构推理模型 MiniMax-M1


MiniMax 宣布开源 MiniMax-M1 模型,据称是全球首款开放权重的大规模混合注意力推理模型。

开源地址:

https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

https://github.com/MiniMax-AI/MiniMax-M1

模型亮点:

  • 模型采用 MoE 与 lightning attention 相结合架构
  • 模型大小为456B ,单 token 激活参数为 45.9 B
  • M1 原生支持 100 万 token 的上下文长度
  • 包含 40K 和 80K 思维预算两个推理模型

该模型基于 MiniMax-Text-01 模型开发,采用了混合专家模型(MoE)架构并结合了闪电注意力机制。M1 的总参数量高达 4560 亿,每个词元激活 459 亿参数,原生支持 100 万词元的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。

其闪电注意力机制能高效扩展测试时计算,在生成 10 万词元时,M1 的浮点运算次数(FLOPs)仅为 DeepSeek R1 的 25%。这些特性使其特别适用于需要处理长输入和深度思考的复杂任务。


相關推薦

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾

2023-09-08

模型) 三家上海企业机构:商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型) 下面是 8 款 AI 大模型(及产品)的简介和链接: 百度(文心一言) 文心一言(英文名:ERNIE Bot)是

2025-03-29

参加 NVDIA GTC 2025 RWKV 社区项目动态 RWKV 端侧 APP 发布并开源 新项目:WorldRWKV(RWKV 多模态) 新项目:RWKV-TTS(RWKV 文本转音频) RWKV 学术研究动态 RWKV 学术研究包括 基于 RWKV 架构的新论文 或 RWKV 社区参加的学术研

2025-06-05

网(IIoT)与边缘计算深度融合的今天,NebulaFlow开源框架的发布标志着分布式AI推理技术迈入新阶段。本文深度解析该框架如何通过创新的数据流编排机制,在工业质检、设备预测性维护等场景中实现毫秒级响应,同时揭示其三层异

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问,并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示,用户可自行选择“标准”或“深度”两种模式,输入任务并交由MiniMax Agent执行。其

2025-04-25

继开源 Skywork-R1V 后,昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(简称 R1V 2.0) 。 公告称,Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度

2024-08-02

到默认采用动态图并可实现动静统一与训推一体的2.0版本发布,飞桨框架已经可以完美融合动态图的灵活性与静态图的高效性,并支持模型的混合并行训练;再到近日,为大模型时代而锤炼的3.0版本的正式出炉!飞桨正式开启了

2024-08-01

! 省流版本: RWKV 官方公告 RWKV-6-World 14B 模型已发布 RWKV 中文官网 rwkv.cn 正式上线 RWKV 社区新项目 RWKV RAG:一键式 RWKV RAG 本地搭建项目,实现了最小封装和极高的扩展性 RWKV-Keras:RWKV 的 Keras 实现,支持 RWKV 模

2025-06-19

MiniMax 宣布推出视频生成大模型 Hailuo 02,这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 MiniMax 放出的视频案例中,展现了喷火、钻火圈、连续后空翻、高空走钢丝等超高

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2025-03-26

优刻得云平台始终密切关注 AI 技术发展动态,在新版本发布后迅速响应,第一时间在模型服务平台UModelVerse上架DeepSeek-V3最新版本,为广大用户带来高效、便捷的模型推理体验。只需简单3步,用户便可以「API」的调用方式,轻

2025-05-16

预测模块可以将生成速度提高 1.8 倍。 低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相

2025-04-03

MiniMax Audio 正式发布了全新的 Speech-02 系列语音模型,支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入,即可轻松创建有声读物和播客,最多可输入 20 万个字符,支持 30 多种语言的音频生成,效果自然流畅。 S