小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生


今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。

在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

MiMo推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动,包括:

  • 预训练:核心是让模型见过更多推理模式

    • 数据:着重挖掘富推理语料,并合成约 200B tokens 推理数据。

    • 训练:进行了三阶段训练,逐步提升训练难度,总训练 25T tokens。

  • 后训练:核心是高效稳定的强化学习算法和框架

    • 算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练。

    • 框架:设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍。

MiMo-7B 已开源4个模型至 HuggingFace:https://huggingface.co/XiaomiMiMo

技术细节见技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


相關推薦

2025-05-01

25 年 4 月 29 日,RWKV 基金会开源了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。 RWKV7-G1 1.5B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能

2025-04-19

小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。 根据介绍,它不是一行一行地画,而

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2025-03-27

型是基于Mureka V6思维链的推理优化版本,也是全球范围内首个引入CoT的音乐模型,在推理过程中加入思考与自我批判,大幅提升音乐品质、音乐创作效率和灵活性。 Mureka V6和O1模式支持多元化的音乐创作风格及情感表达。曲风

2024-05-27

训练。 中国电信方面表示,星辰语音大模型是业内首个开源的、基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率大幅降低。 据中国电信方面透露,星辰语音大

2024-08-16

度)社区创始人 刘闻欢(deepin) 8月15日,国际知名开源社区deepin(深度)社区在线上举办了主题为“聚AI而生 大有不同”新品发布会,正式对外发布开源操作系统deepin V23,带来了全新DDE视界、 AI For OS、“如意玲珑”应用生

2024-08-02

架自动完成。 飞桨作为中国首个自主研发、功能丰富、开源开放的深度学习平台,从默认使用静态图的1.0版本,到默认采用动态图并可实现动静统一与训推一体的2.0版本发布,飞桨框架已经可以完美融合动态图的灵活性与静态

2023-10-18

布已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参与了本轮融资。加上天使轮的5000万美元,百川智能的融资金额已达3.5亿美元。 百川智能成立于2023年4月10日,由前搜狗公司CEO王

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。 摩尔线程AI团队在该工作中

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-11-04

大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落

2023-04-01

,是一个稳定可靠的组件库,我们希望将内部的优秀实践开源出来,服务于更广大的企业和个人开发者,另一方面技术在不断地进步,我们希望携手社区开发者一起探索新技术,不断扩展 OpenTiny 的能力边界,让更多开发者受益

2023-07-08

海”检测中解放出来。 在气象领域,盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型,同时预测速度也有大幅提升。原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c