小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生


今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。

在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

MiMo推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动,包括:

  • 预训练:核心是让模型见过更多推理模式

    • 数据:着重挖掘富推理语料,并合成约 200B tokens 推理数据。

    • 训练:进行了三阶段训练,逐步提升训练难度,总训练 25T tokens。

  • 后训练:核心是高效稳定的强化学习算法和框架

    • 算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练。

    • 框架:设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍。

MiMo-7B 已开源4个模型至 HuggingFace:https://huggingface.co/XiaomiMiMo

技术细节见技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


相關推薦

2025-05-15

状态均为等待实质审查。 Xiaomi MiMo 是小米首个推理(Reasoning)大模型,联动预训练到后训练,可全面提升推理能力,于2025年4月30日开源。 据介绍,MiMo 来自全新成立不久的「小米大模型Core团队」的初步尝试。在数学推理(

2025-05-13

心化节点,用最新的策略模型,从环境中收集推理轨迹(reasoning rollouts),并计算相应的奖励。 TOPLOC验证节点(TOPLOC Validators):负责高效验证无需授权的rollout工作节点的推理计算,打造无需信任的系统。 GRPO训练节点(G

2025-05-13

微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。 该方

2025-04-19

小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。 根据介绍,它不是一行一行地画,而

2025-05-07

!😊 我是Kimi,很兴见到你!有什么可以帮你的吗?", "reasoning_content": "用户说“你好”,这是一句简单的问候语,没有包含复杂的信息或需求。我判断用户可能只是想开启一段对话,或者测试我的反应能力。这种情况下,我的

2025-05-16

I 研究机构 Epoch AI 发布《推理模型能扩展多远(How far can reasoning models scale?)》报告,其中对推理模型的现状和未来作出了分析总结。 Epoch AI 通过各家开源的技术报告,来分析了目前推理模型的训练成本,同时也进一步总结,

2025-05-01

25 年 4 月 29 日,RWKV 基金会开源了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。 RWKV7-G1 1.5B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能

2025-05-22

25 年 5 月 20 日,RWKV 基金会开源了 RWKV7-G1 2.9B 推理模型(Reasoning Model)。 RWKV7-G1 2.9B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 2.9B 模型能够完成有难度的多语

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2024-05-27

训练。 中国电信方面表示,星辰语音大模型是业内首个开源的、基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率大幅降低。 据中国电信方面透露,星辰语音大

2025-03-27

型是基于Mureka V6思维链的推理优化版本,也是全球范围内首个引入CoT的音乐模型,在推理过程中加入思考与自我批判,大幅提升音乐品质、音乐创作效率和灵活性。 Mureka V6和O1模式支持多元化的音乐创作风格及情感表达。曲风

2024-08-16

度)社区创始人 刘闻欢(deepin) 8月15日,国际知名开源社区deepin(深度)社区在线上举办了主题为“聚AI而生 大有不同”新品发布会,正式对外发布开源操作系统deepin V23,带来了全新DDE视界、 AI For OS、“如意玲珑”应用生

2024-08-02

架自动完成。 飞桨作为中国首个自主研发、功能丰富、开源开放的深度学习平台,从默认使用静态图的1.0版本,到默认采用动态图并可实现动静统一与训推一体的2.0版本发布,飞桨框架已经可以完美融合动态图的灵活性与静态

2023-10-18

布已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参与了本轮融资。加上天使轮的5000万美元,百川智能的融资金额已达3.5亿美元。 百川智能成立于2023年4月10日,由前搜狗公司CEO王