小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生


今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。

在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

MiMo推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动,包括:

  • 预训练:核心是让模型见过更多推理模式

    • 数据:着重挖掘富推理语料,并合成约 200B tokens 推理数据。

    • 训练:进行了三阶段训练,逐步提升训练难度,总训练 25T tokens。

  • 后训练:核心是高效稳定的强化学习算法和框架

    • 算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练。

    • 框架:设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍。

MiMo-7B 已开源4个模型至 HuggingFace:https://huggingface.co/XiaomiMiMo

技术细节见技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


相關推薦

2025-05-15

状态均为等待实质审查。 Xiaomi MiMo 是小米首个推理(Reasoning)大模型,联动预训练到后训练,可全面提升推理能力,于2025年4月30日开源。 据介绍,MiMo 来自全新成立不久的「小米大模型Core团队」的初步尝试。在数学推理(

2025-05-13

心化节点,用最新的策略模型,从环境中收集推理轨迹(reasoning rollouts),并计算相应的奖励。 TOPLOC验证节点(TOPLOC Validators):负责高效验证无需授权的rollout工作节点的推理计算,打造无需信任的系统。 GRPO训练节点(G

2025-05-13

微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。 该方

2025-04-19

小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。 根据介绍,它不是一行一行地画,而

2025-05-07

!😊 我是Kimi,很兴见到你!有什么可以帮你的吗?", "reasoning_content": "用户说“你好”,这是一句简单的问候语,没有包含复杂的信息或需求。我判断用户可能只是想开启一段对话,或者测试我的反应能力。这种情况下,我的

2025-05-16

I 研究机构 Epoch AI 发布《推理模型能扩展多远(How far can reasoning models scale?)》报告,其中对推理模型的现状和未来作出了分析总结。 Epoch AI 通过各家开源的技术报告,来分析了目前推理模型的训练成本,同时也进一步总结,

2025-05-01

25 年 4 月 29 日,RWKV 基金会开源了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。 RWKV7-G1 1.5B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能

2025-05-22

25 年 5 月 20 日,RWKV 基金会开源了 RWKV7-G1 2.9B 推理模型(Reasoning Model)。 RWKV7-G1 2.9B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 2.9B 模型能够完成有难度的多语

2025-06-28

中国首个海洋领域开源大模型 OceanGPT(沧渊) 于日前在浙江杭州发布。 该大模型由海洋精准感知技术全国重点实验室(浙江大学)牵头研发,具备基础的海洋专业知识问答,以及声呐图像、海洋观测图等海洋特色多模态数据的自然

2025-06-24

网易有道宣布正式开源“子曰3”系列大模型的数学模型(英文名称Confucius3-Math),这是国内首个专注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。 据了解,Confucius3-Math 是由网易有道 AI 团队开发的140 亿参数开源

2025-07-08

通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。 该模型首次把多模态大模型的思维链推理引入音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的

2024-08-16

度)社区创始人 刘闻欢(deepin) 8月15日,国际知名开源社区deepin(深度)社区在线上举办了主题为“聚AI而生 大有不同”新品发布会,正式对外发布开源操作系统deepin V23,带来了全新DDE视界、 AI For OS、“如意玲珑”应用生

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2024-05-27

训练。 中国电信方面表示,星辰语音大模型是业内首个开源的、基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率大幅降低。 据中国电信方面透露,星辰语音大