小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生

2025-05-01 發表於开源资讯

今天，小米开源首个为推理（Reasoning）而生的大模型「Xiaomi MiMo」，联动预训练到后训练，全面提升推理能力。

在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

MiMo推理能力的提升，由预训练和后训练阶段中数据和算法等多层面的创新联合驱动，包括：

预训练：核心是让模型见过更多推理模式
- 数据：着重挖掘富推理语料，并合成约 200B tokens 推理数据。
- 训练：进行了三阶段训练，逐步提升训练难度，总训练 25T tokens。
后训练：核心是高效稳定的强化学习算法和框架
- 算法：提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题，并引入 Easy Data Re-Sampling 策略，以稳定 RL 训练。
- 框架：设计了 Seamless Rollout 系统，使得 RL 训练加速 2.29 倍，验证加速 1.96 倍。

MiMo-7B 已开源4个模型至 HuggingFace：https://huggingface.co/XiaomiMiMo

技术细节见技术报告：https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

相關推薦

小米为旗下推理大模型「Xiaomi MiMo」申请商标

2025-05-15

状态均为等待实质审查。 Xiaomi MiMo 是小米首个推理（Reasoning）大模型，联动预训练到后训练，可全面提升推理能力，于2025年4月30日开源。据介绍，MiMo 来自全新成立不久的「小米大模型Core团队」的初步尝试。在数学推理（

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 320 亿参数模型

2025-05-13

心化节点，用最新的策略模型，从环境中收集推理轨迹（reasoning rollouts），并计算相应的奖励。 TOPLOC验证节点（TOPLOC Validators）：负责高效验证无需授权的rollout工作节点的推理计算，打造无需信任的系统。 GRPO训练节点（G

微软开源 Phi-4 系列小参数模型，推理能力媲美 DeepSeek

2025-05-13

微软开源了三个新版Phi-4小参数模型，分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型，为了提升其推理能力，微软通过监督微调和强化学习相结合的训练方法行了深度强化。该方

小红书开源多模态大模型 dots.vlm1

2025-08-08

测结果表明，dots.vlm1 在 MMMU、MathVision 和 OCR Reasoning 等多项基准测试中，达到了与 Gemini2.5Pro 和 Seed-VL1.5相当的水平。在复杂的图表推理、STEM 数学推理以及长尾细分场景识别等应用中，dots.vlm1展现出卓越的逻辑推

微软开源轻量级推理模型 Phi-4-mini-flash-reasoning

2025-07-12

环境设计、参数量仅为3.8B的轻量级开源模型Phi-4-mini-flash-reasoning，其在数学推理任务上表现出色，且吞吐量大幅提升。 Phi-4-mini-flash-reasoning专为在内存和计算资源受限的环境下执行高强度、多步骤的数学推理任务而设计。该模

小米大模型团队开源对角蛇形自回归图像生成方式

2025-04-19

小米大模型团队宣布，其最新提出了一种新的生成方法，即具有方向感知的对角蛇形（diagonal snake-likeorder）自回归图像生成方式（DAR）。目前，相关的论文、训练代码、模型权重已经开源。根据介绍，它不是一行一行地画，而

Kimi 长思考模型 API 正式发布

2025-05-07

！😊 我是Kimi，很兴见到你！有什么可以帮你的吗？", "reasoning_content": "用户说“你好”，这是一句简单的问候语，没有包含复杂的信息或需求。我判断用户可能只是想开启一段对话，或者测试我的反应能力。这种情况下，我的

AI 推理大模型或在一年内减缓增长

2025-05-16

I 研究机构 Epoch AI 发布《推理模型能扩展多远（How far can reasoning models scale?）》报告，其中对推理模型的现状和未来作出了分析总结。 Epoch AI 通过各家开源的技术报告，来分析了目前推理模型的训练成本，同时也进一步总结，

RWKV7-G1 1.5B 发布！全球语言推理模型，特别适合端侧手机运行

2025-05-01

25 年 4 月 29 日，RWKV 基金会开源了 RWKV7-G1 1.5B 推理模型（Reasoning Model）。 RWKV7-G1 1.5B 具备其它同尺寸模型不具备的推理能力和任务能力，同时还支持现实世界 100+ 种语言。在实际测试中，RWKV7-G1 1.5B 模型的推理逻辑性较强，能

RWKV7-G1 2.9B 推理模型开源发布，展示数学/代码/全球语言能力，已适配手机 App

2025-05-22

25 年 5 月 20 日，RWKV 基金会开源了 RWKV7-G1 2.9B 推理模型（Reasoning Model）。 RWKV7-G1 2.9B 具备其它同尺寸模型不具备的推理能力和任务能力，同时还支持现实世界 100+ 种语言。在实际测试中，RWKV7-G1 2.9B 模型能够完成有难度的多语

阿里通义开源多模态推理模型 HumanOmniV2

2025-07-10

确性和逻辑四个维度进行评估；以及基于GRPO（Generative Reasoning Policy Optimization）的优化训练方法。同时，团队还推出了一个名为IntentBench的评测基准，包含633个视频和2689个相关问题，HumanOmniV2在此基准上实现了69.33%的准确率

🚀 Xinference 1.8.0 重磅更新！最强图片编辑+文心一言 4.5 来袭！

2025-07-24

无工具可选时 function call 输出丢失修复 enable_thinking 下 reasoning_content 输出异常 🏢 企业版更新发布 0.1.2 版本，增强 Prometheus 指标监控能力，max_tokens 默认支持最长 tokens。修复多模态模型在 vLLM 与 Transformers 推理时的兼

昆仑万维开源 Skywork-R1V 3.0

2025-07-10

试中取得 59.7 分，在 VisuLogic 测试中取得 28.5 分。在 MME-Reasoning 中，Skywork-R1V 3.0更是获得 42.8 分的佳绩，超越了闭源模型Claude-4-Sonnet。数学推理：在权威数学评测基准MathVista、MathVerse和MathVision上，R1V 3.0分别取得了77.1分、5

中国首个海洋领域开源大模发布

2025-06-28

中国首个海洋领域开源大模型 OceanGPT(沧渊) 于日前在浙江杭州发布。该大模型由海洋精准感知技术全国重点实验室(浙江大学)牵头研发，具备基础的海洋专业知识问答，以及声呐图像、海洋观测图等海洋特色多模态数据的自然

熱門推薦