OpenBMB 发布并开源 MiniCPM 4.1-8B


OpenBMB 正式推出并开源 MiniCPM4.1-8B,这是首个开源的混合推理大语言模型,该模型通过系统性创新实现了端侧极致效率,支持深度推理模式与非推理模式一键切换。

该系列在 8B 参数规模下通过模型架构、训练数据、训练算法和推理系统四个维度的系统性创新,实现端侧极致效率。

模型亮点

  • 首个原生稀疏架构的深思考模型,通过可训练稀疏注意力创新,代码、数学推理等任务的推理速度比同尺寸开源模型快 3 倍以上
  • 知识、推理、编程、指令遵循等 15 个评测基准,取得综合平均分同尺寸模型第一
  • 支持高效双频换挡:长文本用稀疏,短文本用稠密
  • 端侧友好,在 128K 长文本场景下,MiniCPM 4.1 相较于 Qwen3-8B 仅需 25% 的缓存存储空间

MiniCPM4.1-8B 采用 InfLLM v2 可训练稀疏注意力机制,在 128K 长文本场景下每个 token 仅与不到 5% 的 token 计算相关性,显著降低长文本计算开销;原生支持 65,536 token 上下文,通过 LongRoPE 可扩展至 131,072 token。

目前,模型已在 Github、Hugging Face、魔搭社区开源

🔗Github:https://github.com/OpenBMB/MiniCPM
🔗Hugging Face: https://huggingface.co/openbmb/MiniCPM4.1-8B
🔗ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM4.1-8B


相關推薦

2025-06-20

OpenBMB推出了CPM.cu,这是一个轻量级且高效的开源CUDA推理框架,专为端侧大型语言模型(LLMs)的部署而设计,并为MiniCPM4提供优化,核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括: 集成了InfLLM v

2024-08-08

。 MiniCPM-V 2.6 开源地址: GitHub: https://github.com/OpenBMB/MiniCPM-V HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6

2025-07-12

建议运行内存 32GB 及以上 下载地址:https://github.com/OpenBMB/MiniCPM/releases/tag/2.4.2

2025-04-24

OpenBMB 开源社区宣布推出代码 Agent 新成员「卷姬」,官方介绍其能够「高效获取有价值的内容」。 具体来看,用户只需要在「卷姬」官网输入想要提取的内容,便可在等待后获取到综述报告。而「卷姬」拥有两种处理模式:

2025-06-09

正式发布并开源了「面壁小钢炮」端侧系列最新力作——MiniCPM 4.0 模型,实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作,实现了长短文本多重推理效率的提升,端侧AI PC在Day

2025-05-15

码、数据和技术报告。 ➤ 开源仓库:https://github.com/OpenBMB/AgentCPM-GUI 包含 SFT 训练代码、RFT 训练代码、评测脚本、中文 Grounding Benchmark、中文 Agent Benchmark

2024-10-24

。详细请联系 📞 @李鹏 🆕 主要更新内容 1. 🎥 支持 minicpm base64 格式视频解析 2. 🚀 默认开启 SGLANG 引擎 3. 🔧 暴露删除运行实例的接口,便于处理数据不一致 4. 🛠️ 修复运行实例列表的一致性问题 5. 在社区版 v0.16.0 正式

2024-10-04

* embedding模型:jina-embedding-v3     * Rerank 模型:minicpm-reranker * 🚀 新功能     * sd图像模型支持deepcache集成,提升推理速度2x+     * internvl支持多image chat * 🐛 BUG修复     * 优化vllm引擎自动

2024-08-15

频模型类别和视频模型 CogVideoX 🎥   - 多模态模型:MiniCPM-v-2_6 🌐   - SenseVoice 语音模型 🎤 - 新功能 🚀   - 大幅提升 sglang 引擎的性能和吞吐 ⚡   - 分布式下允许先启动 worker 再启动 supervisor 🖥️🔄 - BUG 修复

2025-06-19

Deepseek-R1-0528 混合量化版 Qwen3 Embedding Qwen3-Reranker MiniCPM4 系列 SeACoParaformer(语音识别) ✨ 新特性 图像生成:新增 CogView4 模型支持 Embedding 模型支持指定运行引擎(如 vLLM) Qwen3 Embedding 模型支持 Qwen3 Reranker 模

2025-06-05

支持 Paraformer 系列新增语音模型 🛠 功能增强 修正 minicpm-reranker 的使用方式 Speech2Text 接口支持额外参数透传 kolors 支持使用 ModelScope 下载 移除 vLLM 后端限制,允许 GPU index 自定义 Transformers 后端支持 HybridCache,提升 Ge

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3,分别针对语音识别与翻译以及高吞吐量转录场景,均支持商用。 Canary-1b-v2拥有10亿参数,支持25种欧洲语言的自动语音识别(ASR)与双向语音翻

2025-07-15

入价格(缓存未命中)4 元 输出价格 16 元 详情查看发布公告。

2022-12-16

这个全新的 Foundation 框架将于 2023 年开源,并在 GitHub 上发布。