Omni-Infer v0.2.0 已经发布，超大规模 MoE 模型推理加速技术

2025-08-07 發表於开源资讯

此版本更新内容包括：

v0.2.0

核心特性

支持vllm 0.8.3 release

其他优化

基于18P8-1D144@A3，Deepseek R1单卡Decode性能达到1920 TPS，TPOT<50ms

支持模型列表

模型	部署形态
DeepSeek-R1	PD分离
Qwen2.5系列	混布（TP>=1 DP=1）

详情查看：https://gitee.com/omniai/omniinfer/releases/v0.2.0

相關推薦

华为发布准万亿模型盘古 Ultra MoE

2025-05-31

训练的准万亿MoE模型。主要的架构和训练特性如下：超大规模和超高稀疏比：采用 256 个路由专家，每个 token 激活 8 个专家，模型总参数量 718B，激活量 39B。 MLA 注意力机制：引入 MLA（Multi-head Latent Attention），有效压缩 KV C

腾讯开源轻量级混元-A13B 模型

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合（MoE）架构，总参数规模达800亿，激活参数为130亿。公告称，该模型在保持顶尖开源模型效果的同时，大幅降低了推理延迟与计算开销。对个

国产开源推理引擎“赤兔”发布 v0.4 版本

2025-08-05

国产开源推理引擎“赤兔”发布了 v0.4 版本，大幅提升了一体机推理部署场景的性能和稳定性，适配昇腾、英伟达、沐曦、海光，支持 DeepSeek、Qwen、GLM、Kimi 等模型。 Chitu（赤兔）是由清华系 AI Infra 明星创企——清程极智

Qwen3 正式发布！模力方舟首发上线体验，昇腾算力全面适配

2025-04-30

2025年4月29日，Qwen家族新成员Qwen3正式发布，包含多种模型版本。 1. 模型类型与参数 MoE 模型：有Qwen3-235B-A22B（总参数2350亿，激活参数220亿）和Qwen3-30B-A3B（总参数300亿，激活参数30亿）。密集模型：包括Qwen3-32B、14B、8B、4B

MiniMax 发布开源混合架构推理模型 MiniMax-M1

2025-06-18

MiniMax 宣布开源 MiniMax-M1 模型，据称是全球首款开放权重的大规模混合注意力推理模型。开源地址： https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 https://github.com/MiniMax-AI/MiniMax-M1 模型亮点：模型采用 M

腾讯混元 TurboS 技术报告发布：560B 参数混合 Mamba 架构、自适应长短链融合

2025-05-23

年初，腾讯混元 TurboS “快思考模型”正式发布，作为业界首款大规模混合 Mamba-MoE 模型，其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训，以及后训练阶段引入长短思维链融合技术。近日，腾

PaddlePaddle 3.2.0 发布

2025-09-10

飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。大模型训练方面，飞桨框架在计算、并行策略、容错能力三方面进行了升级：从基础计算性能层面，提出了存算重叠

豆包 1.5 · 深度思考模型上线边缘大模型网关

2025-04-26

称在数学、代码、科学等专业领域推理任务中表现出色，已经达到或接近全球第一梯队水平；在创意写作等非推理任务中，模型也展示出优秀的泛化能力，能够胜任更广泛和复杂的使用场景。共包含两个版本，第一个主线版本是

DeepSeek 开源 DeepSeek-Prover-V2-671B

2025-05-01

DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型，专门针对形式化数学证明任务进行优化。新模型具有以下特点：模型规模巨大：参数量约为671B（671

小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生

2025-05-01

今天，小米开源首个为推理（Reasoning）而生的大模型「Xiaomi MiMo」，联动预训练到后训练，全面提升推理能力。在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推

全新高效模型架构！RWKV-7s 闪耀 WAIC

2025-07-30

首日，承接 RWKV-7 优势的 RWKV-7s 新型高效大模型架构正式发布。凭借其原创的 DeepEmbed 和 DeepEmbedAttention 技术，成为现场焦点并荣获WAIC“镇馆之宝-未来之星”称号。镇馆之宝｜WAIC 2025镇馆之宝及系列奖项名单公布 RWKV-7s 是 RNN+

蚂蚁集团副总裁、前基础大模型负责人徐鹏离职

2025-04-15

，成了蚂蚁AI牌桌上的门面人物。就在上月，蚂蚁集团发布的最新研究论文，显示其推出了两款不同规模的MoE大语言模型——百灵轻量版（Ling-Lite）与百灵增强版（Ling-Plus），前者参数规模为168亿（激活参数27.5亿），Plus基座模

首发！优刻得云平台上新 DeepSeek-V3-0324 模型

2025-03-26

优刻得云平台始终密切关注 AI 技术发展动态，在新版本发布后迅速响应，第一时间在模型服务平台UModelVerse上架DeepSeek-V3最新版本，为广大用户带来高效、便捷的模型推理体验。只需简单3步，用户便可以「API」的调用方式，轻

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。文章作