Omni-Infer v0.2.0 已经发布,超大规模 MoE 模型推理加速技术


Omni-Infer v0.2.0 已经发布,超大规模 MoE 模型推理加速技术

此版本更新内容包括:

v0.2.0

核心特性

  • 支持vllm 0.8.3 release

其他优化

  • 基于18P8-1D144@A3,Deepseek R1单卡Decode性能达到1920 TPS,TPOT<50ms

支持模型列表

模型 部署形态
DeepSeek-R1 PD分离
Qwen2.5系列 混布(TP>=1 DP=1)

详情查看:https://gitee.com/omniai/omniinfer/releases/v0.2.0


相關推薦

2025-05-31

训练的准万亿MoE模型。主要的架构和训练特性如下: 超大规模和超高稀疏比:采用 256 个路由专家,每个 token 激活 8 个专家,模型总参数量 718B,激活量 39B。 MLA 注意力机制:引入 MLA(Multi-head Latent Attention),有效压缩 KV C

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合(MoE)架构,总参数规模达800亿,激活参数为130亿。 公告称,该模型在保持顶尖开源模型效果的同时,大幅降低了推理延迟与计算开销。对个

2025-08-05

国产开源推理引擎“赤兔”发布了 v0.4 版本,大幅提升了一体机推理部署场景的性能和稳定性,适配昇腾、英伟达、沐曦、海光,支持 DeepSeek、Qwen、GLM、Kimi 等模型。 Chitu(赤兔)是由清华系 AI Infra 明星创企——清程极智

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2025-06-18

MiniMax 宣布开源 MiniMax-M1 模型,据称是全球首款开放权重的大规模混合注意力推理模型。 开源地址: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 https://github.com/MiniMax-AI/MiniMax-M1 模型亮点: 模型采用 M

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾

2025-04-26

称在数学、代码、科学等专业领域推理任务中表现出色,已经达到或接近全球第一梯队水平;在创意写作等非推理任务中,模型也展示出优秀的泛化能力,能够胜任更广泛和复杂的使用场景。共包含两个版本,第一个主线版本是

2025-05-01

DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。 新模型具有以下特点: 模型规模巨大:参数量约为671B(671

2025-05-01

今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推

2025-07-30

首日,承接 RWKV-7 优势的 RWKV-7s 新型高效大模型架构正式发布。凭借其原创的 DeepEmbed 和 DeepEmbedAttention 技术,成为现场焦点并 荣获WAIC“镇馆之宝-未来之星”称号。 镇馆之宝|WAIC 2025镇馆之宝及系列奖项名单公布 RWKV-7s 是 RNN+

2025-04-15

,成了蚂蚁AI牌桌上的门面人物。 就在上月,蚂蚁集团发布的最新研究论文,显示其推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模

2025-03-26

优刻得云平台始终密切关注 AI 技术发展动态,在新版本发布后迅速响应,第一时间在模型服务平台UModelVerse上架DeepSeek-V3最新版本,为广大用户带来高效、便捷的模型推理体验。只需简单3步,用户便可以「API」的调用方式,轻

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2025-07-29

通信能力。通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。昇腾384超节点是业界唯一突破Decode时延15ms的方案,满足实时深度思考下的用户体