Omni-Infer v0.2.0 已经发布,超大规模 MoE 模型推理加速技术
此版本更新内容包括:
v0.2.0
核心特性
- 支持vllm 0.8.3 release
其他优化
- 基于18P8-1D144@A3,Deepseek R1单卡Decode性能达到1920 TPS,TPOT<50ms
支持模型列表
模型 | 部署形态 |
---|---|
DeepSeek-R1 | PD分离 |
Qwen2.5系列 | 混布(TP>=1 DP=1) |
详情查看:https://gitee.com/omniai/omniinfer/releases/v0.2.0