Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
Xinference 的功能和亮点有:
- 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
- ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
- 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
- ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
- 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
- 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。
🚀 Xinference v1.6.1 更新日志
✅ 本次亮点
- 🧠 新增 Deepseek-R1-0528 及其蒸馏模型 Deepseek-R1-0528-Qwen3支持 Deepseek R1 最新版模型,语言理解与生成能力进一步增强。
- 🧩 Transformers 的视觉语言(VL)模型推理逻辑全面重构新架构支持 continuous batching,显著提升多模态模型在高并发场景下的处理效率。
- 🦙 llama.cpp 引擎支持 Auto NGL(自动分层部署)功能系统可自动判断每张显卡的显存大小,智能计算能加载进 GPU 的层数(NGL: n-gpu-layers),防止 OOM 错误,大幅提升大模型部署稳定性。🔗 参考文档:Auto NGL 说明
🌐 社区版更新
📦 安装方式
- pip 安装:pip install 'xinference==1.6.1'
- Docker 使用:拉取最新版镜像,或在容器中使用 pip 更新
🆕 新模型支持
- Deepseek-R1-0528
- Deepseek-R1-0528-Qwen3(Deepseek 蒸馏到 Qwen3 架构)
- Paraformer 系列语音模型(新增若干变体)
✨ 新特性
- llama.cpp 后端支持多模态推理(图文)
- llama.cpp 后端支持 Auto NGL 自动分层部署
- Web UI 支持常用参数提示与自定义参数输入框
- 支持 Deepseek-R1-0528 及其蒸馏模型
- 支持 Paraformer 系列新增语音模型
🛠 功能增强
- 修正 minicpm-reranker 的使用方式
- Speech2Text 接口支持额外参数透传
- kolors 支持使用 ModelScope 下载
- 移除 vLLM 后端限制,允许 GPU index 自定义
- Transformers 后端支持 HybridCache,提升 Gemma3 Chat 等模型推理效率
- chattts 模型支持虚拟环境(virtualenv)隔离部署
- 更新 flashinfer 版本
- 精简安装依赖配置(修复 setup.cfg)
🐞 Bug 修复
- 修复 jina-clip 模型输入参数问题
- 修复 UI 删除缓存文件时可能导致白屏的问题
- 忽略导入子模块时的测试文件
📚 文档更新
- 移除 llama-cpp-python 相关说明
- 丰富 cosyvoice-2.0 的流式能力说明
- 增加 Auto NGL 使用说明
- 优化模型能力文档结构
🏢 企业版更新
- 🧩 支持主从同步高可用架构提升在多节点部署场景下的稳定性与容错能力,保障核心业务连续性。
- 🎨 多项功能优化与界面提升包括多模态模型使用体验优化、更强的系统可观测性。
我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。