🚀Xinference 0.14.0 发布:K8s 部署上线,模型加载新突破!


Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
 
Xinference 的功能和亮点有:

  • * 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
  • * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
  • * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
  • * ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
  • * 🌐 集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
  • * 🔌 开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。

🎉 Xinference 0.14.0发布!

基于helm 的 k8s 部署方式上线,模型加载现在可以指定 model path。

- 新增内置支持模型 📦
  - embedding模型 gte-Qwen2-7B-instruct 🧠

- 新功能 🚀
  - 官方支持基于helm的K8s集群安装方式,具体参考文档:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_kubernetes.html 📘
  - embedding模型支持多GPU部署 🖥️🔗
  - 重要:模型launch接口新增model_path参数。现在自定义模型推荐使用此种方式,如果需要注册与内置模型家族一致的自定义模型,强烈推荐直接launch接口传入model_path即可。分布式场景配合worker_ip即可。原来的注册模型方式在下一个大版本将迎来一定的重构 📂
  - sglang引擎调整为默认开启,不再需要配置环境变量 🔧
  - sglang引擎支持 llama3 和 qwen2 🦙
  - vllm和sglang支持 gemma2 和 llama3.1 💡
  - MLX引擎支持cache_limit_gb选项 📈
  - 图像模型支持image_to_image接口 🎨

- BUG修复 🐛
  - 修复 GLM chat相关问题 💬
  - 修复模型注册无法找到transformers引擎的问题 🔄
  - 修复docker镜像的启动问题 🐋
  - 修复gguf多part加载的问题 🛠️

- UI相关 💻
  - 修复用户切换model_format导致白屏的问题 🖥️


我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
 
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。

 

 

 


相關推薦

2024-08-15

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-06-23

Xinference v0.12.2 正式发布! 🎉v0.12.2 得益于社区的贡献,稳定性得到了极大提高 🙏 新功能 🚀   Qwen moe系列支持tool call 🔧   rerank模型支持输出usage,兼容Cohere API 📊 BUG修复 🐛   修复自定义rerank模型的问题

2024-07-10

🎉 Xinference v0.13.0 正式发布!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 和 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下: - 新增内置支持

2024-08-02

互联网安全大会上表示,截至目前,我国已经完成备案并上线,能为公众提供服务的生成式人工智能服务大模型已达180多个,注册用户已突破5.64亿。这一数据彰显了我国在生成式人工智能领域的快速发展和广泛应用。 中国工

2023-06-17

行业用户与伙伴带来人工智能框架的最新进展与系列重磅发布,包括18家AI顶尖企业、学会、高校与科研院所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启

2023-10-26

开放文心4.0开发权限申请在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/cha

2023-08-29

8 月 26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 版本说明 新增特性 构建版本、部署应用时的线程池可配置化; 优化特性 构建版本跳过单元测试; 解决问题 解决Vue应用详情页面报错的问题; 解决Lin

2024-04-19

关键核心技术和产品的突破,加快智能物联终端和工业云部署,提升面向制造业的算力供给运营管理能力,引导生态型企业加快打造具备全球竞争力的通用大模型,培育面向制造业场景的行业大模型,构建高水平工业数据库,激

2023-10-13

产品多半名称不同。 知名大模型:在全球范围内,已经发布了多款知名大模型,这些大模型在各个领域都取得了突破性的进展。 知名大模型应用:LLM 已经在多种应用场景中得到了应用,包括文本生成、机器翻译、问答、自

2023-07-12

克接手 Twitter 之后,流量就一直持续下降。而且在 Threads 发布前两天,马斯克还搞了一个谜之操作:临时上线“限流”机制。 根据 Threads 工程师的介绍,Threads 和 Instagram 一样采用 Django 作为 Web 服务器,所有性能密集型的任务

2022-08-07

DE v1.0版本(CLI Build v1.0.23.4650,Server Build v1.0.23.4646)已经发布,在超过4000 个 Builds 之后,我们终于发布了v1.0版本。当前的版本已经完成了企业级云原生CloudIDE的特性闭环,允许个人/团队/企业用户在Windows/Mac/Linux上使用VSCode/JetBra

2024-08-16

度)社区在线上举办了主题为“聚AI而生 大有不同”新品发布会,正式对外发布开源操作系统deepin V23,带来了全新DDE视界、 AI For OS、“如意玲珑”应用生态、“deepin IDE”集成开发环境等诸多重磅更新。 “在这20年的历程中,de

2023-07-18

CL 团队很高兴地宣布 KCL v0.5.0 新版本现在已经可用!本次发布为大家带来了三方面的重点更新:语言、工具链、社区集成 & 扩展支持。 使用功能更完善错误更少的 KCL 语言和 IDE 提升代码编写体验和效率 使用 KPM, KCL OpenAPI

2024-03-03

Dlink 1.0.0 已经发布,交互式的 FlinkSQL Studio 此版本更新内容包括: 升级说明 Dinky 1.0 是一个重构版本,对已有的功能进行重构,并新增了若干企业级功能,修复了 0.7 的一些局限性问题。 目前无法直接从 0.7 升级到 1.0。建议