Xinference 0.14.1发布:文生视频 CogVideoX 等新功能齐上阵!


Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
 
Xinference 的功能和亮点有:

  • * 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
  • * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
  • * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
  • * ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
  • * 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
  • * 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。

Xinference 0.14.1

🎉 Xinference 0.14.1 发布,全新的文生视频 CogVideoX 支持登场!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。

由FLUX.1生成的图片

图一、图二:由FLUX.1-dev生成

- 新增内置支持模型 📦
  - flux.1-schnell 和 flux.1-dev 🌟
  - llama-3.1-instruct 405B 🦙
  - kolors 图像模型 🎨
  - 新增视频模型类别和视频模型 CogVideoX 🎥
  - 多模态模型:MiniCPM-v-2_6 🌐
  - SenseVoice 语音模型 🎤

- 新功能 🚀
  - 大幅提升 sglang 引擎的性能和吞吐 ⚡
  - 分布式下允许先启动 worker 再启动 supervisor 🖥️🔄

- BUG 修复 🐛
  - 优化 vllm stop 逻辑,解决某些情况下 vllm 引擎停止后资源不释放的问题 🛠️
  - 修复自定义 embedding 的 launch 问题 🔧
  - 优化 500 内部错误的错误信息展示 📝

- UI 相关 💻
  - 修复 launch 页面 model_path 选项带来的问题 🛠️

- 即将废弃 ⏳
  - v0.15.0 中,Xinference 内置客户端 chat 接口即将废弃 prompt, system_prompt 和 chat_history 参数,改为使用 messages 参数,与 OpenAI 形式保持一致 💬


我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
 
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。


相關推薦

2024-10-24

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-08-08

任意文图生成视频。现在,智谱宣布正式开源清影模型 CogVideoX。 CogVideoX开源模型包含多个不同尺寸大小的模型,此次开源的是 CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味着单张4090显卡即可进

2024-09-25

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-10-16

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2023-10-26

开放文心4.0开发权限申请在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/cha

2024-10-04

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-03-02

提供更多发展空间。 大语言模型ChatGPT的热潮还未退去,文生视频大模型Sora又惊艳亮相,推动通用人工智能技术的“车轮”滚滚向前。ChatGPT和Sora都证明,人工智能所孕育的颠覆性技术和前沿技术,有望成为新一轮科技革命与产

2024-08-07

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-07-10

🎉 Xinference v0.13.0 正式发布!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 和 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下: - 新增内置支持

2024-06-23

Xinference v0.12.2 正式发布! 🎉v0.12.2 得益于社区的贡献,稳定性得到了极大提高 🙏 新功能 🚀   Qwen moe系列支持tool call 🔧   rerank模型支持输出usage,兼容Cohere API 📊 BUG修复 🐛   修复自定义rerank模型的问题

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2024-10-22

于KolourPaint画图工具和VISION视觉大模型,开发实现了智能文生图功能。那么,当传统的画图应用遇上先进的AI文生图技术,会碰撞出怎样的火花呢? 01智能生成,创意无限 在openKylin 2.0版本中,画图工具利用先进的自然语言处理

2024-07-07

高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolor

2024-05-18

型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S版主要部署在手机端,拥有3B参数量; M版主要部署在PC端,参数量为5B;