xinference 0.13.0 版本发布


🎉 Xinference v0.13.0 正式发布!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下:

- 新增内置支持模型 📦
 
- qwen2 gguf格式 📝
 
- gemma-2-it 💻

- 新功能 🚀
    - transformers推理后端支持开启continuous batching(连续批处理),优化LLM同时服务多请求的吞吐。支持generate / chat / vision任务,欢迎试用。详见:https://inference.readthedocs.io/zh-cn/latest/user_guide/continuous_batching.html 📊
    - 支持mac arm芯片平台下的高速推理引擎MLX
    - 官方GPU镜像以vllm镜像为基础进行重构。大幅减少镜像体积,要求宿主机cuda版本12.4+nvidia驱动版本550+。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html 🎥
    - 官方镜像支持从阿里云服务中拉取。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html ☁️
    -
新增更多日志模块。现在与请求相关的详细的uvicorn日志将被记录在日志文件中,同时transformersvllm在命令行和文件中也会有更详细的日志 📑

- BUG修复 🐛
 
- 修复glm4 tool call的问题 🔧
 
- 修复rerank接口curlpython客户端返回documents行为不一致的问题 📜
  - 更新glm4v模型的版本号,修复多GPU使用等若干问题。已下载的用户删除后重新下载即可 🔄
 
- 修复LLM为基础的rerank计算报错的问题 💡
 
- 修复deepseek-vl-chat模型缺少依赖的问题 🔗

- UI相关 💻
    -
优化鉴权模式下的使用体验 🔐


相關推薦

2024-09-25

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-10-24

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-10-16

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-10-04

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-08-15

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-08-07

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-06-23

Xinference v0.12.2 正式发布! 🎉v0.12.2 得益于社区的贡献,稳定性得到了极大提高 🙏 新功能 🚀   Qwen moe系列支持tool call 🔧   rerank模型支持输出usage,兼容Cohere API 📊 BUG修复 🐛   修复自定义rerank模型的问题

2024-10-01

语音识别、语音合成模型,支持对接阿里云百炼大模型、Xinference以及本地模型的重排模型。 X-Pack增强包方面,MaxKB v1.6专业版支持一键接入企业微信、钉钉、飞书和微信公众号;在外观设置方面,MaxKB支持自定义主题色和项目信

2022-08-13

定义的相关 API 的 POSIX 系统上,以及在 Windows Vista 和更高版本上,改进了针对 CVE-2022-21658 的 remove_all 保护 GIL:计划在 Boost 1.80 之后的一到两个版本中,将 C++17 作为最低要求的 C++ 语言版本 迭代器 对于 C++11 和更高版本

2022-11-04

act Starter 发布 0.1.6 🚀 Features 升级组件库依赖至0.42+ 版本 🐞 Bug Fixes 修复部分页面样式展示的缺陷 优化顶部菜单布局 详情见:https://github.com/Tencent/tdesign-react-starter/releases/tag/0.1.6

2023-05-05

当前版本涉及几个主要更新。       DataCap 已发布       发布版本 发布时间 1.9.0 2023-05-04 General¶ 支持 github packages 优化 docker 镜像发布流程 支持格

2024-09-27

最近,deepin 社区宣布了下一个版本的计划,但不少小伙伴心中都有一个疑问:为什么 deepin 23 后面没有 deepin 24 版本,而直接是 deepin 25?其实这是今年和开源社区部讨论后,确定的未来 deepin 社区版的发布策略而来的。 deepin 社

2023-07-13

V8.0.1版本 ThinkPHP V8.0版本正式发布以来,官方陆续修正了一些新版的问题并发布修正版本V8.0.1,后续ThinkPHP的版本号均会采用语义化版本策略。 主要更新 V8.0.1版本为修正版本,主要修正了: 修正php think optimize:schema指令当

2023-02-06

互式调整  X.Org 的现有视频模式。 为纪念上个 1.0.3 版本发布十年,Xvidtune 发布了 1.0.4 版本,其中包含过去十年中的所有补丁。 Xvidtune 1.0.4 由一大堆细小的变化组成,有一些构建系统的调整/修复,一些更新表明 Xvidtune 的