xinference 0.13.0 版本发布


🎉 Xinference v0.13.0 正式发布!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下:

- 新增内置支持模型 📦
 
- qwen2 gguf格式 📝
 
- gemma-2-it 💻

- 新功能 🚀
    - transformers推理后端支持开启continuous batching(连续批处理),优化LLM同时服务多请求的吞吐。支持generate / chat / vision任务,欢迎试用。详见:https://inference.readthedocs.io/zh-cn/latest/user_guide/continuous_batching.html 📊
    - 支持mac arm芯片平台下的高速推理引擎MLX
    - 官方GPU镜像以vllm镜像为基础进行重构。大幅减少镜像体积,要求宿主机cuda版本12.4+nvidia驱动版本550+。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html 🎥
    - 官方镜像支持从阿里云服务中拉取。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html ☁️
    -
新增更多日志模块。现在与请求相关的详细的uvicorn日志将被记录在日志文件中,同时transformersvllm在命令行和文件中也会有更详细的日志 📑

- BUG修复 🐛
 
- 修复glm4 tool call的问题 🔧
 
- 修复rerank接口curlpython客户端返回documents行为不一致的问题 📜
  - 更新glm4v模型的版本号,修复多GPU使用等若干问题。已下载的用户删除后重新下载即可 🔄
 
- 修复LLM为基础的rerank计算报错的问题 💡
 
- 修复deepseek-vl-chat模型缺少依赖的问题 🔗

- UI相关 💻
    -
优化鉴权模式下的使用体验 🔐


相關推薦

2024-08-15

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-08-07

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-06-23

Xinference v0.12.2 正式发布! 🎉v0.12.2 得益于社区的贡献,稳定性得到了极大提高 🙏 新功能 🚀   Qwen moe系列支持tool call 🔧   rerank模型支持输出usage,兼容Cohere API 📊 BUG修复 🐛   修复自定义rerank模型的问题

2022-08-13

定义的相关 API 的 POSIX 系统上,以及在 Windows Vista 和更高版本上,改进了针对 CVE-2022-21658 的 remove_all 保护 GIL:计划在 Boost 1.80 之后的一到两个版本中,将 C++17 作为最低要求的 C++ 语言版本 迭代器 对于 C++11 和更高版本

2022-11-04

act Starter 发布 0.1.6 🚀 Features 升级组件库依赖至0.42+ 版本 🐞 Bug Fixes 修复部分页面样式展示的缺陷 优化顶部菜单布局 详情见:https://github.com/Tencent/tdesign-react-starter/releases/tag/0.1.6

2023-05-05

当前版本涉及几个主要更新。       DataCap 已发布       发布版本 发布时间 1.9.0 2023-05-04 General¶ 支持 github packages 优化 docker 镜像发布流程 支持格

2023-07-13

V8.0.1版本 ThinkPHP V8.0版本正式发布以来,官方陆续修正了一些新版的问题并发布修正版本V8.0.1,后续ThinkPHP的版本号均会采用语义化版本策略。 主要更新 V8.0.1版本为修正版本,主要修正了: 修正php think optimize:schema指令当

2023-02-06

互式调整  X.Org 的现有视频模式。 为纪念上个 1.0.3 版本发布十年,Xvidtune 发布了 1.0.4 版本,其中包含过去十年中的所有补丁。 Xvidtune 1.0.4 由一大堆细小的变化组成,有一些构建系统的调整/修复,一些更新表明 Xvidtune 的

2023-02-17

的高级工具。 ClamAV 由思科和开源社区共同开发,第一个版本的 ClamAV 于 2002 年发布,在首次发布近 20 年后,ClamAV 1.0 于 2022 年 11 月底正式推出。 最新发布的是 ClamAV 0.103.8、0.105.2 和 1.0.1 补丁版本,更新内容包括: 1.0.1

2022-11-19

curl 7 的版本号已迭代到 7.86.0 —— 离发布 7.100.0 只差十多个版本,但 curl 作者 Daniel Stenberg 不希望在次版本号中使用三位数,因为他担心这会引发不必要的问题(可参考 Chrome 为发布 100 版本时所做的准备),甚至可能会

2023-02-11

V6.1.2版本主要增加了PHP8.2兼容以及ThinkORM3.0版本的支持。 主要更新 兼容PHP8.2 移除基础类中Filesystem申明属性 fix: container绑定参数时可变参数处理 File类增加setExtension方法设置保存文件的实际后缀名 ValidateRule注释调

2022-09-28

期与 Ubuntu 也保持一致,通常会在四月和十月发布一次新版本,而长期支持版本则是每两年发布一次。每个非 LTS 版本在下一版本发布后还将继续支持三个月,而 LTS 版本则是可以获得五年支持。 从 21.04 版本开始,Pop!_OS 就在系

2023-03-20

WoTerm v9.26.4 版本发布了,此版本带来如下修改 修正数据库备份的个别翻译错误问题。 增加历史访问菜单,方便直达目标。 增加SFTP的指定本地或远程路径功能。 增加SFTP的拖动文件进远程文件夹的上传功能。 安卓版本

2023-04-19

Spring Cloud Tencent 1.11 版本现已发布,支持 Spring Cloud 2022、2021、2020 版。 Spring Cloud Tencent 是腾讯开源的一站式微服务解决方案,实现了Spring Cloud 标准微服务 SPI,开发者可以基于 Spring Cloud Tencent 快速开发 Spring Cloud 云原生分布式应