🚀 Xinference 1.8.0 重磅更新！最强图片编辑+文心一言 4.5 来袭！

2025-07-24 發表於开源资讯

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。 Xinference 的功能和亮点有：

🌟 模型推理，轻而易举：大语言模型，语音识别模型，多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
⚡️ 前沿模型，应有尽有：框架内置众多中英文的前沿大语言模型，包括 baichuan，chatglm2 等，一键即可体验！内置模型列表还在快速更新中！
🖥 异构硬件，快如闪电：通过 ggml，同时使用你的 GPU 与 CPU 进行推理，降低延迟，提高吞吐！
⚙️ 接口调用，灵活多样：提供多种使用模型的接口，包括 OpenAI 兼容的 RESTful API（包括 Function Calling），RPC，命令行，web UI 等等。方便模型的管理与交互。
🌐 集群计算，分布协同：支持分布式部署，通过内置的资源调度器，让不同大小的模型按需调度到不同机器，充分使用集群资源。
🔌 开放生态，无缝对接：与流行的三方库无缝对接，包括 LangChain， LlamaIndex， Dify，以及 Chatbox。

🚀 Xinference v1.8.0 更新日志

⚠️ 重要提示

本次版本更新重构了 Xinference 模型缓存结构，这意味着：

之前已缓存的模型显示会失效，需要重新加载模型。
已经加载运行的模型不会重新下载，因为 Xinference 仅通过软链指向模型路径，底层权重文件未被删除。

✅ 本次亮点

🔍 Embedding 支持 llama.cpp 后端 * 向量检索和语义搜索场景中，llama.cpp 可直接作为高性能 embedding 引擎使用。
🎨 支持当前最强图片编辑模型 FLUX.1-Kontext-dev * 图片编辑与生成能力显著增强，带来更高质量和更自然的视觉效果。
🧠 新增文心一言 4.5 开源模型 ERNIE 和 GLM-4.1V-Thinking 模型支持 * 扩展多家前沿模型生态，思考链推理（Thinking）更智能。

🌐 社区版更新

📦 安装方式

pip 安装：pip install 'xinference==1.8.0'
Docker 使用：拉取最新版镜像，或在容器中使用 pip 更新

🆕 新模型支持

文心一言 4.5 开源模型 ERNIE
GLM-4.1V-Thinking
FLUX.1-Kontext-dev
Jina Embeddings V4 (jina-embeddings-v4)

✨ 新特性

Embedding：支持 llama.cpp 后端
SGLang：支持非流式工具调用（non-stream tool calling）

🛠 功能增强

固定 xllamacpp>=0.1.23 版本，增强稳定性
ModelScope 支持 Fish Speech 1.5

🐞 Bug 修复

无 GPU 时禁用 qwen3 embedding & rerank 的 flash_attn
修复 async_client 删除时错误
增加消息预处理，避免内容为空
FunASR 系列模型避免索引越界
修复无工具可选时 function call 输出丢失
修复 enable_thinking 下 reasoning_content 输出异常

🏢 企业版更新

发布 0.1.2 版本，增强 Prometheus 指标监控能力，max_tokens 默认支持最长 tokens。
修复多模态模型在 vLLM 与 Transformers 推理时的兼容问题，提升分布式部署稳定性。

我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持，也欢迎更多使用者和开发者参与体验和使用 Xinference。欢迎您在 https://github.com/xorbitsai/inference 给我们一个星标，这样你就可以在 GitHub 上及时收到每个新版本的通知。

🚀 Xinference 1.8.0 重磅更新！最强图片编辑+文心一言 4.5 来袭！

相關推薦

文心大模型 4.0 发布，较 GPT-4 毫不逊色

百度文心一言正式亮相

文心一言上线百度搜索、文档摘要、文本转视频等 5 个原生插件

📢Xinference v0.15.4 来袭！Audio 模型&Tool Call 功能大升级！

百度官宣类 ChatGPT 大模型新项目：文心一言

🚀 Xinference v1.4.0｜探索 Gemma-3与 DeepSeek-v3 强大功能！

曝国行版苹果 AI 渐近，阿里百度提供支持但分工不尽相同

因盗版“文心一言”App 泛滥，百度起诉苹果公司及相关开发者团队

清华报告：文心一言稳坐国内第一，超越 ChatGPT

【重磅来袭】JeecgBoot 里程碑 v3.8.0，AI 首版本发布

文心一言面向全社会开放

Xinference 1.8.1 震撼发布！GLM 4.5 & Qwen3 全系列模型一键体验

新华网大模型评测：文心一言多项第一

[重磅来袭] 功能强大的开源数据中台系统 DataCap 1.14.0 发布