开源机器学习框架 PyTorch 2.8 正式发布，提升量化 LLM 推理性能

2025-08-09 發表於开源资讯

PyTorch 2.8 已正式发布，重点在 Intel CPU 上大幅提升量化 LLM 推理性能，并实验性支持 Intel GPU 分布式后端。此外，还引入稳定的 libtorch ABI、实验性 wheel 变体机制、SYCL 与 XPU 优化、ROCm 与 CUTLASS 后端增强，以及更多控制流算子支持。

Intel CPU 上的量化 LLM 推理性能显著提升

PyTorch 2.8 强调在原生 PyTorch 框架下实现高性能的量化大语言模型（LLM）推理（支持 A16W8、DA8W8、A16W4 等模式）。据称其性能可达或超越 vLLM 等热门 LLM 服务框架在单 x86_64 CPU 离线模式下的表现。

此外，Intel 工程师还引入了 FP8 QCONV、FP8 QLINEAR，以及更广泛使用 AMX 微内核等优化，大幅提升性能。例如，在第 6 代 Intel Xeon 平台上，以 M＝8、K 和 32 核心为条件下运行 Llama-3.1-8B 模型时，端到端延迟最高可缩短 20% 以上。

对 Intel GPU 的 XCCL 分布式后端的实验支持

本次更新加入了 Intel 离散 GPU 的 XCCL 分布式后端的实验性支持，可用于不同训练范式。

其他重要变化

将 SYCL 支持引入 PyTorch C++ 扩展 API。
在 XPU 设备上加入 A16W4 模式支持。
实验性轮子（wheel）变体机制支持，方便平台依赖的包安装。
限定稳定的 libtorch ABI：为第三方 C++/CUDA 扩展提供了更稳定的接口，减少兼容性问题。
轮子变体机制（Wheel Variants）：允许针对硬件特性发布多个轮子版本，通过检测选择最佳匹配，实验性功能，目前可自动识别并安装最适合的 CUDA 平台包。
ROCm 支持增强：增加对 gfx950 架构的支持，结合 TorchInductor 和 AOTInductor 提供 matmul、addmm、conv2d、bmm、_scaled_mm 等内核的 max-autotune 模板。
控制流算子支持：新增 cond、while_loop、scan、associative_scan、map 等控制流操作，以加速模型编译和导出。
Inductor CUTLASS 后端支持：为 torch.compile 和 AOTInductor 提供 CUTLASS 后端支持，覆盖 GEMM、fp8 mm、addmm 和 bmm 操作。

PyTorch 2.8 下载地址：https://github.com/pytorch/pytorch/releases/tag/v2.8.0

开源机器学习框架 PyTorch 2.8 正式发布，提升量化 LLM 推理性能

相關推薦

🔥Xinference v1.4.1 重磅发布！分布式推理全面升级，AI 模型效率大幅提升

EasyCV 开源｜开箱即用的视觉自监督+Transformer算法库

InfoWorld 公布 2023 年最佳开源软件

Xinference 最新版本 v1.5.1 发布！🌟文生视频模型大升级，vLLM 功能增强！

字节跳动正式开源分布式训练调度框架 Primus

Alluxio AI 全新产品发布：无缝对接低成本对象存储 AI 训练解决方案

阿里云 PAIx 达摩院 GraphScope 开源基于 PyTorch 的 GPU 加速分布式 GNN 框架

Intel 开源专为本地生成式 AI 设计的 AI Playground

Meta 推出不限定 GPU 的 AI 框架

Web LLM：将语言模型聊天直接带到 Web 浏览器中

vLLM 发布 v0.9.1，支持更多模型、引入 llm-d 框架

🎁Xinference v0.16.0 正式发布！注册即送 500 积分，畅享云上推理新体验🎉

京东开源轻量化通用多智能体 JoyAgent-JDGenie，GAIA 准确率 75.15%

智源发布 RoboOS 2.0，支持 MCP 机制