PyTorch 2.8 已正式发布,重点在 Intel CPU 上大幅提升量化 LLM 推理性能,并实验性支持 Intel GPU 分布式后端。 此外,还引入稳定的 libtorch ABI、实验性 wheel 变体机制、SYCL 与 XPU 优化、ROCm 与 CUTLASS 后端增强,以及更多控制流算子支持。
Intel CPU 上的量化 LLM 推理性能显著提升
PyTorch 2.8 强调在原生 PyTorch 框架下实现高性能的量化大语言模型(LLM)推理(支持 A16W8、DA8W8、A16W4 等模式)。据称其性能可达或超越 vLLM 等热门 LLM 服务框架在单 x86_64 CPU 离线模式下的表现。
此外,Intel 工程师还引入了 FP8 QCONV、FP8 QLINEAR,以及更广泛使用 AMX 微内核等优化,大幅提升性能。例如,在第 6 代 Intel Xeon 平台上,以 M=8、K 和 32 核心为条件下运行 Llama-3.1-8B 模型时,端到端延迟最高可缩短 20% 以上。
对 Intel GPU 的 XCCL 分布式后端的实验支持
本次更新加入了 Intel 离散 GPU 的 XCCL 分布式后端的实验性支持,可用于不同训练范式。
其他重要变化
-
将 SYCL 支持引入 PyTorch C++ 扩展 API。
-
在 XPU 设备上加入 A16W4 模式支持。
-
实验性轮子(wheel)变体机制支持,方便平台依赖的包安装。
-
限定稳定的 libtorch ABI:为第三方 C++/CUDA 扩展提供了更稳定的接口,减少兼容性问题。
-
轮子变体机制(Wheel Variants):允许针对硬件特性发布多个轮子版本,通过检测选择最佳匹配,实验性功能,目前可自动识别并安装最适合的 CUDA 平台包。
-
ROCm 支持增强:增加对 gfx950 架构的支持,结合 TorchInductor 和 AOTInductor 提供 matmul、addmm、conv2d、bmm、_scaled_mm 等内核的 max-autotune 模板。
-
控制流算子支持:新增 cond、while_loop、scan、associative_scan、map 等控制流操作,以加速模型编译和导出。
-
Inductor CUTLASS 后端支持:为 torch.compile 和 AOTInductor 提供 CUTLASS 后端支持,覆盖 GEMM、fp8 mm、addmm 和 bmm 操作。
PyTorch 2.8 下载地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0