开源机器学习框架 PyTorch 2.8 正式发布,提升量化 LLM 推理性能


PyTorch 2.8 已正式发布,重点在 Intel CPU 上大幅提升量化 LLM 推理性能,并实验性支持 Intel GPU 分布式后端。 此外,还引入稳定的 libtorch ABI、实验性 wheel 变体机制、SYCL 与 XPU 优化、ROCm 与 CUTLASS 后端增强,以及更多控制流算子支持。

Intel CPU 上的量化 LLM 推理性能显著提升

PyTorch 2.8 强调在原生 PyTorch 框架下实现高性能的量化大语言模型(LLM)推理(支持 A16W8、DA8W8、A16W4 等模式)。据称其性能可达或超越 vLLM 等热门 LLM 服务框架在单 x86_64 CPU 离线模式下的表现。

此外,Intel 工程师还引入了 FP8 QCONV、FP8 QLINEAR,以及更广泛使用 AMX 微内核等优化,大幅提升性能。例如,在第 6 代 Intel Xeon 平台上,以 M=8、K 和 32 核心为条件下运行 Llama-3.1-8B 模型时,端到端延迟最高可缩短 20% 以上。

对 Intel GPU 的 XCCL 分布式后端的实验支持

本次更新加入了 Intel 离散 GPU 的 XCCL 分布式后端的实验性支持,可用于不同训练范式。

其他重要变化

  • 将 SYCL 支持引入 PyTorch C++ 扩展 API。

  • 在 XPU 设备上加入 A16W4 模式支持。

  • 实验性轮子(wheel)变体机制支持,方便平台依赖的包安装。

  • 限定稳定的 libtorch ABI:为第三方 C++/CUDA 扩展提供了更稳定的接口,减少兼容性问题。

  • 轮子变体机制(Wheel Variants):允许针对硬件特性发布多个轮子版本,通过检测选择最佳匹配,实验性功能,目前可自动识别并安装最适合的 CUDA 平台包。

  • ROCm 支持增强:增加对 gfx950 架构的支持,结合 TorchInductor 和 AOTInductor 提供 matmul、addmm、conv2d、bmm、_scaled_mm 等内核的 max-autotune 模板。

  • 控制流算子支持:新增 cond、while_loop、scan、associative_scan、map 等控制流操作,以加速模型编译和导出。

  • Inductor CUTLASS 后端支持:为 torch.compile 和 AOTInductor 提供 CUTLASS 后端支持,覆盖 GEMM、fp8 mm、addmm 和 bmm 操作。

PyTorch 2.8 下载地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0


相關推薦

2025-04-09

法生效的 bug 🏗 修复 _ModelWrapper 未继承 nn.Module 导致的 PyTorch 类型错误 ⚡ 修复 LLM 流式输出问题,提升交互体验! 🏢 企业版更新 🚀 昇腾芯片优化,推理更高效! 🖥 界面优化,日志展示更直观! 我们感谢每一

2022-09-08

深入了解。 二 什么是EasyCV EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了

2023-10-26

InfoWorld 公布了 2023 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源

2025-05-08

Ping 的时间,防止意外的 :ping: chunk 导致客户端错误 🧠 PyTorch 格式模型不再内置 4-bit / 8-bit 量化选项,改为支持更灵活的 bitsandbytes 动态量化,未来将扩展支持更多格式 🧩 所有引擎支持 chat_template_kwargs 参数 🔊 音频模型能

2023-04-27

少存在某些问题,如与固定的机器学习框架( Tensorflow,Pytorch )耦合需要写明例如 PS、Worker 等角色,容错和弹性调度支持不友好,不支持异构调度,调度语义较为简单,不支持文件读取等。   将算法工程师从此类繁重

2023-10-21

型服务工作,从而实现最大速度和最优成本。例如,将 PyTorch 作为训练和服务引擎, Amazon S3 为现有数据湖: 模型训练:当用户训练模型时,PyTorch 数据加载器从虚拟本地路径/mnt/alluxio_fuse/training_datasets 加载数据集。数据加载

2023-06-15

学习平台 PAI 团队和达摩院 GraphScope 团队联合推出了面向 PyTorch 的 GPU 加速分布式 GNN 框架 GraphLearn-for-PyTorch(GLT) 。GLT 利用 GPU 的强大并行计算性能来加速图采样,并利用 UVA 来减少顶点和边特征的转换和拷贝。对于大规模图,GLT

2025-04-22

辨率与细节上表现出色。 大型语言模型:兼容Safetensor PyTorch格式的DeepSeek R1、Phi3、Qwen2、Mistral,以及GGUF格式的Llama3.1、Llama3.2,结合OpenVINO优化的TinyLlama、Mistral7B、Phi3mini和Phi3.5mini,提供高效的本地聊天与推理能力。 ComfyUI工

2022-10-09

欢迎任何有兴趣的芯片供应商能够为它做出贡献。” 与 PyTorch 中的 Eager 模式相比,Meta 使用 AIT 在 Nvidia A100 AI GPU 上实现了高达 12 倍的性能提升,在 AMD M1250 GPU 上实现了高达 4 倍的性能提升。 Meta 主导的 AIT 在概念与 SYCL 十

2025-06-18

伯克利分校 Sky Computing 实验室开发,现已成为社区驱动的开源项目,为 LLM 推理和服务提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理,并能与工业级 LLM 基础设施集成。 以下是 vLLM v0.9.1 一些主要的更新内容

2023-04-17

最近的发展如火如荼,LLaMA、Alpaca、Vicuna 和 Dolly 等相继开源。但这些模型通常很大且计算量很大。要构建聊天服务的话,需要一个大型集群来运行推理服务器,同时客户端向服务器发送请求并检索推理输出,且通常还必须在特

2024-10-24

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2025-07-22

AIbase 从网络信息获悉,京东正式开源了一款产品级端到端通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中以75.15%的准确率超越OWL、OpenManus等竞品,位居行业前列。 GAIA基准领跑,性能卓越 JoyAgent-JDGenie在GAIA基准测试中表现亮

2025-06-07

大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,并全面开源,包括框架代码、模型权重、数据集与评测基准。 跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署