PaddlePaddle 3.2.0 发布


飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。

  • 大模型训练方面,飞桨框架在计算、并行策略、容错能力三方面进行了升级:
    • 从基础计算性能层面,提出了存算重叠的稀疏掩码注意力计算FlashMask V3,极致优化Attention的计算效率,同时还实现了高效的FP8混合精度效果无损训练技术。
    • 在分布式并行策略层面,提出了动态自适应的显存卸载策略,实现存算最优均衡,再结合创新设计的显存友好的流水线并行调度,进一步降低显存开销。
    • 增强了框架原生的容错能力,实现了大规模集群训练容错系统,可在不影响训练效率的前提下在线监测静默数据损坏等难以察觉的故障,并实现了高可用的检查点容灾方法,降低中断恢复损失。
  • 在硬件适配方面,面向类CUDA芯片,全面升级插件式适配方案。
    • 在设备资源的管理调度和高性能集合通讯库方面,针对类CUDA芯片做了管理接口升级和通信能力的增强,特别增强了分布式通信能力,使XCCL对齐NCCL的各结构体和功能。
    • 新增了类CUDA算子注册机制。以沐曦适配为例,在复用GPU算子内核的基础上,仅需一行代码即可完成算子内核注册。经过统计计算,算子内核的复用率最高可以达到92%,可大幅降低硬件适配成本。
  • 使用体验方面,重点提升了兼容能力,包括开发接口兼容业界用法、safetensors模型格式兼容、和第三方高性能加速库的兼容。
    • 新增和修改开发接口兼容业界用法,新增系列API和别名,新增参数别名,新增专有和通用的参数。
    • 全面兼容 Safetensors 模型格式。新增 FlexCheckpoint 机制,支持跨分布式策略、跨模型结构间自动实现参数重切分,可显著降低权重转换成本,进而提升大模型端到端的训练与推理研发效率。
    • 系统性增强了接口兼容与算子注册能力,实现了高性能加速库一键导入,无需修改代码直接复用于飞桨的模型训练与推理加速过程中。

1. 用户体验

新特性

  • 新增API:paddle.msortpaddle.ravelpaddle.nn.functional.dropout1dpaddle.Tensor.type_aspaddle.Tensor.requires_gradpaddle.view_as_complexpaddle.view_as_realpaddle.nn.Parameterpaddle.broadcast_shapespaddle.rangepaddle.as_tensorpaddle.scatter_reduce/scatter_reduce_paddle.scatter_addpaddle.tensorpaddle.softmaxpaddle.Tensor.softmaxpaddle.rand_likepaddle.is_autocast_enabledpaddle.get_autocast_gpu_dtypepaddle.Tensor.repeatpaddle.permute。#74421,#74439,#74444,#74454,#74459,#74491、#74466,#74438,#74594,#74542,#74694,#74564,#74540,#74586,#74651,#74807,#74632,#74834,#74952,#74772,#74441,#74561,#74525
  • 新增paddle.compat.*一系列API,支持业界的通用用法,便于迁移代码,包括 paddle.compat.medianpaddle.compat.nanmedianpaddle.compat.softmaxpaddle.compat.sortpaddle.compat.splitpaddle.compat.min/maxpaddle.compat.Unfold。#74865,#74874
  • 新增初始化一系列API,支持业界通用的参数初始化方式,包括paddle.nn.init.kaiming_uniform_paddle.nn.init.xavier_uniform_paddle.nn.init.uniform_paddle.nn.init.kaiming_normal_paddle.nn.init.xavier_normal_paddle.nn.init.normal_paddle.nn.init.calculate_gainpaddle.nn.init.constant_paddle.nn.init.dirac_paddle.nn.init.eye_paddle.nn.init.ones_paddle.nn.init.orthogonal_paddle.nn.init.trunc_normal_paddle.nn.init.zeros_。#74478
  • API新增参数别名用法,例如既可以输入x,也可以输入input,用法更为灵活。包括 paddle.maximumpaddle.minimumpaddle.sqrtpaddle.topkpaddle.polarpaddle.stackpaddle.cospaddle.floorpaddle.logpaddle.powpaddle.rsqrtpaddle.signpaddle.sinpaddle.multiplypaddle.where等。#74683,#74795,#74887,#74592
  • paddle.Tensor新增支持多种初始化方式,支持灵活的创建Tensor。#74619,#75022,#75065
  • API新增一些专有参数,增强原有功能。包括 paddle.nn.functional.gelupaddle.divide/div/div_paddle.addpaddle.Tensor.copy_paddle.normpaddle.linalg.normpaddle.nn.functional.silupaddle.repeat_interleave。#74485,#74562,#74420,#74768,#74855,#74903,#74788,#74631,#74947
  • API新增一些通用参数:outdevicedtyperequires_gradpin_memorybias,增强原有功能。包括 paddle.zerospaddle.zeros_likepaddle.onespaddle.ones_likepaddle.arangepaddle.eyepaddle.emptypaddle.empty_likepaddle.fullpaddle.full_likepaddle.randnpaddle.Tensor.new_fullpaddle.Tensor.new_emptypaddle.Tensor.new_onespaddle.Tensor.new_zerospaddle.tril/triupaddle.bmmpaddle.nn.Conv1D/Conv2D/Conv3D/Embeddingpaddle.diffpaddle.cumsumpaddle.varpaddle.multinomialpaddle.mean等。#74477,#74526,#74711,#74582,#74624,#74849,#74612,#74875,#74641,#74949,#74918,#74914,#74934,#74920,#74955,#74226,#74946
  • API新增别名,支持更多调用方式。包括 paddle.Tensor.mul_/mulpaddle.autograd.Functionpaddle.argwherepaddle.catpaddle.clamppaddle.gerpaddle.take_along_dimpaddle.linalg.matmulpaddle.special.logsumexppaddle.concatenatepaddle.eq/gt、paddle.Tensor.take_along_dimpaddle.nn.Conv1d/Conv2d/Conv3d`等。#74493,#74569,#74870

Bug修复

  • 修复 paddle.nanmedian 精度问题。#74263
  • 修复 paddle.distributed.fleet.utils.hybrid_parallel_util.fused_allreduce_gradients 在0-D下的问题。#74957
  • 修复 paddle.matmul 在分布式下的问题。#74989

功能增强

  • 针对返回多个Tensor的情况,通过paddle数据结构来封装,优化体验。包括 paddle.topk。#74931
  • 创建类API支持size为可变参数的用法。#74494

文档

  • 新增或修复文档。#74453,#74846,#74982

其他

  • 代码风格相关的优化。#74654,#74655,#74665,#74660,#74667,#74664,#74662,#74661,#74658,#74657,#74666,#74659,#74663,#74656,#74673,#74672,#74671,#74674,#74675,#74670,#74669,#74677,#74709,#74714,#74712,#74713,#74704,#74746,#74748,#74743,#74742,#74744,#74745,#74747,#74794,#74789,#74793,#74786,#74791,#74787,#74827,#74608,#74288,#74287,#74385,#74395,#74475,#74647
  • MKLDNN/ONEDNN相关的优化。#74299,#74244,#74230,#74314,#74327,#74325,#74326,#74315,#74399,#74398,#74393,#74392,#74367,#74391,#74423,#74424,#74436,#74417,#74410,#74473,#74458,#74501,#74487,#74502,#74513,#74518,#74516,#74507,#74504,#74505,#74509,#74535,#74536,#74517,#74503,#74557,#74550,#74575,#74587,#74576,#74588,#74549,#74581,#74583,#74628,#74630,#74635,#74679,#74648,#74127,#74636,#74552,#74551,#74678,#74680,#74730,#74751,#74895,#74821,#74897,#74734
  • 代码实现相关的优化,变量与文件重命名。#74309,#74597,#74613,#74376,#74479,#74960,#74968,#74977
  • 单测相关的优化,单测问题修复。#74595
  • 编译相关的优化,CI问题修复。#74356,#74936
  • 优化调试与打印信息,优化报错信息。#74765,#74381,#74384,#74386,#74387,#74383,#74519,#74520,#74468
  • 自定义算子相关优化。#74402
  • 分布式FlexCheckpoint支持。#74966,#74593,#74785,#74814

2. 基础执行架构

新功能

  • 动态图支持。#74484
  • 支持 safetensors。#74642, #74609, #75049
  • 添加offloader优化计算效率。 #74837
  • 为 conv_transpose 前向计算添加 API 支持。 #74431
  • 添加offloader优化计算效率。 #74837
  • 推理部署增加了w4afp8量化推理,支持w4afp8量化权重纯排及all2all通信#74270

Bug修复

  • 核心框架与基础设施优化。#74336, #74554, #74634
  • 计算精度与类型处理。 #74278, #74222, #74830
  • 动态维度检查逻辑优化。 #74633, #74650
  • 内存与非法访问修复。 #74347, #73443, #74953
  • 修复报错/告警信息打印。 #74474, #74533, #74685, #74721, #74754
  • 代码质量与文档修正。 #74378, #74828
  • 修复 flashmask API 处理逻辑。 #74928
  • 修复动转静模式下切分CudaGraph子图未生效的问题。 (#74749)

功能增强

  • C++ 扩展开发。 #74338
  • FlexCP 功能优化。 #74752, #74981
  • 优化内存分配。#74463

废弃

  • 清理动转静旧 IR 相关单测。 #74698, #74715, #74718, #74782, #74962

其他

  • 更改补丁版本。 #74940

3. 分布式&自动并行

并行策略

在3.2版本中,对流水线并行功能进行了多项增强,包括实现了字典参数传递的支持,并扩展了Pipeline Layer和SharedLayerDesc对非流水线并行的兼容性;同时修复了多个关键问题,包括大尺寸张量的IPC API异常、流水线并行中的评估批次和非计算损失问题、MoE模型的梯度释放错误、PP场景下NCCL通信重建导致的hang问题,以及双流水线并行的event管理错误;此外还进行了多项性能优化,改进了双流水线并行的计算重叠效率以提升训练性能,并升级了clear_param_storage方法使其支持sharding模式下多color集合的清除和重置操作。

功能新增

  • 实现流水线并行(Pipeline Parallel)中字典参数传递的支持。#74574,#74867
  • Pipeline Layer 和 SharedLayerDesc 支持非流水线并行(nonpp parallel)。#74573

Bug 修复

  • 修复大尺寸张量的 IPC API 问题。#74472
  • 修复流水线并行中的评估批次(eval batch)及非计算损失(non-compute_loss)问题。#74170
  • 修复 MoE 模型上的梯度释放问题。#74972
  • 修复在pp的场景下重建NCCL comm存在hang的问题。#73625
  • 修复双流水线并行(dual pp)的event管理错误。#74158

优化改进

  • 优化双流水线并行的计算重叠(overlap)效率,提升训练性能。#74527
  • 升级clear_param_storage方法,支持sharding下多个color集合清除和重置。#74741

自动并行

功能改进

  • 支持分布式张量的同一维度被多个mesh维度切分时的默认切分推导规则。#74396
  • 改进 reshape 算子的切分推导规则,以支持分布式张量的同一维度被多个mesh维度切分的场景。#74352,#74579, #74565
  • 支持在不改变分布式张量数据的情况下改变张量的mesh。#74248

Bug 修复

  • 修复调用 ProcessMesh  get_group 方法时重复创建通信组的bug。#73099
  • 修复MoE场景下get_local_slices 方法的bug。#74705
  • 修复MoE场景下梯度裁剪的bug。#74916
  • 修复流水线并行场景下不同stage间无法传递stop_gradient参数的bug。#73459
  • 修复流水线并行场景下梯度裁剪的精度bug。#74409
  • 修复动态图流水线并行场景下产生冗余输出的bug。#74913
  • 修复算子moe_combinemoe_gate_dispatch在MoE场景下跑不通的bug。#74645

其他

  • 支持dataloader手动并行和自动并行的精度对齐。#73941
  • 优化动态图流水并行调度逻辑。#74720

通信库

在3.2版本中,修复了DeepEP支持sm90编译的一个报错,同时对DeepEP申请的显存分配添加了预分配功能,并升级了其intranode和internode计算kernel,进一步优化了性能和稳定性。

Bug修复

  • 修复DeepEP支持sm90 编译的一个报错。#74762

功能改进

  • 对DeepEP申请的显存分配添加预分配功能。#74465
  • 升级DeepEP的intranode和internode计算kernel。#74284

4. 算子机制

新特性

  • API 兼容性支持。 #74506, #74676, #74558, #74572, #74691, #74703, #74750, #74757, #74802, #74546, #74547, #74802, #74859, #74910, #74873, #74882, #74901, #74899, #74449
  • 新增 fused_partial_rope 算子。 #74577

Bug修复

  • 0-size Tensor 相关修复。 #74295, #74305, #74323, #74354
  • 大 Tensor 相关修复。 #74242, #74293, #74289, #74279, #74330, #74329, #74342, #74369, #74370, #74404, #74537, #74451, #74172, #74324, #74964, #74360, #74379, #74377, #74380, #74362, #74197
  • API 兼容性相关修复。 #74764, #74869, #74935
  • 【开源任务】Paddle CPU/GPU Kernel 精度问题推全。 #74149, #74598, #74719, #74625, #74555
  • 其他重要修复。 #74282, #74313, #74303, #74306, #74298, #74044, #74290, #74348, #74364, #74332, #74224, #74382, #74406, #74434, #74448, #74457, #74322, #74530, #74716, #74839, #74842, #74854, #74919, #74767, #75003

功能增强

  • API 兼容能力提升。 #74456, #74480, #74523, #74490, #74548, #74596, #74568, #74559, #74629, #74623, #74700, #74643, #74602, #74783, #74781, #74735, #74725, #74815, #74856, #74925, #74545, #74932, #74784
  • slice/stride 相关优化。 #74731, #74740, #74769, #74810, #74841, #74954, #74888, #74944, #74312, #74291, #74271, #74320, #74344, #74727, #74637
  • 算子优化与 CUDA 支持。 #74693, #74922, #74967
  • 改进调试信息、兼容性增强。 #74372, #74622
  • 算子功能扩展与优化。 #74790, #74979

性能优化

  • FP8 计算优化。 #74471, #74684, #74911
  • 基础算子性能优化。 #74442, #74638
  • 支持 fa3 变长序列反向计算并优化前向 API。 #73831
  • 新增 FlashMask V2 功能。 #74729

文档

  • 修复英文文档问题以及版权年份问题。 #74737

其他

  • 在XPU硬件上默认开启 WITH_XPU_FFT 选项。 #74699

5. 硬件适配

类CUDA硬件接入方案完善

  • 类CUDA硬件接入方案支持cuBlas kernel的复用 #74591,
  • 类CUDA硬件接入方案已知问题修复
    #74397, #74411, #74428, #74877, #74939

主仓单测支持多硬件

  • 单测支持多硬件 #74349, #74363,#74806, #74868, #74820, #74927

新增Custom Device API支持

  • 新增Custom Device API支持 #74308, #74371, #74539

6. 安装环境

Bug 修复

  • 修复flashattent编译缓存的bug。#74388
  • 修复site.USER_SITE为None的bug。 #74373
  • 修复多架构 Linux 系统下gtest的编译bug。 #74723
  • 修复在 WITH_GPU=ON 情况下 DEBUG 模式编译多个报错。 #74401
  • 修复Windows下CUDA12.6编译bug。 #74990
  • 修复api-benchmark基线流水线bug。 #74770
  • 修复api-benchmark基线流水线bug。 #74778
  • 修复api-benchmark基线流水线bug。 #74779
  • 修复api-benchmark基线流水线bug。 #74780
  • 修复api-benchmark基线流水线bug。 #74800
  • 修复api-benchmark基线流水线bug。 #74803

其他

  • 禁用test_custom_contiguous单测。 #74337
  • 支持录取slice 流水线基线任务定时触发。 #74419
  • 支持slice录基线添加手动指定pr。 #74445
  • 检查代码中是否带有中问题。 #74460
  • 支持CI PaddleX在XPU上的任务。 #74426
  • 支持slice流水线豁免机制。 #74482
  • 更新paddle基础镜像。 #73423
  • windows 固定ninja版本1.11。 #74590
  • 支持添加关闭pr取消CI。 #74604
  • 支持快速跳过所有CI。 #74696
  • 增加api-benchmark基线流水线。 #74690
  • 更新nccl版本。 #74809
  • 更新approve流水线RD名单。 #74838
  • 更新approve流水线RD名单。 #74902
  • 更新safetensor到镜像中。 #74904
  • 添加flashatten的编译flag。 #74959
  • 临时禁用win-inference流水线。 #74980
  • 支持windows编译phi动态库。 #74950

更新说明:https://github.com/PaddlePaddle/Paddle/releases/tag/v3.2.0


相關推薦

2025-08-22

PaddlePaddle 3.1.1 现已发布。3.1.1版本围绕大模型训练全流程进行了系统性强化,通过体系化修复大模型场景下算子数值精度和功能等底层稳定性问题,结合API的日志系统规范化与单元测试全覆盖,显著提升大模型训练的正确性和稳

2025-05-23

后续迭代与维护奠定基础。 更新说明:https://github.com/PaddlePaddle/PaddleOCR/releases/tag/v3.0.0

2023-12-05

发布openKylin AI框架安装助手,支持智能推荐、一键安装PaddlePaddle、PyTorch、TensorFlow三种框架,后续还将支持更多主流AI框架及其套件的安装。 02 openKylin with AI 上线智能语音助手,用户可通过语音下达指令,无须键

2024-07-05

型框架有Facebook的PyTorch,谷歌的TensorFlow,国内有百度的PaddlePaddle等。从2016年开始,作为世界范围内研发工业级通用深度学习框架的唯一创业团队,袁进辉带领的OneFlow团队推出了高性能分布式深度学习框架。 之所以敢挑战以大

2025-07-06

” 如今,Gitee 已收录了大量例如 OpenHarmony 、openEuler 、PaddlePaddle 等中国顶级且自主的开源项目,这些项目不仅是中国技术创新的结晶,同样也体现了中国开源生态的一个当前态势。对此,马越的看法是,目前我们国家的开源生

2023-03-02

I产业生态发展为愿景。 目前该项目已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国移动等深度合作,共同推进AI硬件评测建设。围绕FlagPerf,也将有更多厂商和团队加入共同贡献的大家庭。 项目地址:https://github.com/FlagOpen/Fl

2025-08-05

Apache Storm 2.8.2 现已发布。Apache Storm 是一个分布式的、容错的、高性能的实时计算系统,为数据的处理提供了有力的保障。 主要更新内容 将 org.codehaus.mojo:exec-maven-plugin 从 3.5.0 升级到 3.5.1 #8094 将 testcontainers.version 从 1.21

2023-07-22

Spring Boot 多个分支发布了更新,包括 3.2.0-M1、3.1.2、3.0.9 和 2.7.14。 3.2.0-M1 此版本包括 141 项增强功能、文档改进、依赖项升级和错误修复。值得注意的新功能包括: 在使用 Java 21 上时,初步支持虚拟线程 为 Spring Fr

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> Spring Boot 多个分支发布了更新,包括 3.2.0-M2、3.1.3、3.0.10 和 2.7.15。 3.2.0-M2 此版本包括 132 项增强功能、文档改进、依赖项升级和错误修复。值得注意的新功能包括: 改进在

2025-06-10

Apache Maven 3.9.10 现已发布。Apache Maven 是一个项目管理和构建工具。基于项目对象模型(POM)的概念, Maven 可以从中心位置管理项目的构建、报告和文档。 此版本更新内容如下: Bug [MNG-8096] - 不一致的依赖解析行为 并发多模

2023-08-27

京站,聊聊 AI 大模型与底层技术 >>> Spring Batch 多个分支发布了更新,包括: 5.1.0-M2, 5.0.3 和 4.3.9。 Spring Batch 是一个轻量级且功能全面的批处理框架,使用 Spring 和 Java 编写离线和批处理应用程序,旨在为开发对企业系统

2023-04-16

载均衡,以及服务自动注册和发现。Apache Dubbo 3.2.0 现已发布,这是 Dubbo 3 的全新版本,包括 REST、可观察性、GraalVM native image、JDK17 支持等…… 具体更新内容包括: Core Features Native REST protocol 支持(beta):Dubbo 现在

2025-05-22

国家网络与信息安全信息通报中心发布通告,经公安部计算机信息系统安全产品质量监督检验中心检测,在应用宝平台中发现35款移动应用存在违法违规收集使用个人信息的情况,其中涉及不少 AI 应用,如智谱清言、Kimi等。

2024-03-14

master Spring Boot 3.2 和 Spring Cloud 2023.0.0 JDK 17 主要发布分支 可使用,但 Spring Cloud Alibaba、Tencent 等生态组件尚未发布正式版本 develop Spring Boot 3.2 和 Spring Cloud 2023.0.0 JDK 17 Development 分支 新功能、ISSUE 均以此分支