华为发布准万亿模型盘古 Ultra MoE


华为推出参数规模7180亿的新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。主要的架构和训练特性如下:

  • 超大规模和超高稀疏比:采用 256 个路由专家,每个 token 激活 8 个专家,模型总参数量 718B,激活量 39B。
  • MLA 注意力机制:引入 MLA(Multi-head Latent Attention),有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈,优于传统 GQA 方案。
  • MTP 多头扩展:采用单头 MTP 进行训练,后续复用 MTP 参数扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
  • Dropless 训练:采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题,并且提升训练的数据效率。
  • RL 训练:采用迭代难例挖掘与多能力项均衡的奖励函数,并参考 GRPO 算法,提升了模型的训练效率与最终推理性能。

华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上,华为首次披露在昇腾CloudMatrix 384超节点上,打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。

此外,近期发布的盘古Pro MoE大模型,在参数量为720亿,激活160亿参数量的情况下,在大模型榜单SuperCLUE的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。


相關推薦

2023-07-08

【中国,东莞,2023年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2023-07-22

华为云正式发布了旗下自动驾驶开发平台。 据介绍,该平台基于盘古大模型和 ModelArtsAI 开发生产线,提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力。 据称该平台目前已经在长安、

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2025-03-25

背景: 蚂蚁集团的 Ling 团队近日在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》的技术论文,介绍了他们研发的两款新型大语言模型:百灵轻量版(Ling-Lite)和

2024-07-24

牌。据中国信通院调查统计,阿里云、天翼云、移动云、华为云、腾讯云、联通云占据中国公有云 Iaas 市场份额前六;公有云 Paas 方面,阿里云、百度云、华为云、腾讯云、天翼云、移动云处于领先地位。 受生成式 AI和大模型

2023-09-23

世同堂,凭什么开发 30 岁就要被干掉? 2023年9月21日,华为全联接大会2023 “开源创新,共筑智能世界”论坛在上海前滩香格里拉酒店圆满落幕。在此次开源分论坛上,华为云开源业务总经理邓明昆进行了题为《开源协同创新

2024-07-05

7月4日,禅城区经济和科技促进局将携手华为云计算技术有限公司举办2024华为开发者大会(HDC 2024)佛山分会场活动,本次活动以“AI引领佛山智造,数聚禅城开拓创新”为主题。届时,来自产业研究领域的专家学者、优秀企业

2023-07-14

根据英国《金融时报》的报道,Meta 准备发布其人工智能模型 LLaMA 的商用版本,允许初创公司和企业在该技术的基础上构建定制软件。 此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候,Meta 面向研究人员和学

2024-05-18

面开放,其中pro版本是目前混元模型的效果最优版本,是万亿参数规模的32K长文模型。 延伸阅读:腾讯混元文生图模型全面开源

2025-04-11

系列基准测试中,Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。

2023-10-14

是开发者 Georgi Gerganov 用纯 C/C++ 代码实现的 LLaMA 模型推理开源项目。所谓推理,即是「给输入-跑模型-得输出」的模型运行过程。 最近 Georgi Gerganov 用搭载苹果 M2 Ultra 处理器的设备运行了一系列测试,其中包括并行运

2024-06-27

2024年6月21日下午,华为终端BG软件部总裁龚体先生在华为开发者大会主题演讲《鸿蒙原生应用,全新出发!》中向全球开发者介绍了华为自研仓颉编程语言,并发布了HarmonyOS NEXT仓颉语言开发者预览版。这是华为首次公开发布仓

2025-04-15

,成了蚂蚁AI牌桌上的门面人物。 就在上月,蚂蚁集团发布的最新研究论文,显示其推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模