华为在 WAIC 现场展示昇腾 384 超节点真机（Atlas 900 A3 SuperPoD）

2025-07-29 發表於开源资讯

华为在2025世界人工智能大会（WAIC）首次线下展出了昇腾384超节点真机，即Atlas 900 A3 SuperPoD。

该产品基于超节点架构，通过总线技术实现384个NPU之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

相比传统集群，主要有以下3大优势：

超大带宽：超节点内任意两个AI处理器之间通信带宽，相较于传统架构提升15倍，超节点内单跳时延降低10倍。
超低时延：昇腾超节点支持全局内存统一编址，具备更高效的内存语义通信能力。通过更低时延指令级内存语义通信，可满足大模型训练/推理中的小包通信需求，提升专家网络小包数据传输及离散随机访存通信效率。昇腾384超节点是业界唯一突破Decode时延15ms的方案，满足实时深度思考下的用户体验需求。
超强性能：经过实际测试，在昇腾超节点集群上，LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上，可以达到3倍以上的提升。

据了解，昇腾384超节点首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联，形成一台超级“AI服务器”，其算力总规模达300Pflops，是英伟达NVL72的1.7倍。

网络互联总带宽达269TB/s，比英伟达NVL72提升107%；内存总带宽达1229TB/s，比英伟达NVL72提升113%；单卡推理吞吐量跃升到2300 Tokens/s。

华为官方透露，目前业界已基于昇腾适配和开发超过80个大模型，在基础大模型方面多个技术方向均有积累，如讯飞星火认知、DeepSeek、Qwen、鹏城、LLaMA等。同时，昇腾联合2700 +行业合作伙伴，共同孵化了超过6000 +个行业解决方案。

相關推薦