DeepSeek 采用 UE8M0 FP8 标准:华为积极适配、彻底和英伟达决裂了


深度求索近日正式对外发布 DeepSeek-V3.1,官方提到 DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。

在 DeepSeek 官方公众号文章页面,DeepSeek 进一步解释称:UE8M0 FP8 是针对即将发布的下一代国产芯片设计

FP 英文全称为 Floating Point,是 IEEE 定义的标准浮点数类型。UE8M0 FP8 在 AI 模型领域代表一种模型精度。

人工智能领域的企业家与技术专家、清华大学计算机系人工智能所博士梁斌表示,UE8M0 FP8 和英伟达的 FP8 是两个东西,两套标准。

DeepSeek 这次为什么非要强调 UE8M0 FP8 呢?这个和英伟达的 FP8 是两个东西,两套标准,正式决裂。

显存的发展是有限的,而模型的发展是快速的,对每个参数的表达必须通过量化进行压缩,FP36 就是 36 位表达一个参数,FP8 就是 8 位表达一个参数,在可接受的范围内,肯定是越低的表达,在显存里面能装下更多的参数。而就是 FP8 有英伟达的 E4M3 / E5M2 方案和 DS 的这个 UE8M0 方案,主要区别就是前者有 3-2 位的小数表达,后者没有小数表达。

前者精度好,后者功耗低,运算快,对芯片要求低。

现在 DeepSeek 这么搞,加上国产芯片都向这个标准靠拢,这是彻底和英伟达决裂了,以后其他推理模型,要么选择 DS 这套体系,要么选择英伟达体系,国内芯片公司也积极向这套体系靠拢。

现在华为他们那边真是为了适配这个标准,真是玩命干,干成了就是名垂千古,多大诱惑,而且我发现 DeepSeek 还真是有胆量,真是把国产大模型的发展推到了一个牛逼的高度上去,太了不起了。

来源:https://weibo.com/1497035431/Q1sKDAvWF


相關推薦

2025-08-22

深度求索官方今日正式对外发布 DeepSeek-V3.1,官方提到 DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。 在 DeepSeek 官方公众号文章页面,DeepSeek 进一步解释称:UE8M0 FP8 是针对即将发布的下一代国产芯片设计。 FP 英文全称为 Flo

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-08-05

性能和稳定性,适配昇腾、英伟达、沐曦、海光,支持 DeepSeek、Qwen、GLM、Kimi 等模型。 Chitu(赤兔)是由清华系 AI Infra 明星创企——清程极智联合清华大学团队发布的开源项目。赤兔定位于「生产级大模型推理引擎」,充

2025-07-29

性能可达传统集群的2.5倍以上。在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上,可以达到3倍以上的提升。 据了解,昇腾384超节点首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服

2023-11-10

商最快将在这几天拿到产品。 NVIDIA H100 Tensor Core GPU 采用全新 Hopper 架构,基于台积电 N4 工艺,集成了 800 亿个晶体管。与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。 它配备第四代 Tensor Core 和 Transformer

2025-07-24

改进。 H20 是英伟达针对中国市场推出的 H100 简化版,采用 Hopper 架构和 CoWoS 封装技术,但性能差距明显。周鸿祎分析,H20 更适合 AI 推理任务,而推理对芯片要求较低,无需高速互联和集群部署。在此领域,国产芯片性价比

2025-05-01

DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。 新模型具有以下特点: 模型规模巨大:参数量约为671B(671

2025-06-10

单的全球开源冠军、国产模型冠军。 Qwen3推理成本仅为DeepSeek R1三分之一,在产业链上下游引发新浪潮,吸引包括英伟达、英特尔、ARM、联发科、AMD 等多家头部芯片厂商,北上津杭等十余地算力平台,以及华为昇腾、百度千帆

2025-04-18

周三报道称,特朗普政府正在考虑对中国人工智能实验室DeepSeek实施新的限制,限制其购买英伟达的人工智能芯片,并可能禁止美国人访问其人工智能服务。 这些限制是特朗普政府在人工智能领域与中国竞争的举措之一。在Dee

2024-09-28

行智能预警,使宕机率降低 60%;在智能能效管理方面,采用独有的 “MPC 模型预测控制”,节能效果显著提升 5%;此外,在软件工程能力方面,为伙伴和开发者提供了一站式开发平台 “BMC Studio”,实现 “拖、拉、拽” 式的应

2024-10-31

公司强调了 RISC-V 的多功能性。英伟达的重点是这一开放标准如何支持强大 GPU 的开发,并为更广泛的应用打开大门。 到目前为止,英伟达已经开发了至少三个 RISC-V 微控制器核心:NV-RISCV32(RV32I-MU,按序单发射核心)、NV-RISCV64

2025-07-17

勋表示,目前已有150多万中国开发者基于NVIDIA平台创新,DeepSeek、阿里、腾讯、MiniMax、百度等领先模型在这里诞生并开源,推动全球AI发展。中国的开源AI已成为世界进步的催化剂,让每个国家、每个行业都有机会参与AI革命。

2025-06-28

根据《The Information》的报道,DeepSeek 工程师在过去几个月一直致力于完善 R2 模型,但梁文锋对 R2 现在的性能还不满意,工程师团队仍在全力优化和打磨,发布时间待定。梁文峰要求模型达到更出色的结果才批准发布。 此外,

2025-04-08

的问题。 AI推理时代即将到来? 今年年初,中国AI公司DeepSeek模型的横空出世在AI领域掀起巨浪,R1模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大