NVIDIA / Arm /Intel 联合发布 FP8 标准化规范,作为 AI 的可交换格式


NVIDIA、Arm 和英特尔共同撰写了一份白皮书《深度学习的 FP8 格式》,描述了 8 位浮点 (FP8) 规范。它提供了一种通用格式,可通过优化内存使用来加速 AI 开发,并适用于 AI 训练和推理。

此 FP8 规范有两个变体,E5M2 和 E4M3。 

兼容性和灵活性

FP8 最大限度地减少了与现有 IEEE 754 浮点格式的偏差,并在硬件和软件之间实现了良好的平衡,以利用现有的实施、加速采用并提高开发人员的生产力。 

E5M2 使用 5 位作为指数,2 位作为尾数,是一种截断的 IEEE FP16 格式。在需要以牺牲某些数值范围为代价来提高精度的情况下,E4M3 格式会进行一些调整,以扩展可使用四位指数和三位尾数表示的范围。

新格式节省了额外的计算周期,因为它只使用八位。它可用于 AI 训练和推理,无需在精度之间进行任何重铸。此外,通过最大限度地减少与现有浮点格式的偏差,它为未来的人工智能创新提供了最大的自由度,同时仍然遵守当前的规范。

高精度训练和推理 

对 FP8 格式的测试显示,在广泛的用例、架构和网络中,精度与 16 位精度相当。变压器、计算机视觉和 GAN 网络的结果都表明,FP8 训练精度与 16 位精度相似,同时提供了显著的加速。

下图为语言模型 AI 训练测试:

下图为语言模型 AI 推理测试:

在 AI 行业常用的基准测试 MLPerf Inference v2.1中,NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速,在不影响准确性的情况下获得了更高的吞吐量。

标准化

NVIDIA、Arm 和 Intel 以开放、免许可的格式发布了此规范,以鼓励 AI 行业采用该规范。此外,该提案已提交给 IEEE。

通过这种可保持准确性的可互换格式,人工智能模型可以在所有硬件平台上一致且高效地运行,有助于推进人工智能技术的发展。


相關推薦

2023-04-20

展由 Codeplay Software、Intel、Arm、Qualcomm、Tampere University、NVIDIA 和 Google 等公司联手作为 cl_khr_command_buffer 的扩展进行开发,该扩展允许跨多个设备执行异构命令缓冲区。 公告对其介绍如下: cl_khr_command_buffer_multi_device 扩展了命

2022-11-19

和微服务技术下遇到的新问题。 在 9 月底,Apache APISIX 发布了 3.0.0-beta 预览版,为用户们提前带来了一些新的功能体验。今天,APISIX 正式发布了 3.0.0 版本,将产品从体验和功能角度,带到了新一轮的进程中。 经过迭代的 3.0.0

2023-11-10

月 16 号之后公布,国内厂商最快将在这几天拿到产品。 NVIDIA H100 Tensor Core GPU 采用全新 Hopper 架构,基于台积电 N4 工艺,集成了 800 亿个晶体管。与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。 它配备第

2023-05-25

软推出 Dev Home —— 面向开发者的开源生产力工具 微软发布了一款开源的开发者工具:Dev Home,称可帮助开发者在 Windows 11 上释放生产力。 据介绍,Dev Home 是一个控制中心,能够在一个位置跟踪所有工作流和编码任务。它具有

2022-04-02

开发者是否强烈希望将一些个人开发的非标准扩展进一步标准化。 RISC-V 的本质是一组规范,从软件的角度定义了兼容的 CPU 内核应该如何运行:指令类型、在内存中的格式以及其他核心功能。它有时被称为芯片中的 Linux,因为

2022-10-09

U。 AITemplate 能够提供高速的推理服务,最初将同时支持 Nvidia TensorCore 和 AMD MatrixCore 推理硬件,并且以 Apache 2.0 许可协议开放了 AITemplate 的源代码。 Meta 工程总监 Ajit Mathews 表示:"当前版本的 AIT 主要是支持 Nvidia 和 AMD 的 GPU,

2022-10-01

目构建需求,并已完成了11个; 完成N卡驱动cuda工具(nvidia-cuda-toolkit)的构建需求; 完成KMRE、docker.io安装依赖构建需求; 完成devscripts的安装、编译依赖构建需求; 完成apport、fcitx、openjdk-8的安装、编译依赖构建需求;

2022-11-17

能; 新增模式切换关闭KMRE全局提示功能; 完成版本发布时各项目打标签的策略。 欢迎各位感兴趣的社区开发者加入我们,一起打造openKylin平台下稳定易用的桌面环境。 二、RISC-V SIG 本SIG组主要负责RISC-V架构开源软件包

2023-12-01

整(如上图)。 测试笔记本下 Intel 核显跑分如下: NVIDIA 由于 NVIDIA 驱动不开源,所以在系统层面无法对其做控制。 应用级别的省电  应用级别的省电,应该就是在保证用户使用流畅度的情前提下节省性能。之前也有用

2022-10-28

la、Fastly、Intel 与 Red Hat 联合成立,是一个推动 WebAssembly 标准化的组织,该联盟旨在通过协作实施标准和提出新标准,以完善 WebAssembly 在浏览器之外的生态。目前正在积极推动 WASI (WebAssembly System Interface),使 WebAssembly 能够安全

2023-08-04

enUSD 联盟 (AOUSD),以推行 Pixar 创建的通用场景描述技术的标准化、开发、进化和发展。 据介绍,联盟寻求通过推进开放式通用场景描述 (OpenUSD) 功能,使 3D 生态系统标准化。联盟将通过推进深化 3D 工具和数据的互操作性,赋

2023-08-25

AV1的支持,常见的支持AV1规范的显卡有AMD Radeon RX 6600以及NVIDIA GeForce RTX 3060等。   二、Virtio GPU AV1 Virtio GPU AV1解码功能基于之前的“Virtio GPU硬件视频加速框架”开发,在此基础上实现了AV1前端驱动、AV1后端服务程序等,并

2022-08-10

OpenBLAS 0.3.21 现已发布,OpenBLAS 是一个优化的 BLAS 库,基于 GotoBLAS2 1.13 BSD 版本。 BLAS(Basic Linear Algebra Subprograms 基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩

2022-09-30

问题,但最值得注意的是六个新扩展,其中两个是新的 NVIDIA 扩展。新扩展包括: VK_EXT_device_fault ,该扩展有助于找出 GPU 故障的原因。在 VK_ERROR_DEVICE_LOST 之后调用由VK_EXT_device_fault 公开的新函数,可用于检索有关 GPU 故障的