NVIDIA CUDA 12.0 已发布


CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。

目前,NVIDIA CUDA 12.0 发布了,CUDA 12.0 带来了许多变化,包括最新 Hopper 和 Ada Lovelace GPU 的新功能、更新 C++ 方言、使 JIT LTO 支持官方、新的和改进的 API,以及各种其他功能。

  • CUDA 12.0 为 NVIDIA 的 Hopper 和 Ada Lovelace 架构的许多特性公开了可编程功能。

  • 支持将虚拟内存管理 API 与标记为 CUDA_VISIBLE_DEVICES 的 GPU 一起使用。

  • 应用程序和库开发人员可以通过编程方式更新 CUDA 流的优先级。

  • 改进了 CUDA 动态并行 API,与之前的 API 相比具有“实质性”的性能改进。

  • 现在通过 nvJitLink 库正式支持即时链接时间优化 (JIT LTO)。

  • GCC 12.1 主机编译器支持。

  • NVCC 和 NVRTC 支持 C++20 方言。

  • NVRTC 将其默认 C++ 方言从 C++14 更新为 C++17。

有关 CUDA 12 的更多详细信息,可查看发行说明 


相關推薦

2023-06-30

CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 目前,NVIDIA CUDA 12.2 发布

2022-09-21

NVIDIA 于北京时间昨天晚上公布了其最新的 GeForce RTX 40 系列显卡,此次率先公布的显卡为 40 系列的高端型号,分别为 RTX 4080(分为 12GB、16GB 两个型号)和 RTX 4090,这三款显卡在国内的售价分别为人民币 7199、9499、12999 元。 除了

2024-08-09

多年来,AMD 一直在努力使针对 NVIDIA CUDA API 的代码库更容易移植到 HIP/ROCm 上运行。并在 2022 年与 ZLUDA 开发者 Andrzej Janik 签约,为其提供资助,从而将其 CUDA 兼容实现引入 AMD GPU 和 ROCm 软件栈。 ZLUDA 最初是英特尔图形处理器的

2024-07-09

一位 AMD 前员工分享了 AMD 在 2000 年代个人计算浪潮刚刚兴起时如何差点收购英伟达的故事。 via https://x.com/MohapatraHemant/status/1809135345683841050 英伟达现在的市值超过了 AMD 和英特尔的总和,因为该公司对 GPU 计算的执着

2023-12-09

名模块。详情可参阅 "cmake-cxxmodules(7)"。 现在可以使用 NVIDIA CUDA Compiler (NVCC) 为 NVIDIA GPU 编译“HIP”语言代码。参阅“CMAKE_HIP_PLATFORM”变量。 在 Apple 平台上,现在支持“.xcframework”文件夹。 自 CMake 3.0 起已弃用的“exec_program

2023-05-27

Xe 架构 GPU(Xe-LP、Xe-HPG 和 Xe-HPC)添加了 SYCL 设备 为 NVIDIA Volta、Turing、Ampere、Ada Lovelace 和 Hopper 架构 GPU 添加了 CUDA 设备 为 AMD RDNA2(仅 Navi 21)和 RDNA3(Navi 3x)架构 GPU 添加了 HIP 设备 删除了 oidnMapBuffer 和 oidnUnmapBuffer 函

2023-09-04

Linux From Scratch 社区发布了最新版本的更新,分别是 LFS 12.0 版、LFS 12.0 (systemd)、BLFS 12.0 和 BLFS 12.0 (systemd)。 Linux From Scratch 项目简称 LFS,它提供必要的步骤,帮开发者一步一步地定制自己的 Linux 系统。LFS 最主要的意义是教人

2024-07-10

进行重构。大幅减少镜像体积,要求宿主机cuda版本12.4+和nvidia驱动版本550+。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html 🎥     - 官方镜像支持从阿里云服务中拉取。详见:https://inference

2023-03-16

p;         测试环境   - 机器( 8GPUNVIDIA GeForce RTX 3090, 24268MiB)-oneflow.__version__= '0.9.1+cu117- torch.__version__= '1.13.0+cu117'- export NVIDIA_TF32_OVERRIDE=0# PyTorch使用FP32训练 # 测试指令:# OneFlow后端python train.py \--batch-size 8 \

2022-11-01

检测需要弃用 printing,Vulkan 后端 64 位乘法溢出检测需要 NVIDIA driver 510 以上。(#6178) (#6279) For the following program: import taichi as ti ti.init(debug=True) @ti.kernel def add(a: ti.u64, b: ti.u64)->ti.u64: return a + b add(2 ** 63, 2 ** 63) The following warnin

2023-03-16

100% 向后兼容的。 作为 torch.compile 的基础技术,带有 Nvidia 和 AMD GPU 的 TorchInductor 将依赖 OpenAI Triton 深度学习编译器来生成高性能代码,并隐藏低级硬件细节。OpenAI Triton 生成的内核实现的性能,与手写内核和 cublas 等专门的 cu

2023-04-29

Debian 发布团队宣布了 Debian 12.0“Bookworm”的暂定发布日期.Debian 邮件列表显示,Debian 发布团队的目标是在 6 月 10 日正式发布 Debian 12.0,如果一切顺利,它将在一个多月内发布。 为了 Debian 12.0 的顺利发布,该版本的完全冻结日

2024-03-26

avue v2.12.0 已经发布,基于 Element 的前端框架 此版本更新内容包括: v2.12.0 2024-03-25 新增 新增 Crud 组件 Grid 卡片模式在线例子 新增InputMap组件mapChange方法回调其它地图参数gitee_I96KNP 修复 修复Crud搜索validData报错gitee_I9

2023-04-17

AMDGPU 的 2019 年英特尔 MacBook 也能正常工作。当然,还有 NVIDIA GPU!我们的模型是 int4 量化的,大小是 4G,所以也不需要 64GB 的内存。6G 左右的地方应该就足够了。” 不过,Web LLM 团队也坦承该项目还有许多障碍需要跨越,包括