NVIDIA CUDA 12.0 已发布


CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。

目前,NVIDIA CUDA 12.0 发布了,CUDA 12.0 带来了许多变化,包括最新 Hopper 和 Ada Lovelace GPU 的新功能、更新 C++ 方言、使 JIT LTO 支持官方、新的和改进的 API,以及各种其他功能。

  • CUDA 12.0 为 NVIDIA 的 Hopper 和 Ada Lovelace 架构的许多特性公开了可编程功能。

  • 支持将虚拟内存管理 API 与标记为 CUDA_VISIBLE_DEVICES 的 GPU 一起使用。

  • 应用程序和库开发人员可以通过编程方式更新 CUDA 流的优先级。

  • 改进了 CUDA 动态并行 API,与之前的 API 相比具有“实质性”的性能改进。

  • 现在通过 nvJitLink 库正式支持即时链接时间优化 (JIT LTO)。

  • GCC 12.1 主机编译器支持。

  • NVCC 和 NVRTC 支持 C++20 方言。

  • NVRTC 将其默认 C++ 方言从 C++14 更新为 C++17。

有关 CUDA 12 的更多详细信息,可查看发行说明 


相關推薦

2023-06-30

CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 目前,NVIDIA CUDA 12.2 发布

2022-09-21

NVIDIA 于北京时间昨天晚上公布了其最新的 GeForce RTX 40 系列显卡,此次率先公布的显卡为 40 系列的高端型号,分别为 RTX 4080(分为 12GB、16GB 两个型号)和 RTX 4090,这三款显卡在国内的售价分别为人民币 7199、9499、12999 元。 除了

2023-12-09

名模块。详情可参阅 "cmake-cxxmodules(7)"。 现在可以使用 NVIDIA CUDA Compiler (NVCC) 为 NVIDIA GPU 编译“HIP”语言代码。参阅“CMAKE_HIP_PLATFORM”变量。 在 Apple 平台上,现在支持“.xcframework”文件夹。 自 CMake 3.0 起已弃用的“exec_program

2023-05-27

Xe 架构 GPU(Xe-LP、Xe-HPG 和 Xe-HPC)添加了 SYCL 设备 为 NVIDIA Volta、Turing、Ampere、Ada Lovelace 和 Hopper 架构 GPU 添加了 CUDA 设备 为 AMD RDNA2(仅 Navi 21)和 RDNA3(Navi 3x)架构 GPU 添加了 HIP 设备 删除了 oidnMapBuffer 和 oidnUnmapBuffer 函

2023-09-04

Linux From Scratch 社区发布了最新版本的更新,分别是 LFS 12.0 版、LFS 12.0 (systemd)、BLFS 12.0 和 BLFS 12.0 (systemd)。 Linux From Scratch 项目简称 LFS,它提供必要的步骤,帮开发者一步一步地定制自己的 Linux 系统。LFS 最主要的意义是教人

2022-11-01

检测需要弃用 printing,Vulkan 后端 64 位乘法溢出检测需要 NVIDIA driver 510 以上。(#6178) (#6279) For the following program: import taichi as ti ti.init(debug=True) @ti.kernel def add(a: ti.u64, b: ti.u64)->ti.u64: return a + b add(2 ** 63, 2 ** 63) The following warnin

2023-03-16

p;         测试环境   - 机器( 8GPUNVIDIA GeForce RTX 3090, 24268MiB)-oneflow.__version__= '0.9.1+cu117- torch.__version__= '1.13.0+cu117'- export NVIDIA_TF32_OVERRIDE=0# PyTorch使用FP32训练 # 测试指令:# OneFlow后端python train.py \--batch-size 8 \

2023-03-16

100% 向后兼容的。 作为 torch.compile 的基础技术,带有 Nvidia 和 AMD GPU 的 TorchInductor 将依赖 OpenAI Triton 深度学习编译器来生成高性能代码,并隐藏低级硬件细节。OpenAI Triton 生成的内核实现的性能,与手写内核和 cublas 等专门的 cu

2023-04-29

Debian 发布团队宣布了 Debian 12.0“Bookworm”的暂定发布日期.Debian 邮件列表显示,Debian 发布团队的目标是在 6 月 10 日正式发布 Debian 12.0,如果一切顺利,它将在一个多月内发布。 为了 Debian 12.0 的顺利发布,该版本的完全冻结日

2024-03-26

avue v2.12.0 已经发布,基于 Element 的前端框架 此版本更新内容包括: v2.12.0 2024-03-25 新增 新增 Crud 组件 Grid 卡片模式在线例子 新增InputMap组件mapChange方法回调其它地图参数gitee_I96KNP 修复 修复Crud搜索validData报错gitee_I9

2023-04-17

AMDGPU 的 2019 年英特尔 MacBook 也能正常工作。当然,还有 NVIDIA GPU!我们的模型是 int4 量化的,大小是 4G,所以也不需要 64GB 的内存。6G 左右的地方应该就足够了。” 不过,Web LLM 团队也坦承该项目还有许多障碍需要跨越,包括

2023-01-13

发布了FeatureProbe V1.12.0版本 新功能包括:  1.新增「人群组」板块的新用户引导 2.完成API和UI项目合并 3.完成小程序和JS sdk的优化 4.完成部分页面卡片缩放逻辑的优化 bug修复包括: 1.开关的「发布」按钮点击异常问题 2.中英文

2022-09-15

于 PostgreSQL 日志文件提供详细报告。 pgBadger v12.0 现已发布,这是一个主要版本,修复了用户在过去五个月中报告的问题,并进行了一些改进: 删除对 Tsung output 的支持。 当有数百个绑定参数要替换时,提高 pgbadger 的性

2024-01-24

周边组件提供丰富的微服务治理方案。 SofaRPC v5.12.0 现已发布,此版本带来对 sofa-rpc 框架的增强和一些错误修复(需要 JDK8 版本支持)。如果你的版本介于 5.7.10 和 5.11.1 之间,官方鼓励进行升级。 具体更新内容如下: