NVIDIA CUDA 12.2 发布,支持 HMM 功能


CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。

目前,NVIDIA CUDA 12.2 发布了,CUDA 12.2 带来了许多变化,其中最重要的当数支持 Linux 内核的异构内存管理 (HMM) 功能。

HMM 允许在主机内存和加速器设备之间无缝共享数据, NVIDIA CUDA 12.2  的 HMM 支持依赖于 Linux 6.1.24+ 或 Linux 6.2.11+ 版本。此外,此 HMM 支持需要使用 NVIDIA GPU 开放内核模块驱动程序,而不是专有的内核驱动程序。

注意: NVIDIA HMM 支持还无法在 Arm/AArch64 上运行

NVIDIA CUDA 12.2 版本的其他改进包括:

  • 在使用 NVIDIA 535+ 内核驱动程序时,默认启用延迟加载支持
  • 主机 NUMA 内存分配支持
  • CUDA 多进程服务运行时的每个客户端优先级映射
  • 各种修复和其他改进

更详细的更新项可查看 Release Notes

下载地址


相關推薦

2022-12-11

CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 目前,NVIDIA CUDA 12.0 发

2022-09-21

NVIDIA 于北京时间昨天晚上公布了其最新的 GeForce RTX 40 系列显卡,此次率先公布的显卡为 40 系列的高端型号,分别为 RTX 4080(分为 12GB、16GB 两个型号)和 RTX 4090,这三款显卡在国内的售价分别为人民币 7199、9499、12999 元。 除了

2023-11-15

_64 GNU/Linux 升级硬件驱动固件版本到最新版本 20230515-3 NVIDIA 显卡驱动 铜豌豆默认安装 NVIDIA 显卡开源驱动 nouveau,软件包名为:xserver-xorg-video-nouveau。 如需要安装 NVIDIA 闭源驱动,请参阅:安装 NVIDIA 显卡厂家闭源驱动及相关

2023-05-27

Xe 架构 GPU(Xe-LP、Xe-HPG 和 Xe-HPC)添加了 SYCL 设备 为 NVIDIA Volta、Turing、Ampere、Ada Lovelace 和 Hopper 架构 GPU 添加了 CUDA 设备 为 AMD RDNA2(仅 Navi 21)和 RDNA3(Navi 3x)架构 GPU 添加了 HIP 设备 删除了 oidnMapBuffer 和 oidnUnmapBuffer 函

2023-12-09

名模块。详情可参阅 "cmake-cxxmodules(7)"。 现在可以使用 NVIDIA CUDA Compiler (NVCC) 为 NVIDIA GPU 编译“HIP”语言代码。参阅“CMAKE_HIP_PLATFORM”变量。 在 Apple 平台上,现在支持“.xcframework”文件夹。 自 CMake 3.0 起已弃用的“exec_program

2023-03-16

p;         测试环境   - 机器( 8GPUNVIDIA GeForce RTX 3090, 24268MiB)-oneflow.__version__= '0.9.1+cu117- torch.__version__= '1.13.0+cu117'- export NVIDIA_TF32_OVERRIDE=0# PyTorch使用FP32训练 # 测试指令:# OneFlow后端python train.py \--batch-size 8 \

2022-11-01

检测需要弃用 printing,Vulkan 后端 64 位乘法溢出检测需要 NVIDIA driver 510 以上。(#6178) (#6279) For the following program: import taichi as ti ti.init(debug=True) @ti.kernel def add(a: ti.u64, b: ti.u64)->ti.u64: return a + b add(2 ** 63, 2 ** 63) The following warnin

2022-08-20

GCC 12.2 现已发布,这是 GCC 12 分支的第一个错误修复版本,包含了针对 GCC 12.1 中的回归和严重错误的重要修复,自上一版本以来修复了超过 71 个错误。 GCC 12 带来了许多新特性,包括 AVX-512 FP16 支持、更好的 C2X 和 C++23 支持、O

2023-03-16

100% 向后兼容的。 作为 torch.compile 的基础技术,带有 Nvidia 和 AMD GPU 的 TorchInductor 将依赖 OpenAI Triton 深度学习编译器来生成高性能代码,并隐藏低级硬件细节。OpenAI Triton 生成的内核实现的性能,与手写内核和 cublas 等专门的 cu

2024-02-07

Halo v2.12.2 已经发布,开源 Java 博客系统 此版本更新内容包括: 功能优化 移除启动时不必要的搜索引擎索引构建步骤。 by github@guqing in #5332 问题修复 修复事务未提交便触发控制器执行可能导致数据状态不正确的问题。

2023-10-09

Debian 近日为两个分支发布了更新:12.2 和 11.8。两个版本都是常规性更新,主要是修复错误和安全问题。 Debian 12.2 是 12 系列的第 2 个维护更新,修复了安全漏洞和严重问题。 引入微码 (microcode) 更新,包含针对 AMD Zen4 处理器

2023-04-03

FreeFileSync 是一款开源软件,适用于 Windows、macOS 和 Linux。FreeFileSync 本质是一个用于文件夹对比和同步的软件,它可以创建和管理所有重要文件的备份副本。FreeFileSync 不是每次都复制每个文件,而是确定源文件夹和目标文件夹之

2023-01-16

一个更现代感的 Java 应用开发框架:更快、更小、更自由。没有 Spring,没有 Servlet,没有 JavaEE;独立的轻量生态。主框架仅 0.1 MB。 @Controller public class App { public static void main(String[] args) { Solon.start(App.class, args); } @Get @Socket @Mappi

2022-10-10

Proxy 是 golang 实现的高性能 http、https、websocket、tcp、udp、socks5 代理服务器,支持正向代理、反向代理、透明代理、内网穿透、TCP/UDP 端口映射、SSH 中转、TLS 加密传输、协议转换、DNS 防污染智能代理、前置 CDN/Nginx 反代、代理