NVIDIA CUDA 12.2 发布,支持 HMM 功能


CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。

目前,NVIDIA CUDA 12.2 发布了,CUDA 12.2 带来了许多变化,其中最重要的当数支持 Linux 内核的异构内存管理 (HMM) 功能。

HMM 允许在主机内存和加速器设备之间无缝共享数据, NVIDIA CUDA 12.2  的 HMM 支持依赖于 Linux 6.1.24+ 或 Linux 6.2.11+ 版本。此外,此 HMM 支持需要使用 NVIDIA GPU 开放内核模块驱动程序,而不是专有的内核驱动程序。

注意: NVIDIA HMM 支持还无法在 Arm/AArch64 上运行

NVIDIA CUDA 12.2 版本的其他改进包括:

  • 在使用 NVIDIA 535+ 内核驱动程序时,默认启用延迟加载支持
  • 主机 NUMA 内存分配支持
  • CUDA 多进程服务运行时的每个客户端优先级映射
  • 各种修复和其他改进

更详细的更新项可查看 Release Notes

下载地址


相關推薦

2022-12-11

CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。作为一种通用并行计算架构,CUDA 使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 目前,NVIDIA CUDA 12.0 发

2022-09-21

NVIDIA 于北京时间昨天晚上公布了其最新的 GeForce RTX 40 系列显卡,此次率先公布的显卡为 40 系列的高端型号,分别为 RTX 4080(分为 12GB、16GB 两个型号)和 RTX 4090,这三款显卡在国内的售价分别为人民币 7199、9499、12999 元。 除了

2024-08-09

多年来,AMD 一直在努力使针对 NVIDIA CUDA API 的代码库更容易移植到 HIP/ROCm 上运行。并在 2022 年与 ZLUDA 开发者 Andrzej Janik 签约,为其提供资助,从而将其 CUDA 兼容实现引入 AMD GPU 和 ROCm 软件栈。 ZLUDA 最初是英特尔图形处理器的

2024-07-09

一位 AMD 前员工分享了 AMD 在 2000 年代个人计算浪潮刚刚兴起时如何差点收购英伟达的故事。 via https://x.com/MohapatraHemant/status/1809135345683841050 英伟达现在的市值超过了 AMD 和英特尔的总和,因为该公司对 GPU 计算的执着

2023-11-15

_64 GNU/Linux 升级硬件驱动固件版本到最新版本 20230515-3 NVIDIA 显卡驱动 铜豌豆默认安装 NVIDIA 显卡开源驱动 nouveau,软件包名为:xserver-xorg-video-nouveau。 如需要安装 NVIDIA 闭源驱动,请参阅:安装 NVIDIA 显卡厂家闭源驱动及相关

2023-05-27

Xe 架构 GPU(Xe-LP、Xe-HPG 和 Xe-HPC)添加了 SYCL 设备 为 NVIDIA Volta、Turing、Ampere、Ada Lovelace 和 Hopper 架构 GPU 添加了 CUDA 设备 为 AMD RDNA2(仅 Navi 21)和 RDNA3(Navi 3x)架构 GPU 添加了 HIP 设备 删除了 oidnMapBuffer 和 oidnUnmapBuffer 函

2023-12-09

名模块。详情可参阅 "cmake-cxxmodules(7)"。 现在可以使用 NVIDIA CUDA Compiler (NVCC) 为 NVIDIA GPU 编译“HIP”语言代码。参阅“CMAKE_HIP_PLATFORM”变量。 在 Apple 平台上,现在支持“.xcframework”文件夹。 自 CMake 3.0 起已弃用的“exec_program

2023-03-16

p;         测试环境   - 机器( 8GPUNVIDIA GeForce RTX 3090, 24268MiB)-oneflow.__version__= '0.9.1+cu117- torch.__version__= '1.13.0+cu117'- export NVIDIA_TF32_OVERRIDE=0# PyTorch使用FP32训练 # 测试指令:# OneFlow后端python train.py \--batch-size 8 \

2022-11-01

检测需要弃用 printing,Vulkan 后端 64 位乘法溢出检测需要 NVIDIA driver 510 以上。(#6178) (#6279) For the following program: import taichi as ti ti.init(debug=True) @ti.kernel def add(a: ti.u64, b: ti.u64)->ti.u64: return a + b add(2 ** 63, 2 ** 63) The following warnin

2022-08-20

GCC 12.2 现已发布,这是 GCC 12 分支的第一个错误修复版本,包含了针对 GCC 12.1 中的回归和严重错误的重要修复,自上一版本以来修复了超过 71 个错误。 GCC 12 带来了许多新特性,包括 AVX-512 FP16 支持、更好的 C2X 和 C++23 支持、O

2024-06-23

Xinference v0.12.2 正式发布! 🎉v0.12.2 得益于社区的贡献,稳定性得到了极大提高 🙏 新功能 🚀   Qwen moe系列支持tool call 🔧   rerank模型支持输出usage,兼容Cohere API 📊 BUG修复 🐛   修复自定义rerank模型的问题

2023-03-16

100% 向后兼容的。 作为 torch.compile 的基础技术,带有 Nvidia 和 AMD GPU 的 TorchInductor 将依赖 OpenAI Triton 深度学习编译器来生成高性能代码,并隐藏低级硬件细节。OpenAI Triton 生成的内核实现的性能,与手写内核和 cublas 等专门的 cu

2024-02-07

Halo v2.12.2 已经发布,开源 Java 博客系统 此版本更新内容包括: 功能优化 移除启动时不必要的搜索引擎索引构建步骤。 by github@guqing in #5332 问题修复 修复事务未提交便触发控制器执行可能导致数据状态不正确的问题。

2024-07-10

进行重构。大幅减少镜像体积,要求宿主机cuda版本12.4+和nvidia驱动版本550+。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html 🎥     - 官方镜像支持从阿里云服务中拉取。详见:https://inference