英伟达官宣:CUDA 工具链将全面原生支持 Python


在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成

CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘一等公民’。

据介绍,对于添加了原生 Python 支持的 CUDA,开发者可直接用 Python 编写算法,并在英伟达 GPU 上高效执行,无需手动调用底层内核或依赖 C++ 接口封装。

Stephen Jones 补充道:“这不仅仅是把原来的 C 语言翻译成 Python,而是要让 Python 保持本色,让 Python 开发者也感到自然。”

英伟达也强调,此次更新重新设计了一套真正符合 Python 编程习惯的 CUDA 开发模型,包括 API、库、执行方式和性能优化手段。开发者可以像使用 NumPy、PyTorch 那样,用 Python 脚本直接编写和调用 GPU 加速逻辑。

换句话说,英伟达对 CUDA 不是简单的语法包装,而是一次从运行时到编程模型的 Python 化重构。具体来看,英伟达提供了:

  • CUDA Core:重新设计的运行时系统,支持完全的 Python 编程体验,执行流程也更贴近 Python 风格;
  • cuPyNumeric:NumPy 的 GPU 加速替代品,修改一行 import 即可将代码从 CPU 迁移至 GPU;
  • NVMath Python:统一接口库,支持在 host 和 device 两端调用各种库函数,这些函数调用支持自动融合(fusing),可带来明显的性能提升;
  • 采用 JIT 编译:几乎不依赖传统编译器,大幅减少依赖链复杂度,提高执行效率和可移植性;
  • 全套的分析工具支持:包括性能分析器、代码静态分析器等,帮助开发者进行性能调优。

除此之外,传统 CUDA 强调线程(thread)、块(block)等显式控制方式,而 Python 工程师则更熟悉“数组思维”——以矩阵、张量、向量等结构为基础组织计算。

为此,英伟达还推出了全新编程模型 CuTile,它更像是面向数组、张量的抽象,更贴近 Python 开发者的思维模式。

CuTile 模型强调以 tile(小块)为基本计算单元进行调度,每个 tile 包含若干数据元素,由编译器负责自动映射到底层线程执行,从而实现高效的 GPU 加速。

Stephen Jones 解释道,“相比线程,tile 更贴近 Python 语言的哲学;它足够高效,性能也不输 C++。”——tile 中的数据可以是向量、张量或数组,编译器可以更好地将整个数组操作映射到 GPU。

另外英伟达还计划在未来支持更多编程语言,早在 2024 年 GPU 技术大会上英伟达工程师就表示英伟达还在探索诸如 Rust 和 Julia 等编程开发语言,吸引更广泛的开发者群体。

相关链接:https://github.com/NVIDIA/cuda-python


相關推薦

2022-05-26

hnologies 今天发布的全新 Qualcomm Neural Processing SDK for Windows 工具包探索许多 AI 场景。而且因为我们希望看到 NPU 被内置到大多数(如果不是全部)未来的计算设备中,我们将通过将对 NPU 的支持纳入端到端 Windows 平台,让开发人员

2025-04-08

NVIDIA PhysX SDK 在 3-Clause BSD 许可下开源已有六年半了,但其中并非所有内容都是开源的。 直到最近,随着 GPU 模拟内核源代码在 GitHub 上的发布,这种情况才有所改变。 以下是 NVIDIA 分享的消息,以及 Flow SDK 着色器实现的发布

2024-07-09

了 AMD 在 2000 年代个人计算浪潮刚刚兴起时如何差点收购英伟达的故事。 via https://x.com/MohapatraHemant/status/1809135345683841050 英伟达现在的市值超过了 AMD 和英特尔的总和,因为该公司对 GPU 计算的执着追求结出了硕果,并

2024-06-04

C++实现,编译成高效率的Python包供调用。如果底层硬件是英伟达的GPU,那么需要调用CUDA库实现各种算法;如果底层是华为的昇腾GPU,那么需要用华为的Ascend C接口和相关编译器。 使用最广泛的操作系统Linux是使用C语言开发,编

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2025-03-28

是传统欧美汽车产业巨头在主导。 同时,使用该架构的工具链需要支付高额授权费,加之闭源系统适配一款新的芯片要6个月,耗费大量人力,不确定性强。 对此,理想汽车开源整车操作系统打破“黑盒化”技术壁垒,再加之

2022-09-21

自于视频,也有越来越多的视频被 AI 特效和计算机视觉工具所增强。但是使用传统的计算机视觉工具进行预处理和后处理会耗费更多的时间和计算资源。 CV-CUDA 能够加速 AI 特效,例如重新打光、重新定位、模糊背景和超分辨率

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2023-09-22

为日常使用带来极大的便利。 “未来,UOS AI将在deepin的原生应用和第三方应用中探索更多模式。随着技术的不断进步和发展,我们将会成为更加优秀的开源操作系统,为全球用户带来更好的体验。同时,我们也期待更多的开发

2023-12-30

人脸检测器示例更新。 切换到 Gradle 7.6.3,现代 Android 工具。 平台支持: #23021 在 CMake 中将 CUDA 作为 first class 语言进行实验性支持 其他: TBD OpenCV Summer of Code:HAN Liutong 跨多个拉取请求的半自动重构使 CPU

2023-05-15

ith_nested_struct_arg(p))# [4., 4., 4.] Ndarray 在 python scope 内支持 0 dim ndarray 读写 修复了从 Python scope 写入 ndarray 时的一个错误 Improvements 支持 autodiff 中的 rsqrt operator 为 CPU 后端添加了 assembly printer 支持超过 48KiB 的 CUDA

2022-10-15

my 2.0.0 首个 Beta 版本已发布。SQLAlchemy 是一个 Python 的 SQL 工具包以及数据库对象映射 (ORM) 框架。它包含整套企业级持久化模式,专门用于高效和高性能的数据库访问。 发布公告写道,2.0 旨在适应现代化 Python 的实际使用,开

2022-12-11

Hopper 和 Ada Lovelace GPU 的新功能、更新 C++ 方言、使 JIT LTO 支持官方、新的和改进的 API,以及各种其他功能。 CUDA 12.0 为 NVIDIA 的 Hopper 和 Ada Lovelace 架构的许多特性公开了可编程功能。 支持将虚拟内存管理 API 与标记为 CUDA_

2023-06-30

12.2 发布了,CUDA 12.2 带来了许多变化,其中最重要的当数支持 Linux 内核的异构内存管理 (HMM) 功能。 HMM 允许在主机内存和加速器设备之间无缝共享数据, NVIDIA CUDA 12.2  的 HMM 支持依赖于 Linux 6.1.24+ 或 Linux 6.2.11+ 版本。此外