英伟达发布 Windows 版 TensorRT-LLM 库，为本地运行大模型提速

2023-10-19 發表於开源资讯

【源创会预告】1024 程序员节（的前两天），相约开源PHP办公室，我们一起聊 AI！>>>

英伟达发布了 Windows 版本的 TensorRT-LLM 库，称其将大模型在 RTX 上的运行速度提升 4 倍。

GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器，正在为超过 1 亿台 Windows PC 和工作站带来原生生成式 AI 的强大功能。

TensorRT-LLM 是一个开源库，用于提升上述 GPU 运行最新 AI 大模型（如 Llama 2 和 Code Llama）的推理性能。上个月英伟达发布了面向数据中心的 TensorRT-LLM，现在最新发布的 TensorRT-LLM for Windows 主要是面向家用电脑，将 PC 上运行 LLM 的速度提高了 4 倍。

英伟达还同时发布了帮助开发人员加速 LLM 的工具，包括使用 TensorRT-LLM 优化自定义模型的脚本、TensorRT 优化的开源模型以及展示 LLM 响应速度和质量的开发人员参考项目。

相關推薦

英伟达研究团队发布混合架构语言模型 Jet-Nemotron

2025-08-29

英伟达研究团队发布了Jet-Nemotron，这是一个新一代的混合架构语言模型系列。该系列通过Post Neural Architecture Search (PostNAS)流程，在冻结预训练全注意力模型MLP权重的前提下，仅对注意力模块进行高效的设计探索，实现了与领先全

英伟达官宣：CUDA 工具链将全面原生支持 Python

2025-04-09

在近期的 GTC 2025 大会上，英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示，“我们一直在努力让加速计算与 Python 深度融合，使其成为 CUDA 技术栈中的‘

英伟达对华特供版 AI 芯片（H20 GPU）遭遇出口管制

2025-04-17

4月16日，英伟达向美国证监会（SEC）提交一份正式文件。文件显示，自4月9日起，美国政府已通知英伟达，公司“对华特供版”AI芯片产品H20 GPU（人工智能加速计算处理器）出口至中国及D:5国家（包括中国大陆及香港、澳门等

Cadence 发布基于英伟达 Blackwell 芯片的全新 AI 超算

2025-05-10

Cadence 公司推出了一款新型超级计算机，可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。这款超级计算机名为 Millennium M2000 ，配备了英伟达 HGX B200 系统和英伟达 RTX PRO 6000 Blackwell 服

Kimi K2 再提速，最高可达每秒 100 Tokens

2025-08-23

息请访问官网 https://platform.moonshot.cn 月之暗面 8 月 1 日发布 Kimi K2 高速版 —— Kimi-K2-turbo-preview，模型参数与 Kimi-K2 一致，但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。 Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务

英伟达推出通用深度研究（UDR）系统

2025-09-09

英伟达最新发布另外一个通用深度研究（UDR）系统，目前仍处于原型阶段。该系统不仅可以与任何大语言模型(LLM)兼容，更为用户提供了高度定制的深度研究策略，彻底改变了以往研究智能体的工作方式。根据英伟达的最新论

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1，可用于聊天机器人开发、AI Agent 工作流、检索增强生成（RAG）和代码生成等场景。根据英伟达开放模型许可证及 Llama 3.1 社区许可协议，

英伟达推迟发布中国特供版 AI 芯片

2023-11-26

根据路透社的独家报道，两名知情人士透露，英伟达已通知中国客户，其为遵守美国出口规定而设计的新款 AI 芯片将推迟到明年第一季度发布。前情提要：英伟达或将推出针对中国区的最新改良版 AI 芯片英伟达将特供三

DeepSeek 采用 UE8M0 FP8 标准：华为积极适配、彻底和英伟达决裂了

2025-08-26

清华大学计算机系人工智能所博士梁斌表示，UE8M0 FP8 和英伟达的 FP8 是两个东西，两套标准。 DeepSeek 这次为什么非要强调 UE8M0 FP8 呢？这个和英伟达的 FP8 是两个东西，两套标准，正式决裂。显存的发展是有限的，而模型的

黄仁勋支持开源 AI 大模型，与扎克伯格互换外套

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上，英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话，讨论了讨论了开源 AI 和 AI 助手的未来。黄仁勋称赞了Meta的开源大模型，他与扎克伯格都同意应坚持大模型

英伟达最新研究：SLM（小型语言模型）才是 Agentic AI 的未来

2025-08-20

英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文，提出了一个极具颠覆性的观点：SLM（小型语言模型）才是智能代理（Agentic AI）的未来。 https://arxiv.org/pdf/2506.02153 论文核心观点总结

英伟达或将推出针对中国区的最新改良版 AI 芯片

2023-11-10

据《科创板日报》报道，产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片：HGX H20、L20 PCle和 L2 PCle。知情人士称，最新三款芯片是由 H100 改良而来，英伟达最快或将于本月 16 号之后公布，国内厂商最快将在这

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时，表现与高端英伟达芯片的模型相当。通常，MoE 模型的训练需要依赖昂贵的高性能 GPU，如英伟达的 H100和 H800，这不仅成本高昂，还受到芯片短缺的限制，从而影响了其在资源有限环

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集，以支持OCR、VQA和图像字幕生成等多种应用。数据集构成 67.0% 视觉问答（VQA）样本 28.4% OCR 样本 4.6% 图像描述（Captioning）样本主要用途文档理解

熱門推薦