英伟达发布 Windows 版 TensorRT-LLM 库,为本地运行大模型提速


【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>>

英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍

GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿台 Windows PC 和工作站带来原生生成式 AI 的强大功能。

TensorRT-LLM 是一个开源库,用于提升上述 GPU 运行最新 AI 大模型(如 Llama 2 和 Code Llama)的推理性能。上个月英伟达发布了面向数据中心的 TensorRT-LLM,现在最新发布的 TensorRT-LLM for Windows 主要是面向家用电脑,将 PC 上运行 LLM 的速度提高了 4 倍。

英伟达还同时发布了帮助开发人员加速 LLM 的工具,包括使用 TensorRT-LLM 优化自定义模型的脚本、TensorRT 优化的开源模型以及展示 LLM 响应速度和质量的开发人员参考项目。


相關推薦

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-04-17

4月16日,英伟达向美国证监会(SEC)提交一份正式文件。 文件显示,自4月9日起,美国政府已通知英伟达,公司“对华特供版”AI芯片产品H20 GPU(人工智能加速计算处理器)出口至中国及D:5国家(包括中国大陆及香港、澳门等

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2023-11-26

根据路透社的独家报道,两名知情人士透露,英伟达已通知中国客户,其为遵守美国出口规定而设计的新款 AI 芯片将推迟到明年第一季度发布。 前情提要:英伟达或将推出针对中国区的最新改良版 AI 芯片 英伟达将特供三

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2023-09-16

多元共进|2023 Google 开发者大会精彩演讲回顾 数据和人工智能公司 Databricks 宣布完成由 T. Rowe Price Associates 领投的第一轮融资。本轮融资共筹集了超过 5 亿美元的资金,使得公司估值达到 430 亿美元,每股定价为 73.50 美元。

2024-07-24

根据路透社的独家报道,英伟达公司正计划为中国市场量身设计一款新的旗舰人工智能芯片。 英伟达将与中国浪潮合作推出并销售这款代号为 B20 的芯片。浪潮是英伟达在中国的主要分销合作伙伴之一。 英伟达于今年 3 月发

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-03-21

英伟达收购了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成

2025-04-08

模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大会于3月17日至21日在美国加利福尼亚州圣何塞召开。公司首席执行官黄仁勋在主题演讲中说,随着AI行

2025-04-15

用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。   近期,蚂蚁集团也在加码具身智能、AI眼镜等新方向——显然,大模型之外,蚂蚁在寻找更多破局点。在当前这个节

2025-04-18

对中国人工智能实验室DeepSeek实施新的限制,限制其购买英伟达的人工智能芯片,并可能禁止美国人访问其人工智能服务。 这些限制是特朗普政府在人工智能领域与中国竞争的举措之一。在DeepSeek震惊硅谷和华尔街数月后,美