英伟达发布 Windows 版 TensorRT-LLM 库,为本地运行大模型提速


【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>>

英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍

GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿台 Windows PC 和工作站带来原生生成式 AI 的强大功能。

TensorRT-LLM 是一个开源库,用于提升上述 GPU 运行最新 AI 大模型(如 Llama 2 和 Code Llama)的推理性能。上个月英伟达发布了面向数据中心的 TensorRT-LLM,现在最新发布的 TensorRT-LLM for Windows 主要是面向家用电脑,将 PC 上运行 LLM 的速度提高了 4 倍。

英伟达还同时发布了帮助开发人员加速 LLM 的工具,包括使用 TensorRT-LLM 优化自定义模型的脚本、TensorRT 优化的开源模型以及展示 LLM 响应速度和质量的开发人员参考项目。


相關推薦

2023-11-26

根据路透社的独家报道,两名知情人士透露,英伟达已通知中国客户,其为遵守美国出口规定而设计的新款 AI 芯片将推迟到明年第一季度发布。 前情提要:英伟达或将推出针对中国区的最新改良版 AI 芯片 英伟达将特供三

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2023-09-16

多元共进|2023 Google 开发者大会精彩演讲回顾 数据和人工智能公司 Databricks 宣布完成由 T. Rowe Price Associates 领投的第一轮融资。本轮融资共筹集了超过 5 亿美元的资金,使得公司估值达到 430 亿美元,每股定价为 73.50 美元。

2024-07-24

根据路透社的独家报道,英伟达公司正计划为中国市场量身设计一款新的旗舰人工智能芯片。 英伟达将与中国浪潮合作推出并销售这款代号为 B20 的芯片。浪潮是英伟达在中国的主要分销合作伙伴之一。 英伟达于今年 3 月发

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-03-21

英伟达收购了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2023-10-20

政府将收紧对尖端人工智能芯片的出口管制,最新进展是英伟达为了绕过制裁针对中国量身打造的 H800 和 A800 GPU 被禁售。 2023年10月17日,CNBC 报道称,美国商务部周二宣布,计划在未来几周内限制向中国出售更先进的人工智能

2025-03-20

NVIDIA 宣布与 Google DeepMind 和 Disney Research 合作,共同开发开源物理引擎 Newton,可让机器人学习如何以更高的精度处理复杂任务。 Newton 基于 NVIDIA Warp 框架构建,将针对机器人学习进行优化,并与 Google DeepMind MuJoCo 和 NVIDIA Isaac

2024-07-09

了 AMD 在 2000 年代个人计算浪潮刚刚兴起时如何差点收购英伟达的故事。 via https://x.com/MohapatraHemant/status/1809135345683841050 英伟达现在的市值超过了 AMD 和英特尔的总和,因为该公司对 GPU 计算的执着追求结出了硕果,并

2023-07-04

Inflection AI 宣布在新一轮融资中筹集了 13 亿美元,该轮融资由微软、里德霍夫曼、比尔盖茨、埃里克施密特和新投资者 NVIDIA 领投,新一轮融资使公司融资总额达到15.25 亿美元,在 AI 领域的估值仅次于 OpenAI 公司。 Inflection AI

2025-03-26

(LLM)设计的开源应用GAIA(发音 /ˈɡaɪ.ə/),目前支持 Windows 平台。 GAIA 是一款生成式 AI 应用,可在 Windows PC 上实现本地化私密运行 LLM,并针对锐龙 AI 300 系列处理器进行了优化。该应用通过 NPU 提升 AI 任务性能,并支持混