英伟达发布 Windows 版 TensorRT-LLM 库,为本地运行大模型提速


【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>>

英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍

GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿台 Windows PC 和工作站带来原生生成式 AI 的强大功能。

TensorRT-LLM 是一个开源库,用于提升上述 GPU 运行最新 AI 大模型(如 Llama 2 和 Code Llama)的推理性能。上个月英伟达发布了面向数据中心的 TensorRT-LLM,现在最新发布的 TensorRT-LLM for Windows 主要是面向家用电脑,将 PC 上运行 LLM 的速度提高了 4 倍。

英伟达还同时发布了帮助开发人员加速 LLM 的工具,包括使用 TensorRT-LLM 优化自定义模型的脚本、TensorRT 优化的开源模型以及展示 LLM 响应速度和质量的开发人员参考项目。


相關推薦

2023-11-26

根据路透社的独家报道,两名知情人士透露,英伟达已通知中国客户,其为遵守美国出口规定而设计的新款 AI 芯片将推迟到明年第一季度发布。 前情提要:英伟达或将推出针对中国区的最新改良版 AI 芯片 英伟达将特供三

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2023-09-16

多元共进|2023 Google 开发者大会精彩演讲回顾 数据和人工智能公司 Databricks 宣布完成由 T. Rowe Price Associates 领投的第一轮融资。本轮融资共筹集了超过 5 亿美元的资金,使得公司估值达到 430 亿美元,每股定价为 73.50 美元。

2023-10-20

政府将收紧对尖端人工智能芯片的出口管制,最新进展是英伟达为了绕过制裁针对中国量身打造的 H800 和 A800 GPU 被禁售。 2023年10月17日,CNBC 报道称,美国商务部周二宣布,计划在未来几周内限制向中国出售更先进的人工智能

2023-07-04

Inflection AI 宣布在新一轮融资中筹集了 13 亿美元,该轮融资由微软、里德霍夫曼、比尔盖茨、埃里克施密特和新投资者 NVIDIA 领投,新一轮融资使公司融资总额达到15.25 亿美元,在 AI 领域的估值仅次于 OpenAI 公司。 Inflection AI

2023-08-25

了更深度的技术赋能与效率提速。 团结引擎目前已支持 Windows、Mac、Linux 操作系统,以及 Android、iOS、WebGL、Weixin Mini Game、HMI Android、QNX、Embedded Linux 平台,并即将支持 OpenHarmony 开源项目和 AliOS 操作系统。 Unity 表示,团结

2023-10-18

的前沿,各种智能体热度大大增加。 2、行业局势 英伟达凭借各国、初创公司、大型科技公司和研究人员对其 GPU 的巨大需求,跻身市值万亿美元俱乐部; 主要芯片供应商开发了不受出口管制影响的替代产品; 在 Ch

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2022-07-16

y 超级计算机对 Bloom 进行了训练。这台超级计算机配备了英伟达专为 AI 优化的显卡,其最高速度超过 28 petaflops,其中 1 petaflop 等于每秒 1 千万亿次的计算量。 在未来,该研究小组计划开发一个具有更先进功能的新版 Bloom。BigSc

2023-01-23

本更新内容包括: 1.更换配置BabyOS的方式,采用Kconfig 2.windows环境下双击_config目录下b_config.bat进行配置 3.linux环境下运行test目录,执行make menuconfig进行配置 4.减少IAP的接口,使用更加方便 更换配置方式需要注意: 确保电脑

2023-10-26

nux 上本地运行 Llama 2、Code Llama 和其他模型,并计划支持 Windows。Ollama 目前支持近二十多个语言模型系列,每个模型系列都有许多可用的"tags"。Tags 是模型的变体,这些模型使用不同的微调方法以不同的规模进行训练,并以不

2022-11-26

特尔 HEVC 的编码提供了支持。 部分重要变化: 为 Windows 上 RDNA3 GPU 的 AMD AV1 编码器提供支持 为 Windows 上 Arc GPU 的 Intel AV1 编码器提供支持 Note: 可使用 CQP,但未完全支持 在 Windows 上为 Intel HEVC 编码器提供支持

2023-08-31

器 or 鸡肋? 阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。 Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语/代码词块的数据集上进行训练。该模型

2024-03-31

动客户端(ios&android) electron-29.1.0 for 桌面客户端(windows&mac&linux) 快速开始 git clone https://github.com/Bytedesk/bytedesk.git mvn install -Dmaven.test.skip=true # 打开 bytedesk/starter/src/main/resources/application-dev.properties # 修改 the val