英伟达开源 Llama-3.3-Nemotron-Super-49B-v1.5 模型


英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5,这是一款专为推理和 Agentic 任务优化的开源模型,在单个 H100 GPU 上实现高吞吐量。

模型介绍

Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的升级版本(该模型是 Meta 的 Llama-3.3-70B-Instruct 的衍生模型),专为复杂推理和智能体任务设计,支持 128K tokens 的上下文长度。

模型架构

Llama Nemotron Super v1.5 采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

(注:NAS 的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)

模型经过了多阶段后训练,包括针对数学、代码、科学和工具调用的监督微调 (SFT),以及用于聊天对齐的奖励感知偏好优化 (RPO)、用于推理的带可验证奖励的强化学习 (RLVR) 和用于工具调用能力增强的迭代直接偏好优化 (DPO)。

在多个基准测试中,该模型表现出色。例如,在 MATH500 上 pass@1 达到 97.4,在 AIME 2024 上达到 87.5,在 GPQA 上达到 71.97。模型支持 Reasoning On/Off 模式,用户可通过在系统提示中设置 /no_think 来关闭推理模式。官方推荐在推理开启时使用 temperature=0.6 和 Top P=0.95,在关闭时使用贪心解码。

该模型已准备好用于商业用途,遵循 NVIDIA Open Model License 和 Llama 3.3 社区许可协议。开发者可以通过 NVIDIA build.nvidia.com 或 Hugging Face 下载和试用该模型,并可使用 vLLM(推荐 v0.9.2)进行部署,官方仓库中提供了支持工具调用的解析器插件。


相關推薦

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2025-05-10

Cadence 公司推出了一款新型超级计算机,可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。 这款超级计算机名为 Millennium M2000 ,配备了英伟达 HGX B200 系统和英伟达 RTX PRO 6000 Blackwell 服

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-05-22

英伟达发布了 Cosmos-Reason1 系列模型,这是一组专注于物理常识理解和具身推理的 Physical AI 模型。 该系列模型基于 Qwen2.5-VL-7B-Instruct 进行后训练,结合了监督微调和强化学习方法,旨在理解空间、时间及基础物理学,并能作为

2025-03-21

英伟达收购了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。 据介绍,该模型的开发

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2025-04-17

4月16日,英伟达向美国证监会(SEC)提交一份正式文件。 文件显示,自4月9日起,美国政府已通知英伟达,公司“对华特供版”AI芯片产品H20 GPU(人工智能加速计算处理器)出口至中国及D:5国家(包括中国大陆及香港、澳门等

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2023-10-20

政府将收紧对尖端人工智能芯片的出口管制,最新进展是英伟达为了绕过制裁针对中国量身打造的 H800 和 A800 GPU 被禁售。 2023年10月17日,CNBC 报道称,美国商务部周二宣布,计划在未来几周内限制向中国出售更先进的人工智能

2024-10-31

在最近于加利福尼亚州圣克拉拉举行的 RISC-V 峰会上,英伟达、高通、谷歌和三星等行业巨头齐聚一堂,共同探索 RISC-V 架构的潜力。此次合作标志着向开源计算的转变,将 RISC-V 定位为成熟的 Arm 和 x86 架构的有力替代品。 值得