英伟达开源 2530 亿参数推理大模型,效果直逼 DeepSeek-R1


英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。

根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,该模型已获准用于商业用途。

NVIDIA Llama Nemotron 是英伟达在上个月推出的一系列支持推理和多样化 Agent 任务的模型。该模型系列提供三种不同尺寸:

  • Nano:8B,基于Llama 3.1 8B进行微调,适用于在个人电脑和边缘设备上实现最高精度。
  • Super:49B,从Llama 3.3 70B蒸馏而来,适用于在数据中心GPU上实现最高精度和最高吞吐量。
  • Ultra:253B,从Llama 3.1 405B蒸馏而来,适用于在多GPU数据中心服务器上实现最大智能代理精度。

当时英伟达只放出了 Nano 和 Super 两个模型版本,现在他们终于把最大的版本 Ultra 给开源了。

目前,该模型的代码已在 Hugging Face 平台上公开,包含开放的权重和训练后数据。

  • 模型地址:https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
  • 文档地址:https://docs.api.nvidia.com/nim/reference/nvidia-llama-3_1-nemotron-ultra-253b-v1

Llama-3.1-Nemotron-Ultra-253B-v1 是从 Meta Llama-3.1-405B-Instruct 蒸馏得到的。这是一个经过后训练的推理模型,专注于推理、人类聊天偏好以及诸如 RAG(检索增强生成)和工具调用等任务。该模型支持 128K 的上下文长度,并且可以在单个 8xH100 节点上进行推理。

据介绍,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:

  • 采用神经架构搜索(NAS)优化架构
  • 引入跳跃注意力层、融合前馈网络(FFN)和可变 FFN 压缩率
  • 降低内存占用和计算需求,保持输出质量
  • 可在单个 8x H100 GPU 节点高效部署
  • 部署支持 B100 和 Hopper 微架构硬件
  • 在 BF16 和 FP8 精度模式下均验证通过

Llama-3.1-Nemotron-Ultra-253B-v1 的训练包括模型蒸馏、SFT、面向推理的 RL 以及面向对齐的 RL 四个阶段。

特别地,区别于一些只支持推理的大模型,Ultra 模型支持通过系统提示词控制是否开启推理模式

该模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型开发,拥有 2530 亿个参数,在多项第三方基准测试中表现出色:

  • 值得关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。
  • 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
  • 但在 MATH500 和 Arena Hard 基准测试中,DeepSeek R1 仍略占优势。
  • 在一系列基准测试中,Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。


相關推薦

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。 据介绍,该模型的开发

2025-06-06

网实现同等渗透率耗时23年。美国六大科技公司(苹果、英伟达、微软等)的资本支出在 AI 浪潮推动下急剧攀升,预计2024年将达2120亿美元,年均复合增长率高达63%。 (来源:Bond Capital) 行业影响:开发者生态成竞争核心 报

2025-08-05

上原生运行 FP8 高精度模型,赋能众多存量算力芯片推理 DeepSeek-R1 满血版大模型。

2025-03-26

eek-V3-0324以53.5%平均得分领跑,领先Claude 3.7/GPT-4o,仅次于DeepSeek-R1。 »实测表现 X博主「@KuittinenPetri」表示,更新后的DeepSeek-V3-0324可以轻松免费地创建漂亮的HTML5、CSS和前端。 提示词如下,大家也可以自行尝试:为AI公司「Nexus

2025-07-29

形成一台超级“AI服务器”,其算力总规模达300Pflops,是英伟达NVL72的1.7倍。 网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%;单卡推理吞吐量跃升到2300 Tokens/s。 华为官方透露,目

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合(MoE)架构,总参数规模达800亿,激活参数为130亿。 公告称,该模型在保持顶尖开源模型效果的同时,大幅降低了推理延迟与计算开销。对个

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2023-08-31

可观测领域的神器 or 鸡肋? 阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。 Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语/代码词块的数据集上进

2025-06-05

🚀 Xinference v1.6.1 更新日志 ✅ 本次亮点 🧠 新增 Deepseek-R1-0528 及其蒸馏模型 Deepseek-R1-0528-Qwen3支持 Deepseek R1 最新版模型,语言理解与生成能力进一步增强。 🧩 Transformers 的视觉语言(VL)模型推理逻辑全面重构新架构

2025-07-30

英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5,这是一款专为推理和 Agentic 任务优化的开源模型,在单个 H100 GPU 上实现高吞吐量。 模型介绍 Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的

2025-06-28

的计划,但尚未公布具体的发布日期。   相关阅读 DeepSeek-R1-0528 更新:思考更深,推理更强 DeepSeek R1 模型完成小版本试升级,逻辑理解能力提升

2025-04-30

6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。 Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。 Qwen3

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n