英伟达开源 2530 亿参数推理大模型,效果直逼 DeepSeek-R1


英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。

根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,该模型已获准用于商业用途。

NVIDIA Llama Nemotron 是英伟达在上个月推出的一系列支持推理和多样化 Agent 任务的模型。该模型系列提供三种不同尺寸:

  • Nano:8B,基于Llama 3.1 8B进行微调,适用于在个人电脑和边缘设备上实现最高精度。
  • Super:49B,从Llama 3.3 70B蒸馏而来,适用于在数据中心GPU上实现最高精度和最高吞吐量。
  • Ultra:253B,从Llama 3.1 405B蒸馏而来,适用于在多GPU数据中心服务器上实现最大智能代理精度。

当时英伟达只放出了 Nano 和 Super 两个模型版本,现在他们终于把最大的版本 Ultra 给开源了。

目前,该模型的代码已在 Hugging Face 平台上公开,包含开放的权重和训练后数据。

  • 模型地址:https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
  • 文档地址:https://docs.api.nvidia.com/nim/reference/nvidia-llama-3_1-nemotron-ultra-253b-v1

Llama-3.1-Nemotron-Ultra-253B-v1 是从 Meta Llama-3.1-405B-Instruct 蒸馏得到的。这是一个经过后训练的推理模型,专注于推理、人类聊天偏好以及诸如 RAG(检索增强生成)和工具调用等任务。该模型支持 128K 的上下文长度,并且可以在单个 8xH100 节点上进行推理。

据介绍,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:

  • 采用神经架构搜索(NAS)优化架构
  • 引入跳跃注意力层、融合前馈网络(FFN)和可变 FFN 压缩率
  • 降低内存占用和计算需求,保持输出质量
  • 可在单个 8x H100 GPU 节点高效部署
  • 部署支持 B100 和 Hopper 微架构硬件
  • 在 BF16 和 FP8 精度模式下均验证通过

Llama-3.1-Nemotron-Ultra-253B-v1 的训练包括模型蒸馏、SFT、面向推理的 RL 以及面向对齐的 RL 四个阶段。

特别地,区别于一些只支持推理的大模型,Ultra 模型支持通过系统提示词控制是否开启推理模式

该模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型开发,拥有 2530 亿个参数,在多项第三方基准测试中表现出色:

  • 值得关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。
  • 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
  • 但在 MATH500 和 Arena Hard 基准测试中,DeepSeek R1 仍略占优势。
  • 在一系列基准测试中,Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。


相關推薦

2025-03-26

eek-V3-0324以53.5%平均得分领跑,领先Claude 3.7/GPT-4o,仅次于DeepSeek-R1。 »实测表现 X博主「@KuittinenPetri」表示,更新后的DeepSeek-V3-0324可以轻松免费地创建漂亮的HTML5、CSS和前端。 提示词如下,大家也可以自行尝试:为AI公司「Nexus

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2023-08-31

可观测领域的神器 or 鸡肋? 阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。 Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语/代码词块的数据集上进

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2025-04-15

用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。   近期,蚂蚁集团也在加码具身智能、AI眼镜等新方向——显然,大模型之外,蚂蚁在寻找更多破局点。在当前这个节

2023-09-16

多元共进|2023 Google 开发者大会精彩演讲回顾 数据和人工智能公司 Databricks 宣布完成由 T. Rowe Price Associates 领投的第一轮融资。本轮融资共筹集了超过 5 亿美元的资金,使得公司估值达到 430 亿美元,每股定价为 73.50 美元。

2025-03-27

模型能力提升一览 推理任务表现提高 新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 新版 V3 模型

2024-10-31

在最近于加利福尼亚州圣克拉拉举行的 RISC-V 峰会上,英伟达、高通、谷歌和三星等行业巨头齐聚一堂,共同探索 RISC-V 架构的潜力。此次合作标志着向开源计算的转变,将 RISC-V 定位为成熟的 Arm 和 x86 架构的有力替代品。 值得

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-07-04

Inflection AI 宣布在新一轮融资中筹集了 13 亿美元,该轮融资由微软、里德霍夫曼、比尔盖茨、埃里克施密特和新投资者 NVIDIA 领投,新一轮融资使公司融资总额达到15.25 亿美元,在 AI 领域的估值仅次于 OpenAI 公司。 Inflection AI

2025-04-08

模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大会于3月17日至21日在美国加利福尼亚州圣何塞召开。公司首席执行官黄仁勋在主题演讲中说,随着AI行

2025-03-21

英伟达收购了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成

2022-09-06

自研模型。在经过内部业务打磨之后,我们将EasyNLP 推向开源社区,希望能够服务更多的 NLP 算法开发者和研究者,也希望和社区一起推动 NLP 技术特别是中文 NLP 的快速发展和业务落地。 开源项目地址:https://github.com/alibaba/EasyN