英伟达研究团队发布混合架构语言模型 Jet-Nemotron


英伟达研究团队发布了Jet-Nemotron,这是一个新一代的混合架构语言模型系列。该系列通过Post Neural Architecture Search (PostNAS)流程,在冻结预训练全注意力模型MLP权重的前提下,仅对注意力模块进行高效的设计探索,实现了与领先全注意力模型相当或更高的精度,同时显著提升了生成吞-吐量。

https://arxiv.org/abs/2508.15884v1

基于该流程构建的Jet-Nemotron-2B在全面的基准测试中,精度与Qwen3、Qwen2.5、Gemma3、Llama3.2相当或更优,生成阶段吞吐速度提升最高达53.6倍,预填充阶段提速6.1倍。在MMLU与MMLU-Pro基准上,其准确度也高于近期先进的MoE全注意力模型DeepSeek-V3-Small(总参数量15B)和Moonlight(激活参数量2.2B)。

Jet-Nemotron的核心创新还包括JetBlock,这是一种动态线性注意力设计,能够智能过滤值标记,性能优于Mamba2和GLA等早期线性方法。

此外,它还采用了混合注意力策略,即在保留少量全注意力层以维护推理能力的同时,将其余部分替换为JetBlock,从而显著降低内存占用并提升吞吐量。


相關推薦

2025-08-20

英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文,提出了一个极具颠覆性的观点:SLM(小型语言模型)才是智能代理(Agentic AI)的未来。 https://arxiv.org/pdf/2506.02153 论文核心观点总结

2025-08-29

语言模型的计算任务时,1颗M100所能提供的有效算力与2颗英伟达Thor-U大致相当;而在处理卷积神经网络相关的传统视觉任务(如图像识别)时,1颗M100所能提供的有效算力可对标3颗英伟达Thor-U。 M100 预计明年量产上车。在此之

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3,分别针对语音识别与翻译以及高吞吐量转录场景,均支持商用。 Canary-1b-v2拥有10亿参数,支持25种欧洲语言的自动语音识别(ASR)与双向语音翻

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。 据介绍,该模型的开发

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-07-30

部署在芯片及机器人上,如:高通、联发科、Intel、AMD、英伟达、地平线机器人、有鹿机器人等等。 全新技术 全面领先 WAIC 大会首日,承接 RWKV-7 优势的 RWKV-7s 新型高效大模型架构正式发布。凭借其原创的 DeepEmbed 和 DeepEmbedAtte

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-07-17

到非常高兴,这真是个非常、非常好的消息。” 二是,英伟达还将发布一款名为RTX Pro的新显卡。黄仁勋表示,“这款显卡非常重要,因为它是专为计算机图形、数字孪生和人工智能设计的。” 而对于为何“大热天穿皮夹克”

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2025-05-28

接入形式灵活:源码、动态库 支持多种AI硬件后端:英伟达、摩尔线程等五家厂商 架构插件化设计:支持高差异度模块,相关的芯片平台可自行维护这部分模块的代码仓库 跨平台编译与快速验证能力 CI/CD:构建完备CI/CD

2025-07-30

英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5,这是一款专为推理和 Agentic 任务优化的开源模型,在单个 H100 GPU 上实现高吞吐量。 模型介绍 Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。 数据集构成 67.0% 视觉问答(VQA)样本 28.4% OCR 样本 4.6% 图像描述(Captioning)样本 主要用途 文档理解

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框