英伟达研究团队发布混合架构语言模型 Jet-Nemotron

2025-08-29 發表於开源资讯

英伟达研究团队发布了Jet-Nemotron，这是一个新一代的混合架构语言模型系列。该系列通过Post Neural Architecture Search (PostNAS)流程，在冻结预训练全注意力模型MLP权重的前提下，仅对注意力模块进行高效的设计探索，实现了与领先全注意力模型相当或更高的精度，同时显著提升了生成吞-吐量。

https://arxiv.org/abs/2508.15884v1

基于该流程构建的Jet-Nemotron-2B在全面的基准测试中，精度与Qwen3、Qwen2.5、Gemma3、Llama3.2相当或更优，生成阶段吞吐速度提升最高达53.6倍，预填充阶段提速6.1倍。在MMLU与MMLU-Pro基准上，其准确度也高于近期先进的MoE全注意力模型DeepSeek-V3-Small（总参数量15B）和Moonlight（激活参数量2.2B）。

Jet-Nemotron的核心创新还包括JetBlock，这是一种动态线性注意力设计，能够智能过滤值标记，性能优于Mamba2和GLA等早期线性方法。

此外，它还采用了混合注意力策略，即在保留少量全注意力层以维护推理能力的同时，将其余部分替换为JetBlock，从而显著降低内存占用并提升吞吐量。

相關推薦

英伟达最新研究：SLM（小型语言模型）才是 Agentic AI 的未来

2025-08-20

英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文，提出了一个极具颠覆性的观点：SLM（小型语言模型）才是智能代理（Agentic AI）的未来。 https://arxiv.org/pdf/2506.02153 论文核心观点总结

理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

2025-08-29

语言模型的计算任务时，1颗M100所能提供的有效算力与2颗英伟达Thor-U大致相当；而在处理卷积神经网络相关的传统视觉任务（如图像识别）时，1颗M100所能提供的有效算力可对标3颗英伟达Thor-U。 M100 预计明年量产上车。在此之

英伟达推出通用深度研究（UDR）系统

2025-09-09

英伟达最新发布另外一个通用深度研究（UDR）系统，目前仍处于原型阶段。该系统不仅可以与任何大语言模型(LLM)兼容，更为用户提供了高度定制的深度研究策略，彻底改变了以往研究智能体的工作方式。根据英伟达的最新论

英伟达发布并开源两款多语言语音模型，支持商用

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3，分别针对语音识别与翻译以及高吞吐量转录场景，均支持商用。 Canary-1b-v2拥有10亿参数，支持25种欧洲语言的自动语音识别（ASR）与双向语音翻

英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

2025-06-06

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型（VLM）。该模型拥有80亿参数，专注于文档智能，能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。据介绍，该模型的开发

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时，表现与高端英伟达芯片的模型相当。通常，MoE 模型的训练需要依赖昂贵的高性能 GPU，如英伟达的 H100和 H800，这不仅成本高昂，还受到芯片短缺的限制，从而影响了其在资源有限环

英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3)，一个完全开源的大型音频-语言模型 (LALM)，在超过 20 个音频理解和推理基准测试中达到最新最优性能。该模型旨在推动音频、语音和音乐领域的 AI 研究，但仅限用于非商业研究目的，并依据&n

全新高效模型架构！RWKV-7s 闪耀 WAIC

2025-07-30

部署在芯片及机器人上，如：高通、联发科、Intel、AMD、英伟达、地平线机器人、有鹿机器人等等。全新技术全面领先 WAIC 大会首日，承接 RWKV-7 优势的 RWKV-7s 新型高效大模型架构正式发布。凭借其原创的 DeepEmbed 和 DeepEmbedAtte

英伟达官宣：CUDA 工具链将全面原生支持 Python

2025-04-09

在近期的 GTC 2025 大会上，英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示，“我们一直在努力让加速计算与 Python 深度融合，使其成为 CUDA 技术栈中的‘

黄仁勋演讲实录：夸赞“中国开源AI已成为世界进步催化剂”

2025-07-17

到非常高兴，这真是个非常、非常好的消息。” 二是，英伟达还将发布一款名为RTX Pro的新显卡。黄仁勋表示，“这款显卡非常重要，因为它是专为计算机图形、数字孪生和人工智能设计的。” 而对于为何“大热天穿皮夹克”

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1，可用于聊天机器人开发、AI Agent 工作流、检索增强生成（RAG）和代码生成等场景。根据英伟达开放模型许可证及 Llama 3.1 社区许可协议，

智源研究院开源统一 AI 编译器 FlagTree

2025-05-28

接入形式灵活：源码、动态库支持多种AI硬件后端：英伟达、摩尔线程等五家厂商架构插件化设计：支持高差异度模块，相关的芯片平台可自行维护这部分模块的代码仓库跨平台编译与快速验证能力 CI/CD：构建完备CI/CD

英伟达开源 Llama-3.3-Nemotron-Super-49B-v1.5 模型

2025-07-30

英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5，这是一款专为推理和 Agentic 任务优化的开源模型，在单个 H100 GPU 上实现高吞吐量。模型介绍 Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集，以支持OCR、VQA和图像字幕生成等多种应用。数据集构成 67.0% 视觉问答（VQA）样本 28.4% OCR 样本 4.6% 图像描述（Captioning）样本主要用途文档理解

熱門推薦