英伟达开源多模态音频模型 Audio Flamingo 3


英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。

该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据 NVIDIA OneWay 非商业许可证发布。

AF3 引入了多项创新功能,包括统一音频编码器 AF-Whisper(支持语音、环境音和音乐的联合表征学习)、按需推理(通过 AF-Think 数据集实现链式推理步骤)、多轮多音频对话(AF-Chat 数据集)以及长达 10 分钟的长音频理解与推理能力,同时支持语音到语音的交互 。

此外,AF3 完全使用开源音频数据进行训练,其中包括NVIDIA创建的四个新的大规模数据集:AudioSkills-XL、LongAudio-XL、AF-Think 和 AF-Chat。模型支持 WAV、MP3、FLAC 等音频格式和文本作为输入,最大音频长度为10分钟,最大输入文本长度为16000个token。其输出为文本,并可选地生成流式语音波形。

Audio Flamingo 3 针对 NVIDIA A100 和 H100 GPU 进行了优化,以实现更快的训练和推理。

https://huggingface.co/nvidia/audio-flamingo-3
https://github.com/NVIDIA/audio-flamingo
https://research.nvidia.com/labs/adlr/AF3/
https://x.com/huggingface/status/1946354015568052228


相關推薦

2023-03-31

非营利组织  LAION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。

2025-06-04

。 目前,OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库,以及相关技术论文。 项目主页:https://omniaudio-360v2sa.github.io/ 代码和数据开源仓库:https://github.com/liuhuadai/OmniAudio 论文地址:https://arxiv.org/abs/2504.14906 (@APPSO

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均

2025-04-03

现出色。 据悉,阿里通义千问自成立以来,已经向全球开源了超过200款模型。这些模型覆盖了自然语言处理、计算机视觉等多个领域,为科研和企业应用提供了强有力的支持。而 Qwen 系列的衍生模型数量已经突破10万,超越了

2025-07-26

在国产芯片32K上下文推理效率最高可达DeepSeek R1的300%,在英伟达H800芯片将推理效率提升了70%以上。该模型将于7月31日向全球开源。 此外,阶跃星辰宣布与上海国有资本投资有限公司达成深度战略合作,并透露上海国投将参与

2025-05-16

Stability AI 发布了一款名为 Stable Audio Open Small 的音频生成模型,可在手机端上运行。 Hugging Face:https://huggingface.co/stabilityai/stable-audio-open-small Stable Audio Open Small 是 Stability AI 与 Arm 公司合作的成果。该模型的训练集完全由免版

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。 摩尔线程AI团队在该工作中

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 重要更新 最新音频课程现已发布 近期,我们发布了一个音频

2024-10-16

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,