英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22 發表於开源资讯

英伟达发布了 Audio Flamingo 3 (AF3)，一个完全开源的大型音频-语言模型 (LALM)，在超过 20 个音频理解和推理基准测试中达到最新最优性能。

该模型旨在推动音频、语音和音乐领域的 AI 研究，但仅限用于非商业研究目的，并依据 NVIDIA OneWay 非商业许可证发布。

AF3 引入了多项创新功能，包括统一音频编码器 AF-Whisper（支持语音、环境音和音乐的联合表征学习）、按需推理（通过 AF-Think 数据集实现链式推理步骤）、多轮多音频对话（AF-Chat 数据集）以及长达 10 分钟的长音频理解与推理能力，同时支持语音到语音的交互。

此外，AF3 完全使用开源音频数据进行训练，其中包括NVIDIA创建的四个新的大规模数据集：AudioSkills-XL、LongAudio-XL、AF-Think 和 AF-Chat。模型支持 WAV、MP3、FLAC 等音频格式和文本作为输入，最大音频长度为10分钟，最大输入文本长度为16000个token。其输出为文本，并可选地生成流式语音波形。

Audio Flamingo 3 针对 NVIDIA A100 和 H100 GPU 进行了优化，以实现更快的训练和推理。

https://huggingface.co/nvidia/audio-flamingo-3
https://github.com/NVIDIA/audio-flamingo
https://research.nvidia.com/labs/adlr/AF3/
https://x.com/huggingface/status/1946354015568052228

相關推薦

LAION-AI 推出 OpenFlamingo，有望成为 GPT-4 开源替代品

2023-03-31

非营利组织 LAION-AI 发布了 OpenFlamingo，这是一个用于训练和评估大型多模态模型 (LMM)的框架，属于 DeepMind 的 Flamingo 模型（一种能够处理和推理图像、视频和文本的等多模态内容的框架）的开源复制品。其数据集 OpenFlamingo-9

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

。目前，OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库，以及相关技术论文。项目主页：https://omniaudio-360v2sa.github.io/ 代码和数据开源仓库：https://github.com/liuhuadai/OmniAudio 论文地址：https://arxiv.org/abs/2504.14906 （@APPSO

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手，其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括：LinkSoul.AI、北京大学和 01.ai (零一万物)，其中共同一作 Yu Shu 和 Siwei Dong 均

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

现出色。据悉，阿里通义千问自成立以来，已经向全球开源了超过200款模型。这些模型覆盖了自然语言处理、计算机视觉等多个领域，为科研和企业应用提供了强有力的支持。而 Qwen 系列的衍生模型数量已经突破10万，超越了

英伟达发布并开源两款多语言语音模型，支持商用

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3，分别针对语音识别与翻译以及高吞吐量转录场景，均支持商用。 Canary-1b-v2拥有10亿参数，支持25种欧洲语言的自动语音识别（ASR）与双向语音翻

Stability AI 发布可在端侧运行的全新音频生成模型

2025-05-16

Stability AI 发布了一款名为 Stable Audio Open Small 的音频生成模型，可在手机端上运行。 Hugging Face：https://huggingface.co/stabilityai/stable-audio-open-small Stable Audio Open Small 是 Stability AI 与 Arm 公司合作的成果。该模型的训练集完全由免版

阶跃星辰发布最强开源多模态推理模型 Step3

2025-07-26

在国产芯片32K上下文推理效率最高可达DeepSeek R1的300%，在英伟达H800芯片将推理效率提升了70%以上。该模型将于7月31日向全球开源。此外，阶跃星辰宣布与上海国有资本投资有限公司达成深度战略合作，并透露上海国投将参与

摩尔线程开源音频理解大模型 MooER

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER（摩耳）。公告称，MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型，不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。摩尔线程AI团队在该工作中

阿里云开源通义千问 720 亿参数模型 Qwen-72B

2023-12-02

今天，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。地址：https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍，Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70

阿里通义开源音频语言模型 Qwen2-Audio

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本，它能够接受音频和文本输入，并生成文本输出。具有以下特点：语音聊天：用户可以使用语音向音频语言模型发出指令，无需通过自动语音识别（ASR）

华为在 WAIC 现场展示昇腾 384 超节点真机（Atlas 900 A3 SuperPoD）

2025-07-29

形成一台超级“AI服务器”，其算力总规模达300Pflops，是英伟达NVL72的1.7倍。网络互联总带宽达269TB/s，比英伟达NVL72提升107%；内存总带宽达1229TB/s，比英伟达NVL72提升113%；单卡推理吞吐量跃升到2300 Tokens/s。华为官方透露，目

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

中国AI社区7月高亮时刻，回溯这一个月来令人眼花缭乱的开源浪潮。包括： ✨ 另一个“DeepSeek时刻”——Kimi K2 ✨ Qwen完全矩阵化- Instruct / Thinking / Coder模型跨越30B - 480B参数规模 ✨ 多模态浪潮： GLM-4.1V-Thinking: Image+Text &

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息，快来看看吧！重要更新最新音频课程现已发布近期，我们发布了一个音频

熱門推薦