英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。
该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据 NVIDIA OneWay 非商业许可证发布。
AF3 引入了多项创新功能,包括统一音频编码器 AF-Whisper(支持语音、环境音和音乐的联合表征学习)、按需推理(通过 AF-Think 数据集实现链式推理步骤)、多轮多音频对话(AF-Chat 数据集)以及长达 10 分钟的长音频理解与推理能力,同时支持语音到语音的交互 。
此外,AF3 完全使用开源音频数据进行训练,其中包括NVIDIA创建的四个新的大规模数据集:AudioSkills-XL、LongAudio-XL、AF-Think 和 AF-Chat。模型支持 WAV、MP3、FLAC 等音频格式和文本作为输入,最大音频长度为10分钟,最大输入文本长度为16000个token。其输出为文本,并可选地生成流式语音波形。
Audio Flamingo 3 针对 NVIDIA A100 和 H100 GPU 进行了优化,以实现更快的训练和推理。
https://huggingface.co/nvidia/audio-flamingo-3
https://github.com/NVIDIA/audio-flamingo
https://research.nvidia.com/labs/adlr/AF3/
https://x.com/huggingface/status/1946354015568052228