Meta 发布开源 AI 工具 AudioCraft,文本自动生成音乐


Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。

Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

根据官网的介绍,MusicGen 接受过 Meta 拥有的和特别授权的音乐训练,可以从文本提示生成音乐,而 AudioGen 接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声;再加上 EnCodec 编解码器的改进版本,用户可以更高效率地生成更高质量的音乐。

总结就是,Audiocraft 由 MusicGen、AudioGen 和 EnCodec 三个模型组合而成:

  • MusicGen是一个文本生成音乐的自回归语言模型,大约使用了40万份文本描述和元数据的录音,总计2万小时的授权音乐进行训练。可通过文本自动生成摇滚、流行、重金属、RPA等类型音乐。
  • AudioGen是一个文本生成音频的自回归语言模型,具备分离音频功能,例如,可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时,更准确贴近用户的目标音乐。
  • EnCodec是一个高保真音频、音乐的压缩和解压器,可以用最小的体积尽可能还原原始音乐,这对于打造高质量音频模型来说至关重要。EnCodec由编码器、量化器和解码器三大块组成。
    • 编码器,通过获取未压缩的数据,并将其转换为更高维度和更低帧速率的表示。
    • 量化器,将编码器生成的“表示”压缩到目标大小,同时保留最重要的信息来重建原始信号。
    • 解码器,将压缩信号转换回,与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建,所以,使用了鉴别器来提高音频生成样本的质量。

相關推薦

2023-10-28

翻译近 100 种语言 Meta 发布开源 AI 工具 AudioCraft,文本自动生成音乐 Meta 放大招:发布开源大语言模型 Llama 2,可免费商用 Meta 发布语音生成 AI 模型:Voicebox Meta 开源音乐生成模型 MusicGen Meta 开源大模型:支持 4000+ 语言识

2023-09-12

essM4T 模型; 用于创作音乐和声音的生成式人工智能模型 AudioCraft;语音生成人工智能模型 Voicebox。它还推出了 I-JEPA(一种可以像人类一样学习的计算机视觉模型)和 FACET(一种基准数据集,旨在帮助研究人员审核计算机视觉模

2023-06-18

水平。 Meta 已允许该模型的商业使用,并在 Huggingface 上发布了一个供演示用的网页应用。 延伸阅读 谷歌推出 MusicLM,从文本生成音乐的模型

2023-10-26

开放文心4.0开发权限申请在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/cha

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2025-04-22

Threads)中遭到禁用,用户无法使用其核心功能,如写作工具(Writing Tools)和自定义表情符号生成器(Genmoji)。此举被认为与Meta推动自家Meta AI工具的战略有关。 Apple Intelligence是苹果于2024年随iOS18推出的AI功能套件,旨在通过智能写

2022-11-08

保真神经音频压缩)的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术,该技术由 AI 驱动,可以在音频质量没有损失的前提下,将音频压缩到比 MP3 格式还要小 10 倍的程度。 Meta 将这项技术的实现方法分成了一个由三部分

2025-03-27

创新再次在AI音乐领域领跑全球。” 2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMusic)。Mureka V6是当前Mureka的基座模型,支持纯音乐生成,还支持10种语言的AI音乐创作,包括英语、中文、日语、韩语、法语、西

2025-07-24

律。 Mureka TTS V1 支持 Voice Design 能力,用户可以通过文本输入想要的语音特征获得对应的音色。不论是真实人物、虚拟人物还是配音角色,都能够通过文本来控制,摆脱了过去只能通过现有音色库实现音色克隆,或是只能使

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。

2025-08-05

、创立了 Pika Labs,致力于开发基于文本生成短视频的 AI 工具。 值得一提的是,郭文景入读斯坦福读博前还曾任职于 Meta AI 研究团队。据了解,郭文景自幼展现非凡学术天赋,被誉为「学霸少女」,是浙江杭二中首个被哈佛本

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2024-07-05

世界知识产权组织发布《生成式人工智能专利态势报告》显示,2014年至2023年,中国发明人申请的生成式人工智能专利数量最多,远超美国、韩国、日本和印度等国。2014年至2023年,全球生成式人工智能相关的发明申请量达54000件

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n