Meta 开源音乐生成模型 MusicGen


Meta 近日在 Github 上开源了其音乐生成模型 MusicGen。据介绍,MusicGen 主要用于音乐生成,它可以将文本和已有的旋律转化为完整乐曲。该模型基于谷歌 2017 年推出的 Transformer 模型。

研发团队表示:“我们使用了 20000 小时的授权音乐来对训练该模型,并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行并行处理,进而让 MusicGen 的运算效率和生成速度都比同类型 AI 模型更为出色。”

除此之外,MusicGen 还支持文本与旋律的组合输入,例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

研发团队还对 MusicGen 的实际表现进行了测试。结果显示,与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音乐模型相比,MusicGen 在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好,总体而言略高于谷歌 MusicLM 的水平。

Meta 已允许该模型的商业使用,并在 Huggingface 上发布了一个供演示用的网页应用。

延伸阅读

  • 谷歌推出 MusicLM,从文本生成音乐的模型

相關推薦

2023-08-04

频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏

2023-10-28

ta 发布语音生成 AI 模型:Voicebox Meta 开源音乐生成模型 MusicGen Meta 开源大模型:支持 4000+ 语言识别,1100+ 种语音文本转换

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚

2023-10-26

发者DeepSparse:稀疏性技术加速神经网络推理DeepSparse是一种开源的CPU推理运行时,采用复杂的稀疏性技术,有效提高神经网络推理速度,支持多种模型。项目地址:https://github.com/neuralmagic/deepsparse【AiBase提要】- 💡 DeepSparse采用稀疏

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2024-04-10

答问题。正式版的Llama 3 将支持多模态,它将能够理解并生成文本和图像。相比之下,下周发布的两款小型机将不具备多模态功能。 一般而言,较小的模型成本更低,运行更快,尤其在运行大型模型成本高昂的当下,其价值尤

2024-03-01

划在7月发布Llama 3,但发布时间表仍可能调整。作为一款开源大语言模型,Llama 3不仅将支持Meta旗下的人工智能助手,还将向外部开发者免费提供,以便他们开发自己的聊天机器人。 Llama作为Meta人工智能战略的核心,对公司具有

2023-08-19

;Code Llama。 据称 Code Llama 最早或在下周推出,这是一款开源软件,构建在 Llama 2 的基础之上。如果消息属实,Code Llama 将会对 OpenAI 等公司构成挑战。 目前尚不清楚 Code Llama 是否与 CodeCompose 有关。CodeCompose 是 Meta 在 5 月份透

2022-11-08

保真神经音频压缩)的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术,该技术由 AI 驱动,可以在音频质量没有损失的前提下,将音频压缩到比 MP3 格式还要小 10 倍的程度。 Meta 将这项技术的实现方法分成了一个由三部分

2024-02-04

季度财报电话会议中,马克 - 扎克伯格解释 Meta 为什么要开源其 AI 技术。 Meta开源其 AI 技术是出于推动技术创新、提升模型质量、建立行业标准、吸引人才、增加透明度和支持其长期战略的考虑。这不仅有助于 Meta 在竞争激烈

2022-07-08

的交流受到了阻碍。 马克·扎克伯格表示: 我们刚刚开源了一个我们建立的 AI 模型,它可以翻译 200 种不同的语言,其中有许多语言还是目前不被其他翻译系统所支持的。我们把这个项目称为 "No Language Left Behind",我们使用

2023-02-28

GPT-3 不同,我们只使用公开的数据集,使我们的工作与开源兼容并可重现,而大多数现有模型依赖的数据要么不公开,要么没有记录。 目前 LLaMA 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的

2022-07-16

在使用上也有一些限制条件,比如 OpenAI 开发的 GPT-3 并不开源;Meta 开发的 OPT-175B 虽然开源,但完整的模型只有在提出申请后才能获得,并且只能用于非商业用途。而 Bloom 就完全不同,并没有这些限制,任何个人或机构都可以