Meta 开源音乐生成模型 MusicGen


Meta 近日在 Github 上开源了其音乐生成模型 MusicGen。据介绍,MusicGen 主要用于音乐生成,它可以将文本和已有的旋律转化为完整乐曲。该模型基于谷歌 2017 年推出的 Transformer 模型。

研发团队表示:“我们使用了 20000 小时的授权音乐来对训练该模型,并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行并行处理,进而让 MusicGen 的运算效率和生成速度都比同类型 AI 模型更为出色。”

除此之外,MusicGen 还支持文本与旋律的组合输入,例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

研发团队还对 MusicGen 的实际表现进行了测试。结果显示,与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音乐模型相比,MusicGen 在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好,总体而言略高于谷歌 MusicLM 的水平。

Meta 已允许该模型的商业使用,并在 Huggingface 上发布了一个供演示用的网页应用。

延伸阅读

  • 谷歌推出 MusicLM,从文本生成音乐的模型

相關推薦

2023-08-04

频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏

2023-10-28

ta 发布语音生成 AI 模型:Voicebox Meta 开源音乐生成模型 MusicGen Meta 开源大模型:支持 4000+ 语言识别,1100+ 种语音文本转换

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚

2023-10-26

发者DeepSparse:稀疏性技术加速神经网络推理DeepSparse是一种开源的CPU推理运行时,采用复杂的稀疏性技术,有效提高神经网络推理速度,支持多种模型。项目地址:https://github.com/neuralmagic/deepsparse【AiBase提要】- 💡 DeepSparse采用稀疏

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2024-07-06

Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。 “大

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2024-03-01

划在7月发布Llama 3,但发布时间表仍可能调整。作为一款开源大语言模型,Llama 3不仅将支持Meta旗下的人工智能助手,还将向外部开发者免费提供,以便他们开发自己的聊天机器人。 Llama作为Meta人工智能战略的核心,对公司具有

2024-04-10

答问题。正式版的Llama 3 将支持多模态,它将能够理解并生成文本和图像。相比之下,下周发布的两款小型机将不具备多模态功能。 一般而言,较小的模型成本更低,运行更快,尤其在运行大型模型成本高昂的当下,其价值尤

2024-09-25

引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力。 据火山引擎介绍,豆包视频

2024-10-31

取得了显著进步,用户反馈显示体验满意度显著提升;AI音乐方面,2024年8月14日,全球首个AI流媒体音乐平台Melodio以及AI音乐商用创作平台Mureka正式发布,这两款产品均搭载了公司最新研发的DiT(Diffusion Transformer)架构音乐大模

2022-11-08

保真神经音频压缩)的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术,该技术由 AI 驱动,可以在音频质量没有损失的前提下,将音频压缩到比 MP3 格式还要小 10 倍的程度。 Meta 将这项技术的实现方法分成了一个由三部分

2023-08-19

;Code Llama。 据称 Code Llama 最早或在下周推出,这是一款开源软件,构建在 Llama 2 的基础之上。如果消息属实,Code Llama 将会对 OpenAI 等公司构成挑战。 目前尚不清楚 Code Llama 是否与 CodeCompose 有关。CodeCompose 是 Meta 在 5 月份透