Meta 开源音乐生成模型 MusicGen

2023-06-18 發表於开源资讯

Meta 近日在 Github 上开源了其音乐生成模型 MusicGen。据介绍，MusicGen 主要用于音乐生成，它可以将文本和已有的旋律转化为完整乐曲。该模型基于谷歌 2017 年推出的 Transformer 模型。

研发团队表示：“我们使用了 20000 小时的授权音乐来对训练该模型，并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行并行处理，进而让 MusicGen 的运算效率和生成速度都比同类型 AI 模型更为出色。”

除此之外，MusicGen 还支持文本与旋律的组合输入，例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

研发团队还对 MusicGen 的实际表现进行了测试。结果显示，与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音乐模型相比，MusicGen 在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好，总体而言略高于谷歌 MusicLM 的水平。

Meta 已允许该模型的商业使用，并在 Huggingface 上发布了一个供演示用的网页应用。

延伸阅读

谷歌推出 MusicLM，从文本生成音乐的模型

相關推薦

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

2023-08-04

频。 Meta 表示，这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频，或更复杂的音乐，适用于游戏

扎克伯克：Meta 明年投入更多工程和计算资源到 AI 领域

2023-10-28

ta 发布语音生成 AI 模型：Voicebox Meta 开源音乐生成模型 MusicGen Meta 开源大模型：支持 4000+ 语言识别，1100+ 种语音文本转换

Meta 正在构建新开源大模型，性能超越 Llama 2、比肩 GPT-4

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争，将发布新的开源大模型，其性能或将与GPT-4 不相上下。报道称，这款新模型比 Llama 2 强大数倍，将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中，最终功能尚

AI视野：百度开放文心4.0开发权限申请；腾讯混元大模型开放文生图功能；谷歌AI应用禁止生成受限内容；Midjourney新网站上线测试版

2023-10-26

发者DeepSparse:稀疏性技术加速神经网络推理DeepSparse是一种开源的CPU推理运行时，采用复杂的稀疏性技术，有效提高神经网络推理速度，支持多种模型。项目地址:https://github.com/neuralmagic/deepsparse【AiBase提要】- 💡 DeepSparse采用稀疏

昆仑万维发布全球首款音乐推理大模型 Mureka O1

2025-03-27

出 Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型，性能超越Suno、模型登顶SOTA，中国科技创新再次在AI音乐领域领跑全球。” 2024年4月，昆仑万维发布了第一代音乐生成模型：Mureka V1（SkyMusic）。Mureka V6是

Meta 开源基于 Llama 2 的 AI 代码生成大模型：Code Llama

2023-08-26

创会」北京站，聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama，可根据代码和自然语言提示生成代码和有关代码的自然语言，支持多种主流编程语言，包括 Python、C++、Java、PH

Meta 开源新的“多标记预测”语言模型

2024-07-06

Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测（multi-token prediction）实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索，该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。 “大

昆仑万维正式上线音乐模型 Mureka V7

2025-07-24

昆仑万维宣布推出最新音乐模型Mureka V7，以及全新的音频模型Mureka TTS V1——支持Voice Design音色设计能力。 “Mureka V7是一座24小时不打烊的私人录音棚，它懂得旋律的呼吸，也懂得你偶尔的情绪化。只需要敲下一个主题、几行

Meta 开源创新大模型架构 AU-Nets

2025-07-25

Meta 开源了创新大模型架构 AU-Nets（Autoregressive U-Nets），其通过自回归 U-Net 架构彻底改变了传统语言模型的分词和处理模式，能够直接从原始字节开始学习，动态将字节组合成单词、词对甚至多达四个单词的组合，形成多尺度序

ElevenLabs 推出 AI 音乐生成服务“Eleven Music”

2025-08-08

ElevenLabs宣布推出 AI 音乐生成服务 “Eleven Music”，据称能够根据自然语言提示生成录音室级别的音乐。 https://elevenlabs.io/music Eleven Music 允许用户完全控制音乐的流派、风格和结构，可以选择生成带人声的歌曲或纯器乐，并支

比 MP3 小 10 倍，Meta 公开全新音频压缩技术

2022-11-08

保真神经音频压缩）的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术，该技术由 AI 驱动，可以在音频质量没有损失的前提下，将音频压缩到比 MP3 格式还要小 10 倍的程度。 Meta 将这项技术的实现方法分成了一个由三部分

ElevenLabs 上线 Eleven Music API，首款商用 AI 音乐生成接口

2025-08-20

这是首款基于全授权数据训练、专为开发者打造的商用AI音乐生成接口。自2024年推出以来，创作者已通过该工具生成超75万首歌曲，印证市场强劲需求。使用文档：https://elevenlabs.io/docs/cookbooks/music/quickstart 据介绍，该API突

Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架

2025-05-10

Meta 开源了名为 LlamaFirewall 的安全框架，用于应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。 https://meta-llama.github.io/PurpleLlama/LlamaFirewall/ 随着大型语言模型（LLMs）嵌入 AI 智能体并被

Meta 发布开源世界模型 V-JEPA 2

2025-06-13

Meta发布了最新的开源世界模型V-JEPA 2，称其在物理世界中实现了最先进的视觉理解和预测，从而提高了AI agents的物理推理能力。开源地址：https://github.com/facebookresearch/vjepa2 官网地址：https://ai.meta.com/vjepa/ 论文地址：https://ai.me

熱門推薦