昆仑万维发布全球首款音乐推理大模型 Mureka O1

2025-03-27 發表於开源资讯

昆仑万维宣布推出 Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型，性能超越Suno、模型登顶SOTA，中国科技创新再次在AI音乐领域领跑全球。”

2024年4月，昆仑万维发布了第一代音乐生成模型：Mureka V1（SkyMusic）。Mureka V6是当前Mureka的基座模型，支持纯音乐生成，还支持10种语言的AI音乐创作，包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语和俄语。在Mureka V6中，团队引入自研 ICL（in-context learning）技术，使得声场更加开阔，人声质感和混音设计进一步强化。

Mureka O1模型是基于Mureka V6思维链的推理优化版本，也是全球范围内首个引入CoT的音乐模型，在推理过程中加入思考与自我批判，大幅提升音乐品质、音乐创作效率和灵活性。

Mureka V6和O1模式支持多元化的音乐创作风格及情感表达。曲风涵盖爵士(Jazz)、电子(Electronic)、流行(Pop)、乡村(Country)、节奏布鲁斯(R&B)、灵魂乐(Soul)、蓝调(Blues)、摇滚(Rock)、舞曲(Dance)等；情感维度包括快乐、放纵、神秘、充满活力、悲伤等多种情绪表达。

此外，Mureka还提供两个特色音乐生成功能：

歌曲参考（Reference Fuction）：将音乐本身作为提示，用户可直接上传音频或Youtube链接作为创作提示，比文本提示更直接更高级的提示方式；
音色克隆（Vocal Fuction）：Mureka是全球首个可以指定演唱歌手音色的AI音乐生成平台，用户不仅可以选择官方提供的多种歌手音色，还可以上传自己的声音，让AI学习并复刻，精准模拟歌手音色，一键生成个性化专属作品。自定义歌手音色的功能宣告人人都能成为AI歌手的时代正式到来了。

Mureka O1中包含了Mureka团队最新发布的音乐生成领域的创新研究成果——MusiCoT。根据介绍，MusiCoT利用了思维链Chain-of-Thought （CoT）方法，不同于传统自回归模型逐步生成音频，MusiCoT首次在细粒度音频token预测前预生成整体音乐结构，大幅提升生成音乐的结构连贯性与乐器编排精准度。

MusiCoT基于CLAP模型，无需人工标注即具备高扩展性，并显著提高了生成音乐的可解释性和质量。

基于首次在音乐生成领域引入Chain-of-Thought（CoT）技术、算法框架的升级，Mureka O1不仅保持了低延迟音乐生成，还显著提升了歌词旋律契合度、演唱准确性和艺术表现力等，多项指标领先于Suno V4。