李沐发布开源 TTS 语言大模型 Higgs Audio v2


知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。

Higgs Audio v2 整合了 1000 万小时语音数据到 LLM 文本训练中,在 EmergentTTS-Eval 基准测试中表现优异(尤其在“情绪”和“问题”类别中,较 GPT-4o-mini-tts 分别高出 75.7% 和 55.7% 的胜率),在传统 TTS 基准测试中也取得了最佳性能。

以下是关于 Higgs Audio V2 的详细介绍:

  • 模型特点
    • 多模态能力:不仅能处理文本,还能同时理解并生成语音,可完成简单的文本转语音,也能实现更复杂的任务,如写一首歌并唱出来,再加上配乐。
    • 独特功能:具备生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐等能力。
    • 性能优势:在emergenttts-eval基准上,相较于其他模型,性能遥遥领先,尤其是在“情绪”和“问题”类别中,相比gpt-4o-mini-tts高出了75.7%和55.7%的胜率。在seed-tts eval和情感语音数据集(esd)等传统tts基准测试中也取得了最佳性能。
  • 技术原理
    • 数据处理:将语音信号以每秒25帧的速度运行,通过统一的离散化音频分词器,将其表示为长度为10的编号序列,也就是一个个token,以捕获语义和声学特征。
    • 模型架构:利用预训练的大型语言模型,将其强大的语言理解、语境感知和推理能力扩展到音频任务。通过在大量的配对文本-音频数据集上端到端地训练大型语言模型,实现了语音和文本的整合。
    • 上下文学习:融入了上下文学习,使模型能够快速适应而无需重新训练。通过简单的提示,例如简短的参考音频样本,可以即时进行零样本语音克隆,匹配说话风格。
  • 应用场景
    • 实时语音聊天:可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答,适用于虚拟主播、实时语音助手等场景。
    • 音频内容创作:能够生成自然多说话人对话、旁白等音频内容,为有声读物、互动培训和动态故事讲述等提供支持。
    • 语音克隆:可以复制特定人物的声音,用于制作鬼畜视频、虚拟主播等,为娱乐和创意领域提供了新的可能性。

该模型代码已全部开源至 GitHub:https://github.com/boson-ai/higgs-audio,和 Hugging Face(https://huggingface.co/bosonai/higgs-audio-v2-generation-3B-base),支持本地安装(需 GPU 版 PyTorch 或使用 Docker 简化安装)。


相關推薦

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2023-08-25

站,聊聊 AI 大模型与底层技术 >>> StaxRip v2.27.0 现已发布。StaxRip 是一个开源的视频转换工具,可以将蓝光光盘或 DVD 中的视频转换成 PC 常用的视频格式,具有一系列解复用器,复用器,编码器和解码器。需要在 .NET Framew

2025-06-08

意识正在形成 今日凌晨,OpenAI 模型行为主管 Joanne Jang 发布了长篇博文,分析了 ChatGPT 目前与用户之间的情感关系,并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出,最近越来越多用户反映称,与 ChatGPT 聊天就

2025-07-17

带来了令人兴奋的消息!AigcPanel v0.14.0 版本现已正式发布,本次更新致力于为大家带来更加流畅、高效且便捷的使用体验,快来看看都有哪些惊喜变化吧! 软件介绍 AigcPanel是一个简单易用的一站式AI数字人系统,小白也

2025-04-18

使用。 支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。 禁止使用本产品进行违法违规业务,使用本软件请遵守中华人民共和国法律法规。 模型新增 语音模型 新增 [云端] 聚合声音合

2024-10-16

ain, LlamaIndex, Dify,以及 Chatbox。 🎉 Xinference v0.15.4 发布,本次带来的更新如下: 📋 更新指南 * 🏷️ pip:pip install 'xinference==0.15.4’ * 🐳 Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新 🆕 更新日志 * 新增

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场

2025-03-27

清华大学的研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性

2025-07-23

转语音 (TTS) 生成是可控制的,这意味着您可以使用自然语言来构建互动,并引导音频的风格、口音、节奏和语气。 TTS 功能不同于通过 Live API 提供的语音生成功能,后者专为互动式非结构化音频以及多模态输入和输出而设计。

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-04-18

GeekAI 基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。支持AI写作,AI生图,AI生音乐,AI生成视频,AI智能体等功能。 GeekAI v4.2.2 更新内容 功能优化:开启图形验证码功能的时候现

2025-04-03

MiniMax Audio 正式发布了全新的 Speech-02 系列语音模型,支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入,即可轻松创建有声读物和播客,最多可输入 20 万个字符,支持 30 多种语言的音频生成,效果自然流畅。 S

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L