MOSS-TTSD 开源:百万小时训练打造 AI 播客新王者


由清华大学语音与语言实验室 (Tencent AI Lab) 联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD (Text to Spoken Dialogue) 近日正式开源。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。

模型支持最长960秒的超长语音生成,避免了传统TTS模型拼接片段导致的不自然过渡。此外,MOSS-TTSD具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD仍展现出强大的应用潜力。

MOSS-TTSD的发布为AI语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。


相關推薦

2023-03-28

入了生成式 AI 领域的竞争之中,发布了一个名为 Dolly 的开源大型语言模型,将模型命名为 Dolly 是为了向第一只克隆羊多莉致敬。 像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数

2023-07-08

成为货运列检员身边有力的数字助手,将列检员从每日数百万张的“图海”检测中解放出来。 在气象领域,盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型,同时预测速度也有大幅提升。原来预测一个台风未来10

2025-06-13

Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。 开源地址:https://github.com/facebookresearch/vjepa2 官网地址:https://ai.meta.com/vjepa/ 论文地址:https://ai.me

2025-04-12

时候推出“any-to-any”模型。 而这些全能模型需要大量的训练数据,譬如图像、视频、音频、文本等等。Hassabis 暗示,Veo 的视频数据主要来自谷歌旗下的平台 YouTube。“基本上,通过观看 YouTube 视频--大量的 YouTube 视频,[Veo 2]

2025-07-31

的创收机会。 黄仁勋预测在未来 5 年内,AI 领域创造的百万富翁要多于互联网 20 年创造的。 这种技术被他称为"有史以来最伟大的技术均衡器",因为它能让任何人都成为程序员。传统编程需要掌握Python或C++等复杂编程语言,

2025-07-29

达数百万美元。“别自己做。你可以租赁一些模型,也有开源的。” Taylor 建议,创业者应避免从零开始训练模型,而是专注于构建应用、服务或 AI 工具市场,并考虑通过 API 调用或开源模型来实现产品落地。他认为,这种

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼

2025-05-30

革性,不直接复制原作品。 相关报道称,Getty已投入数百万美元在英美两国提起诉讼,CEO克雷格·彼得斯坦承诉讼成本“高得令人却步”,但强调“证据非常有力”。 彼得斯坦承这场斗争并不轻松:“我认为我方证据非常有

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。 摩尔线程AI团队在该工作中

2025-06-18

豆包电脑版已全量上线 AI 播客功能。该功能已在扣子空间、豆包电脑版上线;豆包App也已开启小流量测试,将于近期全量上线。 用户只需访问 doubao.com,在页面中选择“AI播客”功能,随后上传pdf文件或网页链接,便能迅速生

2025-05-10

字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow。作为一款基于LangChain和LangGraph框架构建的智能研究助手,DeerFlow 深度整合了语言模型与网络搜索、爬虫、Python代码执行等专业工具。 DeerFlow旨在通过AI技术提

2025-06-24

这块做得更好,这个过程里我们虽然没有资源和钱去做预训练,但基于第一批的用户不断优化,我们是有信心的。而且我不担心这个事儿会被大公司覆盖掉。所以我们想要做得更好,被收费也是一个好的出路。”罗永浩表示,用

2025-06-19

,为企业提供持续创新和高效协作的解决方案。 今天,开源PHP技术社区(OSCHINA.NET)推出“数字化企业知识管理AI平台”,以突破性思路重塑社区商业模式:将社区沉淀的技术力与AI深度融合,打造可私有化部署的“企业知识中

2023-11-23

Stability AI 发布了开源视频生成模型 Stable Video Diffusion,该模型基于该公司现有的 Stable Diffusion 文本转图像模型,能够通过对现有图像进行动画化生成视频。 主要特性 文本到视频 图像到视频 14 或 25 帧,576 x 1024分辨率 多