MOSS-TTSD 开源：百万小时训练打造 AI 播客新王者

2025-08-02 發表於开源资讯

由清华大学语音与语言实验室 (Tencent AI Lab) 联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD (Text to Spoken Dialogue) 近日正式开源。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer，采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。

模型支持最长960秒的超长语音生成，避免了传统TTS模型拼接片段导致的不自然过渡。此外，MOSS-TTSD具备零样本音色克隆能力，可通过上传完整对话片段或单人音频实现双人语音克隆，并支持声音事件控制，如笑声等非语言声音，赋予语音更丰富的表现力。

与市场上其他语音模型相比，MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast，韵律和自然度表现优异。然而，相较于字节跳动的豆包语音模型，其语气和节奏感略逊一筹，但在开源和免费商业使用的优势下，MOSS-TTSD仍展现出强大的应用潜力。

MOSS-TTSD的发布为AI语音交互领域注入新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将推动内容创作的智能化进程。未来，团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达。

相關推薦