法国 AI 研究机构开源 Kyutai TTS,低延迟流式文本转语音技术


法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

https://kyutai.org/next/tts

Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。

在语言支持与质量评估方面,Kyutai TTS目前支持英语和法语,单词错误率(WER)分别为2.82和3.29,展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统TTS的30秒限制,适合新闻、书籍等长篇内容生成。

Kyutai TTS采用延迟流建模(DSM)架构,结合Rust服务器实现高效批处理,已在GitHub和Hugging Face开放源码与模型权重,助力全球开发者推动语音技术创新。

开源地址:https://github.com/kyutai-labs/delayed-streams-modeling


相關推薦

2025-06-08

相关研究成果已被人工智能顶会 ICML 2025 收录,项目代码开源计划正在筹备中。 Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架,旨在生成高质量且可控的肖像动画视频。该方法通过解

2025-03-22

全新语音模型 API,具体包括: gpt-4o-transcribe (语音转文本):单词错误率 (WER) 显著降低,在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高 gpt-4o-mini-tts (

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务, 新增支持生成三种中文方言,包括北京话、上海话和四川话。 据介绍,Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果达到了人类级别的自然度和表现力

2025-03-27

清华大学的研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性

2025-06-27

DeepSpeech 是 Mozilla 开发的一款开源语音转文本引擎,基于百度 2014 年发表的研究论文《Deep Speech: Scaling up end-to-end speech recognition》所提出的端到端语音识别方法开发。 从 DeepSpeech 的仓库动态来看,Mozilla 已于上周将项目仓库

2023-08-25

基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持: 自动语音识别近百种语言 近 100 种输入和输出语言的语音到文本翻译 语音翻译,支持近 100 种输入语言和 35 种(+英语)输出语言 近 100 种

2025-04-03

现出色。 据悉,阿里通义千问自成立以来,已经向全球开源了超过200款模型。这些模型覆盖了自然语言处理、计算机视觉等多个领域,为科研和企业应用提供了强有力的支持。而 Qwen 系列的衍生模型数量已经突破10万,超越了

2023-11-03

务。 借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之

2025-05-24

火山引擎正式推出豆包·语音播客模型,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。无需复杂剪辑,热点内容就能瞬间转化为生动播客

2022-09-10

专家、对话式AI先行者、中科院声学所副研究员、博士、法国国家实验室LIMSI-CNRS博士后、获得《财富》2021年中国最具影响力的商界女性未来榜、创业邦2021年最值得关注的女性创业者、CCF语音对话与听觉专委会委员、CCF智能汽车

2025-06-05

在工业物联网(IIoT)与边缘计算深度融合的今天,NebulaFlow开源框架的发布标志着分布式AI推理技术迈入新阶段。本文深度解析该框架如何通过创新的数据流编排机制,在工业质检、设备预测性维护等场景中实现毫秒级响应,同时揭

2025-04-18

用本软件请遵守中华人民共和国法律法规。 模型新增 语音模型 新增 [云端] 聚合声音合成模型 支持数千种声音角色: 中文269个、英文442个、中文方言93个、其他语种4707个。 功能特性 支持视频数字人合成,支持视

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均