法国 AI 研究机构开源 Kyutai TTS，低延迟流式文本转语音技术

2025-07-05 發表於开源资讯

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场景。

https://kyutai.org/next/tts

Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU，该模型可同时处理32个请求，延迟仅为350毫秒。此外，系统不仅生成高质量音频，还能输出单词的精确时间戳，方便实时字幕生成或交互式应用，如Unmute平台的中断处理功能。

在语言支持与质量评估方面，Kyutai TTS目前支持英语和法语，单词错误率（WER）分别为2.82和3.29，展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语)，确保语音自然且接近原始样本。模型还能处理长篇文章，突破传统TTS的30秒限制，适合新闻、书籍等长篇内容生成。

Kyutai TTS采用延迟流建模（DSM）架构，结合Rust服务器实现高效批处理，已在GitHub和Hugging Face开放源码与模型权重，助力全球开发者推动语音技术创新。

开源地址：https://github.com/kyutai-labs/delayed-streams-modeling

相關推薦

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

FlowSpeech：全球首个书面语转口语的 TTS

2025-08-08

智能语音合成技术迎来新突破。一款名为 FlowSpeech 的 AI 文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。体验地址：https://listenhub.ai/zh?tab=flows

Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露，这项强大的功能适用于多种用例

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

相关研究成果已被人工智能顶会 ICML 2025 收录，项目代码开源计划正在筹备中。 Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架，旨在生成高质量且可控的肖像动画视频。该方法通过解

没有套路，真的免费：模力方舟全免费的模型都在这了

2025-08-02

：超能聊，跑得快 Qwen3-8B / Qwen3-4B / Qwen3-0.6B 国产开源的 Qwen3 系列，从轻量级到中型参数都有，支持「思考模式」与「对话模式」自由切换，还能写代码、讲英文、做推理。模型权重与 API 已全面开放，商用也不用担心授

OpenAI 上线 OpenAI.fm 网站

2025-03-22

全新语音模型 API，具体包括： gpt-4o-transcribe (语音转文本)：单词错误率 (WER) 显著降低，在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、效率更高 gpt-4o-mini-tts (

通义千问 Qwen-TTS 新增支持北京话、上海话和四川话中文方言

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务，新增支持生成三种中文方言，包括北京话、上海话和四川话。据介绍，Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练，合成效果达到了人类级别的自然度和表现力

Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27

DeepSpeech 是 Mozilla 开发的一款开源语音转文本引擎，基于百度 2014 年发表的研究论文《Deep Speech: Scaling up end-to-end speech recognition》所提出的端到端语音识别方法开发。从 DeepSpeech 的仓库动态来看，Mozilla 已于上周将项目仓库

清华大学开源 Video-T1：无需重新训练 AI 视频秒变高清大片

2025-03-27

清华大学的研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

基础的多语言和多任务模型，可以无缝翻译和转录语音和文本。SeamlessM4T 支持：自动语音识别近百种语言近 100 种输入和输出语言的语音到文本翻译语音翻译，支持近 100 种输入语言和 35 种（+英语）输出语言近 100 种

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

现出色。据悉，阿里通义千问自成立以来，已经向全球开源了超过200款模型。这些模型覆盖了自然语言处理、计算机视觉等多个领域，为科研和企业应用提供了强有力的支持。而 Qwen 系列的衍生模型数量已经突破10万，超越了

昆仑万维正式上线音乐模型 Mureka V7

2025-07-24

律。 Mureka TTS V1 支持 Voice Design 能力，用户可以通过文本输入想要的语音特征获得对应的音色。不论是真实人物、虚拟人物还是配音角色，都能够通过文本来控制，摆脱了过去只能通过现有音色库实现音色克隆，或是只能使

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

率翻倍软件介绍 AigcPanel是一个简单易用的一站式免费开源AI数字人系统，小白也可使用。支持智能直播、视频合成、声音合成、声音克隆，简化本地模型管理、一键导入和使用AI模型。禁止使用本产品进行违法违规业务

英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3)，一个完全开源的大型音频-语言模型 (LALM)，在超过 20 个音频理解和推理基准测试中达到最新最优性能。该模型旨在推动音频、语音和音乐领域的 AI 研究，但仅限用于非商业研究目的，并依据&n

熱門推薦