Transformers.js 2.7.0 发布，新增文本转语音

2023-11-03 發表於开源资讯

Transformers.js 支持在浏览器中实现最先进的机器学习——无需服务器。它提供预训练模型和熟悉的 API，支持自然语言处理、计算机视觉、音频和多模态领域的任务。

借助 Transformers.js，开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务，这使其成为 ML 从业者和研究人员的强大工具。

最近发布的 Transformers.js 2.7.0 添加了一项重要功能：文本转语音。

下面是演示视频：

开发者表示目前只支持 speecht5 的文本转语音，将来会添加其他模型，如 bark 和 MMS。

为了展示在浏览器中文本转语音的强大功能，开发者还发布了一个简单的示例应用：

演示：https://huggingface.co/spaces/Xenova/text-to-speech-client
代码：https://github.com/xenova/transformers.js/tree/main/examples/text-to-speech-client

相關推薦

ElevenLabs 发布文本转语音模型 Eleven v3（Alpha 版）

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下：地表最强文本转语音模型之

Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露，这项强大的功能适用于多种用例

Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27

的活跃度持续降低，其最后一个标记版本是 2020 年 12 月发布的 0.9.3。 DeepSpeech GitHub 仓库已经有近 4 年没有任何 commit，社区贡献和更新频率都不尽如人意，这使得项目的进一步发展受到限制，因此 Mozilla 选择终止该项目。

法国 AI 研究机构开源 Kyutai TTS，低延迟流式文本转语音技术

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场

FlowSpeech：全球首个书面语转口语的 TTS

2025-08-08

来新突破。一款名为 FlowSpeech 的 AI 文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。体验地址：https://listenhub.ai/zh?tab=flowspeech FlowSpeech的开发

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

输出语言目前，SeamlessM4T 已在 CC BY-NC 4.0 许可下发布，以便研究人员可以在此基础上进行开发。与此同时，Meta 还发布了一个多模式翻译数据集 SeamlessAlign，包含 270,000 小时的语音和文本对齐。 Meta 表示，现有的语音

🎉 对标 Coze 和 Dify，Java 开发的 AIFlowy v1.1.1 发布

2025-07-18

AIFlowy v1.1.1 正式发布了！ 🎉 如果你也在使用 AIFlowy，欢迎为我们点个 Star 支持一下🌟： 🔗 Gitee 地址：https://gitee.com/aiflowy/aiflowy 你的每一个 Star 都是对我们最大的鼓励，也是让更多人看到 AIFlowy 的关键一步！我们的愿景

OpenAI 上线 OpenAI.fm 网站

2025-03-22

全新语音模型 API，具体包括： gpt-4o-transcribe (语音转文本)：单词错误率 (WER) 显著降低，在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、效率更高 gpt-4o-mini-tts (

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

通义千问 Qwen-TTS 新增支持北京话、上海话和四川话中文方言

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务，新增支持生成三种中文方言，包括北京话、上海话和四川话。据介绍，Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练，合成效果达到了人类级别的自然度和表现力

OpenAI 面向所有用户免费开放 ChatGPT Voice

2023-11-24

ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能 ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供，现在向所有免费用户推出。据介绍，C

Shotcut 25.07：Hot Hot Hot 发布

2025-07-30

Shotcut 25.07.26 现已发布，具体更新内容如下： 1 hot 全新的语音转文本模型下载器 2 hots 全新的 System Fusion 和改进的系统 UI 主题 3 hots 全新的 Outline 视频过滤器上的 CPU cooking 在“语音

Kdenlive 23.04 发布，集成 OpenAI Whisper

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器，注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发，现在则有一个小团队的开发人员共同开发。如今，它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

自己定！自定义存储路径，找文件再也不用翻遍电脑新增语音识别功能！语音秒转文字，开会记笔记神器声音替换上线！想给视频换个声线？一键搞定为什么选择 AigcPanel？ ✅ 零门槛操作：本地部署操作简单，小白

熱門推薦