Transformers.js 2.7.0 发布,新增文本转语音


Transformers.js 支持在浏览器中实现最先进的机器学习——无需服务器。它提供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。

借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。

最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。

下面是演示视频:

 

开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,如 bark 和 MMS。

为了展示在浏览器中文本转语音的强大功能,开发者还发布了一个简单的示例应用:

  • 演示:https://huggingface.co/spaces/Xenova/text-to-speech-client
  • 代码:https://github.com/xenova/transformers.js/tree/main/examples/text-to-speech-client

相關推薦

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之

2025-06-27

的活跃度持续降低,其最后一个标记版本是 2020 年 12 月发布的 0.9.3。 DeepSpeech GitHub 仓库已经有近 4 年没有任何 commit,社区贡献和更新频率都不尽如人意,这使得项目的进一步发展受到限制,因此 Mozilla 选择终止该项目。

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2025-03-22

全新语音模型 API,具体包括: gpt-4o-transcribe (语音转文本):单词错误率 (WER) 显著降低,在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高 gpt-4o-mini-tts (

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务, 新增支持生成三种中文方言,包括北京话、上海话和四川话。 据介绍,Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果达到了人类级别的自然度和表现力

2023-11-24

ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能  ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供,现在向所有免费用户推出。 据介绍,C

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器,注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发 ,现在则有一个小团队的开发人员共同开发。如今,它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2025-06-28

升。继上个月在 Google I/O 大会上进行预览后,完整版现已发布,可直接在移动硬件上运行。 与 Gemini 的不同之处在于,Gemma 是为开发者下载和修改而设计的,而Gemini 是Google的封闭式专有模型。 该模型现在可以原生处理图像、

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2025-06-08

意识正在形成 今日凌晨,OpenAI 模型行为主管 Joanne Jang 发布了长篇博文,分析了 ChatGPT 目前与用户之间的情感关系,并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出,最近越来越多用户反映称,与 ChatGPT 聊天就

2023-12-05

更新后的 ONLYOFFICE 协作空间新增诸多实用功能,全平台实现多项优化功能。请继续阅读,了解所有更新。 ONLYOFFICE 协作空间是什么 ONLYOFFICE 协作空间是一款开源效率平台,让您与同事、团队成员、客户、合作伙伴、承

2024-10-01

2024年9月29日,MaxKB开源知识库问答系统正式发布v1.6版本。 在v1.6社区版中,应用方面,MaxKB新增支持语音方式问答,支持使用重排模型进行多路召回,支持自定义全局变量,支持OpenAI Compatible API调用格式,支持支持ECharts图表和HT