Transformers.js 2.7.0 发布,新增文本转语音


Transformers.js 支持在浏览器中实现最先进的机器学习——无需服务器。它提供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。

借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。

最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。

下面是演示视频:

 

开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,如 bark 和 MMS。

为了展示在浏览器中文本转语音的强大功能,开发者还发布了一个简单的示例应用:

  • 演示:https://huggingface.co/spaces/Xenova/text-to-speech-client
  • 代码:https://github.com/xenova/transformers.js/tree/main/examples/text-to-speech-client

相關推薦

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2025-03-22

全新语音模型 API,具体包括: gpt-4o-transcribe (语音转文本):单词错误率 (WER) 显著降低,在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高 gpt-4o-mini-tts (

2023-11-24

ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能  ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供,现在向所有免费用户推出。 据介绍,C

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器,注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发 ,现在则有一个小团队的开发人员共同开发。如今,它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2024-10-01

2024年9月29日,MaxKB开源知识库问答系统正式发布v1.6版本。 在v1.6社区版中,应用方面,MaxKB新增支持语音方式问答,支持使用重排模型进行多路召回,支持自定义全局变量,支持OpenAI Compatible API调用格式,支持支持ECharts图表和HT

2023-12-05

更新后的 ONLYOFFICE 协作空间新增诸多实用功能,全平台实现多项优化功能。请继续阅读,了解所有更新。 ONLYOFFICE 协作空间是什么 ONLYOFFICE 协作空间是一款开源效率平台,让您与同事、团队成员、客户、合作伙伴、承

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2025-05-24

火山引擎正式推出豆包·语音播客模型,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。无需复杂剪辑,热点内容就能瞬间转化为生动播客

2025-06-04

04.14906 (@APPSO、@阿里语音 AI) 2、可灵 2.1 系列视频模型发布,拥有卓越的动态效果表现,更强的语义响应 快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型: 标准版支持标准

2022-11-26

分变得更加容易。 Stability AI 将在未来几天把这些模型发布到 API 平台(platform.stability.ai)和 DreamStudio 上。 更多详情可查看:https://stability.ai/blog/stable-diffusion-v2-release

2023-08-18

案、想故事。 上周清华大学新闻与传播学院沈阳团队发布《大语言模型综合性能评估报告》,报告显示,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越