Transformers.js 2.7.0 发布,新增文本转语音


Transformers.js 支持在浏览器中实现最先进的机器学习——无需服务器。它提供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。

借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。

最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。

下面是演示视频:

 

开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,如 bark 和 MMS。

为了展示在浏览器中文本转语音的强大功能,开发者还发布了一个简单的示例应用:

  • 演示:https://huggingface.co/spaces/Xenova/text-to-speech-client
  • 代码:https://github.com/xenova/transformers.js/tree/main/examples/text-to-speech-client

相關推薦

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2023-11-24

ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能  ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供,现在向所有免费用户推出。 据介绍,C

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器,注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发 ,现在则有一个小团队的开发人员共同开发。如今,它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2024-10-01

2024年9月29日,MaxKB开源知识库问答系统正式发布v1.6版本。 在v1.6社区版中,应用方面,MaxKB新增支持语音方式问答,支持使用重排模型进行多路召回,支持自定义全局变量,支持OpenAI Compatible API调用格式,支持支持ECharts图表和HT

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2023-12-05

更新后的 ONLYOFFICE 协作空间新增诸多实用功能,全平台实现多项优化功能。请继续阅读,了解所有更新。 ONLYOFFICE 协作空间是什么 ONLYOFFICE 协作空间是一款开源效率平台,让您与同事、团队成员、客户、合作伙伴、承

2024-08-14

en2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。 音频分析:该模型能够根

2024-08-27

样,使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(Automatic Speech Recognition,ASR)、语音翻译(Automatic Speech Translation,AST)等。 在模型训练阶段,融

2022-11-26

分变得更加容易。 Stability AI 将在未来几天把这些模型发布到 API 平台(platform.stability.ai)和 DreamStudio 上。 更多详情可查看:https://stability.ai/blog/stable-diffusion-v2-release

2024-05-27

中国电信人工智能研究院(TeleAI)于近日发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是目前国内支持最多方言的语

2023-08-18

案、想故事。 上周清华大学新闻与传播学院沈阳团队发布《大语言模型综合性能评估报告》,报告显示,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越

2023-02-01

文件管理功能、文件分享等 新增 站内消息功能、消息发布、查看 新增 消息提醒功能、未读已读消息列表、消息查看 新增 Editor 富文本编辑器的黑暗模式样式 新增 Upload 组件 是否上传附件验证例子 新增 Table 增加