Transformers.js 2.7.0 发布,新增文本转语音


Transformers.js 支持在浏览器中实现最先进的机器学习——无需服务器。它提供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。

借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。

最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。

下面是演示视频:

 

开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,如 bark 和 MMS。

为了展示在浏览器中文本转语音的强大功能,开发者还发布了一个简单的示例应用:

  • 演示:https://huggingface.co/spaces/Xenova/text-to-speech-client
  • 代码:https://github.com/xenova/transformers.js/tree/main/examples/text-to-speech-client

相關推薦

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2023-11-24

ChatGPT Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能  ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供,现在向所有免费用户推出。 据介绍,C

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器,注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发 ,现在则有一个小团队的开发人员共同开发。如今,它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2023-12-05

更新后的 ONLYOFFICE 协作空间新增诸多实用功能,全平台实现多项优化功能。请继续阅读,了解所有更新。 ONLYOFFICE 协作空间是什么 ONLYOFFICE 协作空间是一款开源效率平台,让您与同事、团队成员、客户、合作伙伴、承

2022-11-26

分变得更加容易。 Stability AI 将在未来几天把这些模型发布到 API 平台(platform.stability.ai)和 DreamStudio 上。 更多详情可查看:https://stability.ai/blog/stable-diffusion-v2-release

2023-08-18

案、想故事。 上周清华大学新闻与传播学院沈阳团队发布《大语言模型综合性能评估报告》,报告显示,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越

2023-02-01

文件管理功能、文件分享等 新增 站内消息功能、消息发布、查看 新增 消息提醒功能、未读已读消息列表、消息查看 新增 Editor 富文本编辑器的黑暗模式样式 新增 Upload 组件 是否上传附件验证例子 新增 Table 增加

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2023-06-08

、watchOS 10 和 macOS Sonoma 在内的新系统。 硬件方面,苹果发布了 15 英寸的 MacBook Air、搭载 M2 Ultra 的 Mac Studio 以及 Mac Pro。此外,苹果还发布了其第一款 AR 眼镜 Apple Vision Pro。 本文对 WWDC23 全球开发者大会的内容作汇总: 苹

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2022-09-20

和数据构成了 CLDR 和 ICU 版本的基础。 更多详情请查看发布公告。