Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27 發表於开源资讯

DeepSpeech 是 Mozilla 开发的一款开源语音转文本引擎，基于百度 2014 年发表的研究论文《Deep Speech: Scaling up end-to-end speech recognition》所提出的端到端语音识别方法开发。

从 DeepSpeech 的仓库动态来看，Mozilla 已于上周将项目仓库归档，并表示停止维护。

作为一款端到端自动语音识别（ASR）引擎，DeepSpeech 即使在 Raspberry Pi SBC 和其他低功耗系统上运行时，也能提供出色的实时通信性能。

遗憾的是，近年来 DeepSpeech 项目的活跃度持续降低，其最后一个标记版本是 2020 年 12 月发布的 0.9.3。

DeepSpeech GitHub 仓库已经有近 4 年没有任何 commit，社区贡献和更新频率都不尽如人意，这使得项目的进一步发展受到限制，因此 Mozilla 选择终止该项目。

相關推薦

Mozilla 高管：终止谷歌的默认搜索引擎交易会导致 Firefox 倒闭

2025-05-07

国司法部希望分拆 Chrome 以及终止谷歌与浏览器开发商如 Mozilla 的默认搜索引擎交易。 Mozilla CFO Eric Muhlheim 在法庭上作证称，如果终止默认搜索交易，Firefox 可能会倒闭。Firefox 约占 Mozilla 收入的 90%，其中 85% 来自与谷歌的默认

法国 AI 研究机构开源 Kyutai TTS，低延迟流式文本转语音技术

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场

Transformers.js 2.7.0 发布，新增文本转语音

2023-11-03

，开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务，这使其成为 ML 从业者和研究人员的强大工具。最近发布的 Transformers.js 2.7.0 添加了一项重要功能：文本转语音。下面是演示视频：

Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露，这项强大的功能适用于多种用例

ElevenLabs 发布文本转语音模型 Eleven v3（Alpha 版）

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下：地表最强文本转语音模型之

🎉 对标 Coze 和 Dify，Java 开发的 AIFlowy v1.1.1 发布

2025-07-18

lowy 的成长，也欢迎更多伙伴加入我们，共建更强大的 AI 开源生态🚀！ AIFlowy v1.1.1 更新详情：https://gitee.com/aiflowy/aiflowy/releases/tag/v1.1.1 功能列表 AI 功能 Bot 应用（已完成） Bot 插件（已完成） Rag

warm-flow 1.2.4 版本更新

2024-08-20

和集成审批功能：支持通过、退回、任意跳转、转办、终止、会签、票签、委派和加减签、互斥和并行网关监听器与流程变量：支持五种监听器，可应对不同场景，灵活可扩展，参数传递，动态权限流程图：流程引擎自带

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

FlowSpeech：全球首个书面语转口语的 TTS

2025-08-08

人工智能语音合成技术迎来新突破。一款名为 FlowSpeech 的 AI 文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。体验地址：https://listenhub.ai/zh?tab

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

，一种基础的多语言和多任务模型，可以无缝翻译和转录语音和文本。SeamlessM4T 支持：自动语音识别近百种语言近 100 种输入和输出语言的语音到文本翻译语音翻译，支持近 100 种输入语言和 35 种（+英语）输出语言近

我的开源项目-PandaCoder 迎来史诗级大更新啦

2025-07-28

名规范可读性提升：清晰的语法高亮和图标标识维护性增强：规范的代码结构和注释 📦 安装指南从 JetBrains 插件市场安装（推荐）在 IntelliJ IDEA 中，打开 Settings/Preferences → Plugins 切换到 Marketplace 标签搜

Kdenlive 23.04 发布，集成 OpenAI Whisper

2023-04-26

Kdenlive 是一种基于 MLT 框架、KDE 和 Qt 的开源非线性视频编辑器，注重灵活性和易用性。该项目最初由 Jason Wood 在 2002 年开发，现在则有一个小团队的开发人员共同开发。如今，它已经成为了官方 KDE 项目的一部分。 Kdenlive 23.04

OpenAI 上线 OpenAI.fm 网站

2025-03-22

今天凌晨，OpenAI 上线了全新语音模型 API，具体包括： gpt-4o-transcribe (语音转文本)：单词错误率 (WER) 显著降低，在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、

OpenAI 面向所有用户免费开放 ChatGPT Voice

2023-11-24

Voice。 OpenAI 于今年 9 月推出了基于 ChatGPT 的文本转语音功能 ChatGPT Voice——使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向 ChatGPT Plus 订阅用户提供，现在向所有免费用户推出。据介绍，ChatGPT Vo

熱門推薦