whisper.cpp 1.4 发布,自动语音识别系统


Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。

whisper.cpp 1.4 增加了整数量化(Integer quantization)和部分 GPU(NVIDIA)支持

整数量化

这可以让 ggml Whisper 模型从默认的 16-bit 浮点权重转换为 4、5 或 8-bit 整数权重。

由此产生的量化模型在磁盘大小和内存使用方面更低,在某些架构上可以更快地处理,但转录质量在一定程度上会下降。

通过 cuBLAS 支持 GPU

使用 cuBLAS 的结果主要是提高 Encoder 的推理速度,与只用 CPU 处理相比,使用现代 NVIDIA GPU 的 Encoder 评估至少可以快 2-3 倍。

其他

  • 可选择让 Whisper 的 Core ML 构建在有或没有 Core ML 模型的情况下工作
  • 在 Android 项目文件夹的 readme 中添加一些提示
  • ggml:修复 32 位 ARM NEON
  • ……

更多详情可查看:https://github.com/ggerganov/whisper.cpp/releases/tag/v1.4.0


相關推薦

2023-04-18

Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。 概述 增加了 Core ML 支持 恢复了解码回

2023-05-15

如下: New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项 为文本“color picker”添加快捷方式 添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置 添加 cmd conver

2023-02-01

- 关闭翻译的字幕 为翻译添加自动命名规则 添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项 添加新的字幕格式 添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式 添加 Vosk 韩语/乌兹别克

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2024-10-01

2024年9月29日,MaxKB开源知识库问答系统正式发布v1.6版本。 在v1.6社区版中,应用方面,MaxKB新增支持语音方式问答,支持使用重排模型进行多路召回,支持自定义全局变量,支持OpenAI Compatible API调用格式,支持支持ECharts图表和HT

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件,用户可通过语音下达指令,无须键盘输入,即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

2024-05-27

中国电信人工智能研究院(TeleAI)于近日发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是目前国内支持最多方言的语

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2024-08-14

:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。 多语言支持:该模型支持超过8种语言和方言,例如中文、

2024-08-27

解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。结果显示,MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K

2023-11-03

务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视频:     开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,

2024-08-15

Dify,以及 Chatbox。 Xinference 0.14.1 🎉 Xinference 0.14.1 发布,全新的文生视频 CogVideoX 支持登场!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。 图一、图二:

2022-03-18

择在录屏的角落放置摄像头,而且包含语音识别模块,可自动生成字幕和对应的字幕文件。新的录屏应用似乎主要用于教育,它有助于教师录制讲座或教程,或学生录制远程演示(例如 PPT 放映全屏录制)。 目前该应用程序在 C

2022-08-16

Turborepo 1.4 已发布。 Turborepo 是一个适用于 JavaScript 和 TypeScript 代码库的高性能 monorepo 构建系统。 所谓 monorepo,简单来说就是将所有项目代码放到一个 Git / Mercurial / Subversion 代码仓库中。当下许多大型前端项目和公司都采