whisper.cpp 1.4 发布,自动语音识别系统


Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。

whisper.cpp 1.4 增加了整数量化(Integer quantization)和部分 GPU(NVIDIA)支持

整数量化

这可以让 ggml Whisper 模型从默认的 16-bit 浮点权重转换为 4、5 或 8-bit 整数权重。

由此产生的量化模型在磁盘大小和内存使用方面更低,在某些架构上可以更快地处理,但转录质量在一定程度上会下降。

通过 cuBLAS 支持 GPU

使用 cuBLAS 的结果主要是提高 Encoder 的推理速度,与只用 CPU 处理相比,使用现代 NVIDIA GPU 的 Encoder 评估至少可以快 2-3 倍。

其他

  • 可选择让 Whisper 的 Core ML 构建在有或没有 Core ML 模型的情况下工作
  • 在 Android 项目文件夹的 readme 中添加一些提示
  • ggml:修复 32 位 ARM NEON
  • ……

更多详情可查看:https://github.com/ggerganov/whisper.cpp/releases/tag/v1.4.0


相關推薦

2023-04-18

Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。 概述 增加了 Core ML 支持 恢复了解码回

2023-05-15

如下: New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项 为文本“color picker”添加快捷方式 添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置 添加 cmd conver

2023-02-01

- 关闭翻译的字幕 为翻译添加自动命名规则 添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项 添加新的字幕格式 添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式 添加 Vosk 韩语/乌兹别克

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件,用户可通过语音下达指令,无须键盘输入,即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2023-11-03

务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视频:     开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,

2022-03-18

择在录屏的角落放置摄像头,而且包含语音识别模块,可自动生成字幕和对应的字幕文件。新的录屏应用似乎主要用于教育,它有助于教师录制讲座或教程,或学生录制远程演示(例如 PPT 放映全屏录制)。 目前该应用程序在 C

2023-04-26

合起来以创建一个最终的项目。另一个新增功能是支持 Whisper 语音转文本引擎,这带来了更高的准确性、对多种语言的支持,以及即时翻译成英文的可能性。 嵌套时间线 通过嵌套的时间线,你可以分别处理项目的各个部分,

2022-08-16

Turborepo 1.4 已发布。 Turborepo 是一个适用于 JavaScript 和 TypeScript 代码库的高性能 monorepo 构建系统。 所谓 monorepo,简单来说就是将所有项目代码放到一个 Git / Mercurial / Subversion 代码仓库中。当下许多大型前端项目和公司都采

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2024-01-13

多模态大模型完备的基础框架。其中语义大模型于11月份发布千亿参数版本,在大模型知名榜单CSL排名第五、GAOKAO排名第七、AGIEval排名第八。 视觉大模型赋能100+城市治理下游任务,算法日均调用量达3.3亿次;多模态大模型聚焦

2023-08-17

开放,可视化编程。” CyberDog 2 目前定价 12999 元。一同发布的还有其内置的 CyberGear 微电机,售价 499 元。   此外,其还宣布联动《流浪地球》系列导演郭帆,担任小米科技人文共创家,“和小米一起,邀请全世界机器人

2022-10-20

新的模型支持、在转录管道和 ARM Docker 镜像中支持 OpenAI Whisper、升级和改进主题建模,包括使用 BM25/TF-IDF 索引来驱动主题模型。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个部分上建立一个 AI 驱动的索引。 txtai