whisper.cpp 1.3 发布,自动语音识别系统


Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。

概述

  • 增加了 Core ML 支持
  • 恢复了解码回退,默认大小为 2,而不是 5
  • 用 zeros 代替频谱图来填充音频
  • 增加了 talk-llama 的例子
  • 增加了 whisper_state,允许用内存中的单个模型进行平行转录

为了支持新的 whisper_state,C-style 的 API 已经被大幅扩展,但总体上应该是向后兼容的。唯一的突破性变化是在回调签名中。

下一个版本 v1.4.0 将很快跟进,并将提供 4-bit 整数量化支持。

其他

  • 更新 csv 输出格式,以匹配 OpenAI 的 Whisper 数据帧输出
  • whisper.android: 启用 ARMv8.2 或更高版本支持的 FP16_VA
  • 添加质量比较帮助器
  • whisper.android: 支持 Android 实例的基准测试
  • 修复 MUSL 的 Linux 构建
  • 将默认编码改为 UTF-8
  • 提供创建 JSON 输出的选项
  • readme:添加 react-native 绑定
  • xcodeproj : 在发布模式下添加 O3 -DNDEBUG
  • 在 README 中包含 R 包装器的链接
  • ……

更多详情可查看:https://github.com/ggerganov/whisper.cpp/releases/tag/v1.3.0


相關推薦

2023-05-03

Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。 whisper.cpp 1.4 增加了整数量化(Integer quantizat

2023-05-15

如下: New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项 为文本“color picker”添加快捷方式 添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置 添加 cmd conver

2023-02-01

- 关闭翻译的字幕 为翻译添加自动命名规则 添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项 添加新的字幕格式 添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式 添加 Vosk 韩语/乌兹别克

2022-11-12

Lyra 1.3 现已发布。此版本提高了速度并减少了模型的存储空间。如果不需要重用早期版本的 bitstream,官方建议所有用户升级。 Lyra 是谷歌去年开源的低比特率语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的连接上

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件,用户可通过语音下达指令,无须键盘输入,即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2023-11-03

务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视频:     开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,

2022-03-18

择在录屏的角落放置摄像头,而且包含语音识别模块,可自动生成字幕和对应的字幕文件。新的录屏应用似乎主要用于教育,它有助于教师录制讲座或教程,或学生录制远程演示(例如 PPT 放映全屏录制)。 目前该应用程序在 C

2023-04-26

合起来以创建一个最终的项目。另一个新增功能是支持 Whisper 语音转文本引擎,这带来了更高的准确性、对多种语言的支持,以及即时翻译成英文的可能性。 嵌套时间线 通过嵌套的时间线,你可以分别处理项目的各个部分,

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2024-01-13

多模态大模型完备的基础框架。其中语义大模型于11月份发布千亿参数版本,在大模型知名榜单CSL排名第五、GAOKAO排名第七、AGIEval排名第八。 视觉大模型赋能100+城市治理下游任务,算法日均调用量达3.3亿次;多模态大模型聚焦

2023-08-17

开放,可视化编程。” CyberDog 2 目前定价 12999 元。一同发布的还有其内置的 CyberGear 微电机,售价 499 元。   此外,其还宣布联动《流浪地球》系列导演郭帆,担任小米科技人文共创家,“和小米一起,邀请全世界机器人

2022-10-20

新的模型支持、在转录管道和 ARM Docker 镜像中支持 OpenAI Whisper、升级和改进主题建模,包括使用 BM25/TF-IDF 索引来驱动主题模型。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个部分上建立一个 AI 驱动的索引。 txtai