whisper.cpp 1.3 发布,自动语音识别系统


Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。

概述

  • 增加了 Core ML 支持
  • 恢复了解码回退,默认大小为 2,而不是 5
  • 用 zeros 代替频谱图来填充音频
  • 增加了 talk-llama 的例子
  • 增加了 whisper_state,允许用内存中的单个模型进行平行转录

为了支持新的 whisper_state,C-style 的 API 已经被大幅扩展,但总体上应该是向后兼容的。唯一的突破性变化是在回调签名中。

下一个版本 v1.4.0 将很快跟进,并将提供 4-bit 整数量化支持。

其他

  • 更新 csv 输出格式,以匹配 OpenAI 的 Whisper 数据帧输出
  • whisper.android: 启用 ARMv8.2 或更高版本支持的 FP16_VA
  • 添加质量比较帮助器
  • whisper.android: 支持 Android 实例的基准测试
  • 修复 MUSL 的 Linux 构建
  • 将默认编码改为 UTF-8
  • 提供创建 JSON 输出的选项
  • readme:添加 react-native 绑定
  • xcodeproj : 在发布模式下添加 O3 -DNDEBUG
  • 在 README 中包含 R 包装器的链接
  • ……

更多详情可查看:https://github.com/ggerganov/whisper.cpp/releases/tag/v1.3.0


相關推薦

2023-05-03

Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。 whisper.cpp 1.4 增加了整数量化(Integer quantizat

2023-05-15

如下: New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项 为文本“color picker”添加快捷方式 添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置 添加 cmd conver

2023-02-01

- 关闭翻译的字幕 为翻译添加自动命名规则 添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项 添加新的字幕格式 添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式 添加 Vosk 韩语/乌兹别克

2022-11-12

Lyra 1.3 现已发布。此版本提高了速度并减少了模型的存储空间。如果不需要重用早期版本的 bitstream,官方建议所有用户升级。 Lyra 是谷歌去年开源的低比特率语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的连接上

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2024-10-01

2024年9月29日,MaxKB开源知识库问答系统正式发布v1.6版本。 在v1.6社区版中,应用方面,MaxKB新增支持语音方式问答,支持使用重排模型进行多路召回,支持自定义全局变量,支持OpenAI Compatible API调用格式,支持支持ECharts图表和HT

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件,用户可通过语音下达指令,无须键盘输入,即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

2024-09-26

余个业务,用以提升效率和优化产品体验。 此次活动还发布了视频生成模型、音乐模型、同声传译模型。在谭待的展示下,视频生成模型生成的多主体多动作交互镜头,人物表情流露真实,动作流畅自然。对于同一个场景,模

2024-05-27

中国电信人工智能研究院(TeleAI)于近日发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是目前国内支持最多方言的语

2023-06-07

苹果公司在 WWDC 2023 发布了旗下的操作系统更新,比如 macOS Sonoma、 iOS 17 、watchOS 10 和 iPadOS 17 等。 其中 iOS 17 的更新主要包括几个方面,新的通信功能、新的输入功能、新的共享功能以及一些新的稀奇古怪的功能。 通信功能主

2024-08-14

:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。 多语言支持:该模型支持超过8种语言和方言,例如中文、

2024-08-27

解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。结果显示,MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K

2023-11-03

务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视频:     开发者表示目前只支持 speecht5 的文本转语音,将来会添加其他模型,

2024-08-15

Dify,以及 Chatbox。 Xinference 0.14.1 🎉 Xinference 0.14.1 发布,全新的文生视频 CogVideoX 支持登场!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。 图一、图二: