whisper.cpp 1.3 发布，自动语音识别系统

2023-04-18 發表於开源资讯

Whisper 是 OpenAI 推出的一个自动语音识别（ASR）系统，whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点，支持 Mac、Windows、Linux、iOS 和 Android 系统。

概述

增加了 Core ML 支持
恢复了解码回退，默认大小为 2，而不是 5
用 zeros 代替频谱图来填充音频
增加了 talk-llama 的例子
增加了 whisper_state，允许用内存中的单个模型进行平行转录

为了支持新的 whisper_state，C-style 的 API 已经被大幅扩展，但总体上应该是向后兼容的。唯一的突破性变化是在回调签名中。

下一个版本 v1.4.0 将很快跟进，并将提供 4-bit 整数量化支持。

其他

更新 csv 输出格式，以匹配 OpenAI 的 Whisper 数据帧输出
whisper.android: 启用 ARMv8.2 或更高版本支持的 FP16_VA
添加质量比较帮助器
whisper.android: 支持 Android 实例的基准测试
修复 MUSL 的 Linux 构建
将默认编码改为 UTF-8
提供创建 JSON 输出的选项
readme：添加 react-native 绑定
xcodeproj : 在发布模式下添加 O3 -DNDEBUG
在 README 中包含 R 包装器的链接
……

更多详情可查看：https://github.com/ggerganov/whisper.cpp/releases/tag/v1.3.0

相關推薦

whisper.cpp 1.4 发布，自动语音识别系统

2023-05-03

Whisper 是 OpenAI 推出的一个自动语音识别（ASR）系统，whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点，支持 Mac、Windows、Linux、iOS 和 Android 系统。 whisper.cpp 1.4 增加了整数量化（Integer quantizat

Subtitle Edit 3.6.13 发布，字幕编辑工具

2023-05-15

如下： New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项为文本“color picker”添加快捷方式添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置添加 cmd conver

Shotcut 25.07：Hot Hot Hot 发布

2025-07-30

在“语音转文本”对话框中添加了 Whisper.cpp (GGML) 模型下载器。下载和安装过程中不再包含模型，从而减小了模型大小。改进了系统主题，使其符合 Windows 上的操作系统调色板（颜色更深、对比度更高）

Subtitle Edit 4.0.12 发布，字幕编辑工具

2025-04-18

译更新巴西葡萄牙语翻译更新俄语翻译更新 Faster-Whisper-XXL 至 r245.4 更新 Whisper CPP 至 1.7.5 将 ffmpeg 更新至 2025-03-31 更新 yt-dlp 至 2025-03-26 PaddleOCR 的改进（速度和修复）添加独立 PaddleOCR（无需 Python）使 Whisper 文件

Subtitle Edit 3.6.11 发布，字幕编辑工具

2023-02-01

- 关闭翻译的字幕为翻译添加自动命名规则添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项添加新的字幕格式添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式添加 Vosk 韩语/乌兹别克

Lyra 1.3 发布，谷歌开源的语音编解码器

2022-11-12

Lyra 1.3 现已发布。此版本提高了速度并减少了模型的存储空间。如果不需要重用早期版本的 bitstream，官方建议所有用户升级。 Lyra 是谷歌去年开源的低比特率语音编解码器，与开放的 AV1 编解码器相结合，可以在 56kbps 的连接上

2025 年 AI 费控软件市场深度测评：企业 AI 费控系统选型指南

2025-05-15

OCR 技术与 AI费控系统的深度融合，还实现了票据信息的自动分类和结构化处理。AI费控系统能够根据识别结果，自动将发票归类到不同的费用科目，如差旅费、办公费等，减少人工分类的工作量，提高财务数据的规范性和准确性

英伟达发布并开源两款多语言语音模型，支持商用

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3，分别针对语音识别与翻译以及高吞吐量转录场景，均支持商用。 Canary-1b-v2拥有10亿参数，支持25种欧洲语言的自动语音识别（ASR）与双向语音翻

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

输出语言目前，SeamlessM4T 已在 CC BY-NC 4.0 许可下发布，以便研究人员可以在此基础上进行开发。与此同时，Meta 还发布了一个多模式翻译数据集 SeamlessAlign，包含 270,000 小时的语音和文本对齐。 Meta 表示，现有的语音

支持语音方式问答，支持使用重排模型进行多路召回，MaxKB 知识库问答系统 v1.6 版本发布

2024-10-01

2024年9月29日，MaxKB开源知识库问答系统正式发布v1.6版本。在v1.6社区版中，应用方面，MaxKB新增支持语音方式问答，支持使用重排模型进行多路召回，支持自定义全局变量，支持OpenAI Compatible API调用格式，支持支持ECharts图表和HT

解锁 AI，openKylin 智能交互新体验

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件，用户可通过语音下达指令，无须键盘输入，即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27

的活跃度持续降低，其最后一个标记版本是 2020 年 12 月发布的 0.9.3。 DeepSpeech GitHub 仓库已经有近 4 年没有任何 commit，社区贡献和更新频率都不尽如人意，这使得项目的进一步发展受到限制，因此 Mozilla 选择终止该项目。

Shotcut 25.03 发布，开源跨平台视频编辑器

2025-04-01

决了 Glaxnimate 中的视频背景问题。升级的依赖项： Whisper.cpp 1.7.4 bigsh0t 2.7 修复修复了当 Settings > Playlist > View mode 为图标时打开项目可能会很慢或导致应用程序无响应的问题（broke in v25.01）。修复双

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

定！自定义存储路径，找文件再也不用翻遍电脑新增语音识别功能！语音秒转文字，开会记笔记神器声音替换上线！想给视频换个声线？一键搞定为什么选择 AigcPanel？ ✅ 零门槛操作：本地部署操作简单，小白也能

熱門推薦