whisper.cpp 1.4 发布，自动语音识别系统

2023-05-03 發表於开源资讯

Whisper 是 OpenAI 推出的一个自动语音识别（ASR）系统，whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点，支持 Mac、Windows、Linux、iOS 和 Android 系统。

whisper.cpp 1.4 增加了整数量化（Integer quantization）和部分 GPU（NVIDIA）支持

整数量化

这可以让 ggml Whisper 模型从默认的 16-bit 浮点权重转换为 4、5 或 8-bit 整数权重。

由此产生的量化模型在磁盘大小和内存使用方面更低，在某些架构上可以更快地处理，但转录质量在一定程度上会下降。

通过 cuBLAS 支持 GPU

使用 cuBLAS 的结果主要是提高 Encoder 的推理速度，与只用 CPU 处理相比，使用现代 NVIDIA GPU 的 Encoder 评估至少可以快 2-3 倍。

其他

可选择让 Whisper 的 Core ML 构建在有或没有 Core ML 模型的情况下工作
在 Android 项目文件夹的 readme 中添加一些提示
ggml：修复 32 位 ARM NEON
……

更多详情可查看：https://github.com/ggerganov/whisper.cpp/releases/tag/v1.4.0

相關推薦

whisper.cpp 1.3 发布，自动语音识别系统

2023-04-18

Whisper 是 OpenAI 推出的一个自动语音识别（ASR）系统，whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点，支持 Mac、Windows、Linux、iOS 和 Android 系统。概述增加了 Core ML 支持恢复了解码回

Subtitle Edit 3.6.13 发布，字幕编辑工具

2023-05-15

如下： New 添加新的字幕格式“nVivo transcript” 添加 Whisper CTranslate2 在“Change casing”中添加“Proper Case”选项为文本“color picker”添加快捷方式添加快捷方式 3 seconds forward 在 UI 中添加更多 mpv 预览设置添加 cmd conver

Shotcut 25.07：Hot Hot Hot 发布

2025-07-30

在“语音转文本”对话框中添加了 Whisper.cpp (GGML) 模型下载器。下载和安装过程中不再包含模型，从而减小了模型大小。改进了系统主题，使其符合 Windows 上的操作系统调色板（颜色更深、对比度更高）

Subtitle Edit 4.0.12 发布，字幕编辑工具

2025-04-18

译更新巴西葡萄牙语翻译更新俄语翻译更新 Faster-Whisper-XXL 至 r245.4 更新 Whisper CPP 至 1.7.5 将 ffmpeg 更新至 2025-03-31 更新 yt-dlp 至 2025-03-26 PaddleOCR 的改进（速度和修复）添加独立 PaddleOCR（无需 Python）使 Whisper 文件

Subtitle Edit 3.6.11 发布，字幕编辑工具

2023-02-01

- 关闭翻译的字幕为翻译添加自动命名规则添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项添加新的字幕格式添加 ASSA style "Replace" 添加“audio to text selected lines”的快捷方式添加 Vosk 韩语/乌兹别克

2025 年 AI 费控软件市场深度测评：企业 AI 费控系统选型指南

2025-05-15

OCR 技术与 AI费控系统的深度融合，还实现了票据信息的自动分类和结构化处理。AI费控系统能够根据识别结果，自动将发票归类到不同的费用科目，如差旅费、办公费等，减少人工分类的工作量，提高财务数据的规范性和准确性

英伟达发布并开源两款多语言语音模型，支持商用

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3，分别针对语音识别与翻译以及高吞吐量转录场景，均支持商用。 Canary-1b-v2拥有10亿参数，支持25种欧洲语言的自动语音识别（ASR）与双向语音翻

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

输出语言目前，SeamlessM4T 已在 CC BY-NC 4.0 许可下发布，以便研究人员可以在此基础上进行开发。与此同时，Meta 还发布了一个多模式翻译数据集 SeamlessAlign，包含 270,000 小时的语音和文本对齐。 Meta 表示，现有的语音

支持语音方式问答，支持使用重排模型进行多路召回，MaxKB 知识库问答系统 v1.6 版本发布

2024-10-01

2024年9月29日，MaxKB开源知识库问答系统正式发布v1.6版本。在v1.6社区版中，应用方面，MaxKB新增支持语音方式问答，支持使用重排模型进行多路召回，支持自定义全局变量，支持OpenAI Compatible API调用格式，支持支持ECharts图表和HT

解锁 AI，openKylin 智能交互新体验

2023-09-02

尝试探索桌面操作系统未来智能交互的发展方向。 PART 1语音助手 openKylin语音助手是一款支持语音指令的智能语音软件，用户可通过语音下达指令，无须键盘输入，即可触发应用功能。 openKylin语音助手服务端采用开源模型库pad

Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27

的活跃度持续降低，其最后一个标记版本是 2020 年 12 月发布的 0.9.3。 DeepSpeech GitHub 仓库已经有近 4 年没有任何 commit，社区贡献和更新频率都不尽如人意，这使得项目的进一步发展受到限制，因此 Mozilla 选择终止该项目。

Shotcut 25.03 发布，开源跨平台视频编辑器

2025-04-01

决了 Glaxnimate 中的视频背景问题。升级的依赖项： Whisper.cpp 1.7.4 bigsh0t 2.7 修复修复了当 Settings > Playlist > View mode 为图标时打开项目可能会很慢或导致应用程序无响应的问题（broke in v25.01）。修复双

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

定！自定义存储路径，找文件再也不用翻遍电脑新增语音识别功能！语音秒转文字，开会记笔记神器声音替换上线！想给视频换个声线？一键搞定为什么选择 AigcPanel？ ✅ 零门槛操作：本地部署操作简单，小白也能

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

2025-05-14

宣布已开源与南开大学共同构建的 Chinese-LiPS 中文多模态语音识别数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集，Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境，致力

熱門推薦