Mistral AI 开源 AI 音频模型系列 Voxtral


Mistral AI 宣布推出其首个针对企业的音频模型系列 Voxtral。包含两种规模:适用于生产规模应用的 24B 版本,以及适用于本地和边缘部署的 3B 版本。两个版本均基于 Apache 2.0 许可证发布。

公告称,Voxtral 解决了开发者需要在低成本的开源系统和高效但封闭的解决方案之间做选择的问题。该模型以不到同类 API 一半的价格,在开放环境中提供最先进的准确率和原生语义理解,使得高质量的语音智能能够大规模访问和控制。

Voxtral 的功能包括:

  • 长格式上下文: Voxtral 具有 32k 个 token 上下文长度,可处理长达 30 分钟的转录音频或 40 分钟的理解音频
  • 内置问答和摘要:支持直接针对音频内容提问或生成结构化摘要,无需链接单独的 ASR 和语言模型
  • 原生多语言:自动语言检测和最先进的性能,支持世界上使用最广泛的语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等),帮助团队通过单一系统服务全球受众
  • 直接从语音进行函数调用:支持根据语音用户意图直接触发后端函数、工作流或 API 调用,将语音交互转化为可操作的系统命令,而无需中间解析步骤。
  • 文本处理能力强:保留了其语言模型主干 Mistral Small 3.1 的文本理解能力

“这些功能使 Voxtral 模型成为现实世界交互和后续操作(例如摘要、答案、分析和洞察)的理想选择。对于成本敏感的用例,Voxtral Mini Transcribe 的性能优于 OpenAI Whisper,但价格不到后者的一半。对于高端用例,Voxtral Small 的性能与 ElevenLabs Scribe 相当,但价格也不到后者的一半。”

Mistral AI 指出,基准测试结果表明 Voxtral 的表现全面超越了目前领先的开源语音转录模型 Whisper large-v3。它在所有任务上都超越了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短格式和 Mozilla Common Voice 上取得了最佳成绩,超越了 ElevenLabs Scribe,展现了其强大的多语言能力。

更多详情可查看官方公告。


相關推薦

2025-07-12

Mistral AI 与 All Hands AI 合作,推出了针对开发者的大型语言模型 Devstral2507系列,包含两款新模型:Devstral Small1.1和 Devstral Medium2507。 这些模型旨在支持基于智能代理的代码推理、程序合成和结构化任务执行,适用于大型软件代码

2025-05-23

法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。这款拥有2400万参数

2023-09-30

法国人工智能初创公司 Mistral AI 宣布推出其首款大语言模型 Mistral 7B 是一个,号称是迄今为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。 Mistral AI 是一个成立仅六个月的初创

2025-05-09

法国 AI 初创公司 Mistral 发布了新的 AI 模型 Mistral Medium 3,该模型注重效率,同时不影响性能。据介绍,在各项基准测试中,该模型性能达到或超过 Claude Sonnet 3.7 的 90%,而成本显著更低(每百万 token 输入 0.4 美元/输出 2 美元)

2025-06-12

Mistral 宣布推出其首个推理模型系列 Magistral,采用 step-by-step 的方式,以提高数学和物理等主题的一致性和可靠性。 Magistral 有两种版本:Magistral Small 和 Magistral Medium。Magistral Small 拥有 240 亿个参数,在 Apache 2.0 协议下开

2024-07-18

法国人工智能初创公司 Mistral 以其强大的开源人工智能模型而闻名。今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,

2024-03-14

本中删除,因为 Google 将在 6 个月后停止使用该机型。 Mistral AI 可重试的流式和非流式聊天客户端 函数调用 Mistral 应用程序的 Native compilation 函数调用改进 对函数调用进行了多项改进,并创建了一个示例程序。 Open

2024-07-26

布最强开源大模型 Llama 3.1 后,法国 AI 初创公司 Mistral AI 也加入了竞争,今天发布了全新的旗舰开源模型 Mistral Large 2。 该模型拥有 1230 亿个参数,可在单个 H100 节点上以高吞吐量运行,在代码生成、数学、推理等方面

2025-04-22

言模型:兼容Safetensor PyTorch格式的DeepSeek R1、Phi3、Qwen2、Mistral,以及GGUF格式的Llama3.1、Llama3.2,结合OpenVINO优化的TinyLlama、Mistral7B、Phi3mini和Phi3.5mini,提供高效的本地聊天与推理能力。 ComfyUI工作流:通过集成ComfyUI,AI Playground

2025-06-11

根据CNBC的报道,法国AI初创公司Mistral将推出其首个推理模型Magistral,加入与OpenAI、DeepSeek等全球领先企业的竞争。 Mistral首席执行官亚瑟・门施介绍道,Magistral不仅擅长数学和编码,还能够实现欧洲语言的逻辑推理,突破了美

2025-04-15

,除了谷歌的Gemini系列模型之外,还支持Anthropic、Meta、Mistral AI、AI21 Labs、CAMB.AI、Qodo等200多个第三方开闭源模型。 ADK的亮点之一便是轻松开发复杂智能体,支持多层级结构组合的智能体实现复杂的协调和委派。开发者可以构建

2025-03-20

Mistral AI 现已开源发布全新轻量级 AI 模型 Mistral Small 3.1。Mistral Small 3.1 能够处理文本和图像,参数仅为 240 亿。该模型提高了文本能力和多模态理解能力,并具备 128K 上下文窗口。 核心特性 轻量级部署:可在 单个 RTX 4090

2025-05-30

Mistral AI 发布了其首款专门针对代码的嵌入模型 Codestral Embed。该模型在处理真实世界代码数据的检索用例时表现尤为出色,据称其性能显著优于市场上领先的代码嵌入器,包括 Voyage Code 3、Cohere Embed v4.0 以及 OpenAI 的大型嵌入

2025-07-15

据彭博社报道,苹果将Mistral视为潜在的收购对象,以弥补其在生成式AI领域(如Siri)的不足 。 Mistral AI是欧洲估值最高的AI初创企业,目前估值约€5.8亿(约$6.2亿),已融资约€1.1亿(约$1.2亿),并正在洽谈新一轮高达$1亿的