英伟达发布并开源两款多语言语音模型,支持商用


英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3,分别针对语音识别与翻译以及高吞吐量转录场景,均支持商用。

Canary-1b-v2拥有10亿参数,支持25种欧洲语言的自动语音识别(ASR)与双向语音翻译(AST),在多个基准测试中表现出色,推理速度比同质量模型快10倍。该模型已上线Hugging FaceDemo并采用CC-BY-4.0许可。

Parakeet-tdt-0.6b-v3是一款600M参数的高吞吐ASR模型,语言支持从英语扩展至25种欧洲语言,可自动识别音频语言并进行转录。该模型面向对话AI、字幕、语音分析等场景,兼容Ampere、Hopper、Blackwell架构GPU。

两款模型均已在Hugging Face开放下载与商用。

https://huggingface.co/nvidia/canary-1b-v2
https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3​


相關推薦

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。 数据集构成 67.0% 视觉问答(VQA)样本 28.4% OCR 样本 4.6% 图像描述(Captioning)样本 主要用途 文档理解

2025-06-04

04.14906 (@APPSO、@阿里语音 AI) 2、可灵 2.1 系列视频模型发布,拥有卓越的动态效果表现,更强的语义响应 快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型: 标准版支持标准

2025-03-25

在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。 通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环

2025-08-02

:超能聊,跑得快 Qwen3-8B / Qwen3-4B / Qwen3-0.6B 国产开源的 Qwen3 系列,从轻量级到中型参数都有,支持「思考模式」与「对话模式」自由切换,还能写代码、讲英文、做推理。模型权重与 API 已全面开放,商用也不用担心授

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2023-11-26

根据路透社的独家报道,两名知情人士透露,英伟达已通知中国客户,其为遵守美国出口规定而设计的新款 AI 芯片将推迟到明年第一季度发布。 前情提要:英伟达或将推出针对中国区的最新改良版 AI 芯片 英伟达将特供三

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2025-03-28

The Information 报道称,英伟达正洽谈收购初创公司Lepton AI,此次交易价值数亿美元。此举被认为是英伟达进军云计算和企业软件市场的一部分,旨在与亚马逊和谷歌等主要云计算提供商展开竞争。 Lepton AI成立于2023年,由阿里云

2025-07-23

近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何

2025-07-17

和边缘部署的 3B 版本。两个版本均基于 Apache 2.0 许可证发布。 公告称,Voxtral 解决了开发者需要在低成本的开源系统和高效但封闭的解决方案之间做选择的问题。该模型以不到同类 API 一半的价格,在开放环境中提供最先进的

2023-10-31

昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。 除模

2023-08-11

平台应用开发框架TSG所孵化项目 —— ArkUI-X,近期已正式开源。 开发者基于一套主代码,就可以将在OpenHarmony上开发的精美、高性能应用同时运行在Android、iOS等其它OS平台上。 ArkUI-X开源项目地址:https://gitee.com/arkui-x 01 ArkUI-