摩尔线程开源音频理解大模型 MooER


摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。

摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型。

MooER的模型结构包括Encoder、Adapter和Decoder(Large Language Model,LLM)三个部分。其中,由Encoder对输入的原始音频进行建模,提取特征并获取表征向量。Encoder的输出会送到Adapter进一步下采样,使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(Automatic Speech Recognition,ASR)、语音翻译(Automatic Speech Translation,AST)等。

在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM:

项目团队将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。结果显示,MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K的效果更优或几乎持平。

特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。

更多详情可查看技术文档:https://arxiv.org/pdf/2408.05101


相關推薦

2023-04-19

国产显卡厂商摩尔线程正在致力于优化旗下显卡产品的软件生态。据外媒 phoronix 报道, 摩尔线程的工程师最近对视频加速 API (VA-API) 库和视频库 FFmpeg 都提交了一些驱动代码。 摩尔线程成立于 2020 年,致力于研发国产 GPU 芯片

2024-09-24

近日,摩尔线程宣布其自研统一系统架构MUSA已完成与开源计算机视觉库OpenCV的适配,并正式发布OpenCV-MUSA开源项目。 该项目旨在为开发者和研究人员提供更加高效与便捷的工具,使其在开发基于全功能GPU的各类计算机视觉应用

2022-11-06

个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,发生了5次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-06-22

alGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模

2023-11-25

布,在社区爱好者以及 deepin 研发团队的推动下,完成了摩尔线程 MTT S80 显卡的适配工作,成功在 deepin V23 Beta2 版本上驱动 MTT S80 显卡。 据悉,此次适配的摩尔线程 MTT S80 显卡,于 2022 年 11 月发布,搭载了完整的“春晓”芯片

2023-03-02

潮信息、昆仑芯科技、壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计算所优势团队,共建“北京国家新一代人工智能创新发展试验区AI开放生态实验室”,共同开展基础软硬件适配、评

2023-02-04

导航等)的大型功能和性能改进。服务器现在也是支持多线程,以及经过优化,甚至资产加载现在也可以多线程完成。 尽管如此,场景系统尽管在可用性方面有了一些改进,但并没有得到显著的优化。 Godot 中的场景节点主要

2023-12-05

在11月,FVP正式支持deepin V23 ,deepin V23成功适配国产显卡摩尔线程MTT S80 11月deepin SIG组共提交PR 1828 个 ,提交Issues 210个,个人贡献PR316个,个人提交Issues16个 社区产品 deepin(深度)操作系统 11月deepin V23  系统前

2023-09-13

T-GPT 能够感知不同的输入形式,并以文本、图像、视频和音频的任意组合方式生成输出内容。 NExT-GPT 架构: 通过利用现有训练有素的高性能编码器和解码器,NExT-GPT仅使用某些投影层的少量参数(1%)进行调整,这不仅有利于低

2023-03-11

形式召开。此次会议由长沙景美集成电路设计有限公司、摩尔线程智能科技(北京)有限责任公司、格兰菲智能科技有限公司、象帝先计算技术(重庆)有限公司等GPU厂商的多位SIG Maintainer代表成员参会讨论。   会议

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 重要更新 最新音频课程现已发布 近期,我们发布了一个音频

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均