摩尔线程开源音频理解大模型 MooER

2024-08-27 發表於开源资讯

摩尔线程宣布开源音频理解大模型—MooER（摩耳）。公告称，MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型，不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。

摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型，并计划进一步开源训练代码和基于8万小时数据训练的模型。

MooER的模型结构包括Encoder、Adapter和Decoder（Large Language Model，LLM）三个部分。其中，由Encoder对输入的原始音频进行建模，提取特征并获取表征向量。Encoder的输出会送到Adapter进一步下采样，使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后，再送进LLM进行对应的下游任务，如语音识别（Automatic Speech Recognition，ASR）、语音翻译（Automatic Speech Translation，AST）等。

在模型训练阶段，融合了语音模态和文本模态的数据会按以下形式输入到LLM：

项目团队将MooER与多个开源的音频理解大模型进行了对比，包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。结果显示，MooER-5K在六个中文测试集上的CER（字错误率）达到4.21%，在六个英文测试集的WER（词错误率）为17.98%，与其它开源模型相比，MooER-5K的效果更优或几乎持平。

特别是在Covost2 zh2en中译英测试集上，MooER的BLEU分数达到了25.2，显著优于其他开源模型，取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型，在上述中文测试集上的CER达到了3.50%，在英文测试集上的WER到达了12.66%。

更多详情可查看技术文档：https://arxiv.org/pdf/2408.05101

摩尔线程开源音频理解大模型 MooER

相關推薦

国产显卡厂商摩尔线程为 VA-API、FFmpeg 贡献代码

摩尔线程 MUSA 架构成功适配开源推理框架 llama.cpp

摩尔线程正式开源 OpenCV-MUSA

deepin V23 成功适配国产显卡摩尔线程 MTT S80

开源“摩尔定律”即将打破，《2022开源大数据热力报告》重磅发布

李沐发布开源 TTS 语言大模型 Higgs Audio v2

阿里云开源通义千问 720 亿参数模型 Qwen-72B

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

FlagOpen 大模型技术开源体系，开启大模型时代“新 Linux”生态

Qwen2.5-Omni 登顶全球开源模型榜单

社区月报丨11 月，deepin 推出了很多新东西

Godot 离开发 3A 游戏还有多远？

ElevenLabs 新 TTS 模型支持音频标签丨日报

Mistral AI 开源 AI 音频模型系列 Voxtral