阿里通义开源音频语言模型 Qwen2-Audio


通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点:

  • 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。
  • 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。
  • 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段,依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐,接着通过SFT(监督微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。

目前通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本 Qwen2-Audio-7B-Instruct。

  • https://huggingface.co/Qwen/Qwen2-Audio-7B
  • https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

相關推薦

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-08-26

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/m

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2023-11-01

Android 版本),用户开始可以下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2023-09-14

多元共进|2023 Google 开发者大会精彩演讲回顾 阿里云9月13日宣布,通义千问大模型已首批通过备案,正式向公众开放。 用户可登录通义千问官网 (https://qianwen.aliyun.com) 体验,企业用户可以通过阿里云调用通义千问 API (https:/

2024-08-10

阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、

2024-08-17

8月15日晚间,阿里巴巴集团发布最新季度业绩,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长。同时,阿里云利润大涨,经调整EBITA利润同比增长155%,单季

2023-09-27

OpenAI 的 GPT-3.5 ,GPT-4 Anthropic 的 Claude instant, Claude 2.0 阿里的通义千问 百度的文心一言 科大讯飞的讯飞星火 商汤日日新 腾讯混元大模型 开源大模型 Llama2 70B 开源大模型 Llama2 7B 中文版 开源大模型 ChatGLM2 6B 开源

2024-08-14

等多个领域,为用户带来更加丰富、智能的应用体验。 阿里通义 通义是一款超大规模与训练模型,为您提供全方位协助,包括知识问答、AI创作、文档作画、涂鸦绘画、AI搜索、千万字长文档解析、AI翻译、AI会议纪要等等,

2024-07-11

总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、L

2024-09-21

件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant,标志着JetBrains在完善其开发工具产品生态方面迈出了重要一步。JetBrains AI Assistant与多款JetBrains产品深度集成,能够以高度的适配性完

2024-08-09

阿里云宣布域名产品服务完成AI化系列改造,推出首个基于通义大模型的域名AI应用,升级后的阿里云万网可通过输入品牌名称和所属行业大模型批量生成创意域名。 同时,大模型将会自动进行语义解析,输出域名含义,并通过

2024-06-25

零一万物宣布已与阿里云达成紧密合作,Yi-Large等系列大模型登陆国内最大AI云服务平台阿里云百炼平台,这是零一万物首次通过云厂商提供API服务。 “此次登陆阿里云百炼平台,是零一万物Yi系列大模型积极拥抱头部云平台