阿里通义开源音频语言模型 Qwen2-Audio

2024-08-14 發表於开源资讯

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本，它能够接受音频和文本输入，并生成文本输出。具有以下特点：

语音聊天：用户可以使用语音向音频语言模型发出指令，无需通过自动语音识别（ASR）模块。
音频分析：该模型能够根据文本指令分析音频信息，包括语音、声音、音乐等。
多语言支持：该模型支持超过8种语言和方言，例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段，依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐，接着通过SFT（监督微调）强化模型处理下游任务的能力，再通过 DPO（直接偏好优化）方法加强模型与人类偏好的对齐。

目前通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本 Qwen2-Audio-7B-Instruct。

https://huggingface.co/Qwen/Qwen2-Audio-7B
https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

相關推薦

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

行了全面评估，与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比，该模型在所有模态中均表现出色。在需要集成多种模态的任务（例如 OmniBench）中，Qwen2.5-Omni 实现了最佳性能。此外，在单模态

阿里云开源通义千问 720 亿参数模型 Qwen-72B

2023-12-02

今天，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。地址：https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍，Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70

阿里通义开源实首个音频生成模型 ThinkSound

2025-07-08

通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。该模型首次把多模态大模型的思维链推理引入音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的

阿里通义开源多模态推理模型 HumanOmniV2

2025-07-10

阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型，旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息，从而更好地理解人类的复杂意图和

阿里通义实验室发布 OmniAudio，可从 360° 视频生成空间音频

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。为了解决「如何利用全景视频生成与之匹

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

技术，可直接从 360° 视频生成 FOA 空间音频 5 月 29 日，阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍，OmniAudio 能够直接从 360° 视频生成空间音频。为了解决「如何利用全景视频生成与之匹配的

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

26 日「源创会」北京站，聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL，并宣布直接开源。开源地址 ModelScope魔搭社区： Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat：https://modelscope.cn/m

阿里云通义千问 14B 模型开源

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat，免费可商用。据阿里云CTO周靖人介绍，Qwen-14B在多个权威评测中超越同等规模模型，部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

通义千问 APP 上线，通义千问 720 亿参数模型下月开源

2023-11-01

Android 版本），用户开始可以下载相关APP进行体验。阿里云CTO周靖人宣布，将在11月开源通义千问720亿参数模型，继续支持全球开发者开展模型和应用创新。阿里云是国内最早开源自研大模型的头部科技企业，已先后开源

阿里通义应用视觉团队负责人薄列峰离职

2025-05-08

知情人士透露，阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。有消息称他已经加入刚刚进行架构调整的某互联网大厂，担任多模态模型部副总经理，向公司副总裁汇报。薄列锋2007年博士毕业于西安

阿里通义千问启用新域名“tongyi.ai”

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」，并带来多项新功能。除了域名更新，网页版通义千问还在聊天页面中增加了深度搜索功能，该功能支持更多内容源索引，搜索结果更加深度、专业和结构化，数字角标悬

阿里中标工商银行 AI 编程项目

2025-08-06

商银行发布《软件开发中心智能研发平台》中标结果。阿里云凭借通义灵码独家中标，根据中标公告，通义灵码将为工商银行智能研发平台提供代码补全、代码问答及单测智能体等服务。此前，工商银行已将阿里 Qwen 模型应用

LiblibAI 接入阿里通义大模型，推出 10 秒 AI 视频生成功能

2025-03-25

国内 AI 图像创作平台 LiblibAI 近日宣布接入阿里通义系列大模型。此次接入后，基于万相最新开源模型，LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词，或者上传图片，就能快速生成10秒短视频。这一功能的

阿里通义千问 Qwen3 全系适配 MLX

2025-06-18

阿里通义千问团队宣布正式开源 Qwen3 全系列 32 款 MLX 量化模型。 MLX 是开源机器学习框架，专为苹果芯片深度适配。MLX 框架可高效地训练和部署 AI 大模型，被越来越多的 AI 开发者采用。为更好服务开发者，通义团队推

熱門推薦