阿里通义开源实首个音频生成模型 ThinkSound


通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。

该模型首次把多模态大模型的思维链推理引入音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的高保真音频。

目前,ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验。

  • https://github.com/FunAudioLLM/ThinkSound
  • https://huggingface.co/spaces/FunAudioLLM/ThinkSound
  • https://www.modelscope.cn/studios/iic/ThinkSound

据介绍,ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。

据悉,AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。


相關推薦

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。 为了解决「如何利用全景视频生成与之匹

2025-04-02

国家天文台联合阿里云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造,目前在M5级太阳耀斑预报上准确率超91%,为该级别太阳预报最高水平。 根据介绍,基于Qwen-VL等模型,“金乌”太阳大

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-08-26

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/m

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2025-06-04

技术,可直接从 360° 视频生成 FOA 空间音频 5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。 为了解决「如何利用全景视频生成与之匹配的

2024-08-09

阿里云宣布域名产品服务完成AI化系列改造,推出首个基于通义大模型的域名AI应用,升级后的阿里云万网可通过输入品牌名称和所属行业大模型批量生成创意域名。 同时,大模型将会自动进行语义解析,输出域名含义,并通过

2025-03-25

国内 AI 图像创作平台 LiblibAI 近日宣布接入阿里通义系列大模型。 此次接入后,基于万相最新开源模型,LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词,或者上传图片,就能快速生成10秒短视频。这一功能的

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2024-07-05

界人工智能大会的“镇馆之宝”名单。其他入选的还包括阿里云AI编程助手通义灵码、支付宝智能助理、智谱AI基座大模型、特斯拉赛博越野旅行车等。

2025-05-31

阿里云发布旗下首个 AI 原生的开发环境工具通义灵码 AI IDE,适配了最新的千问3大模型,全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。 不仅可以辅助写代码、修BUG,还拥有自主决策、MCP工具

2023-11-01

Android 版本),用户开始可以下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源