阿里通义开源实首个音频生成模型 ThinkSound

2025-07-08 發表於开源资讯

通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。

该模型首次把多模态大模型的思维链推理引入音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的高保真音频。

目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。

https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound

据介绍，ThinkSound 首次将 CoT（Chain-of-Thought，思维链）应用到音频生成领域，让 AI 学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”，而是真正“听懂画面”。

据悉，AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景，为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力，研究团队设计了一套精细化的数据筛选流程，包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验，层层把关以保障数据集的整体质量。

相關推薦

阿里通义开源音频语言模型 Qwen2-Audio

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本，它能够接受音频和文本输入，并生成文本输出。具有以下特点：语音聊天：用户可以使用语音向音频语言模型发出指令，无需通过自动语音识别（ASR）

阿里通义实验室发布 OmniAudio，可从 360° 视频生成空间音频

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。为了解决「如何利用全景视频生成与之匹

国家天文台基于通义千问打造国际首个太阳大模型“金乌”

2025-04-02

国家天文台联合阿里云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造，目前在M5级太阳耀斑预报上准确率超91%，为该级别太阳预报最高水平。根据介绍，基于Qwen-VL等模型，“金乌”太阳大

阿里通义开源多模态推理模型 HumanOmniV2

2025-07-10

阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型，旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息，从而更好地理解人类的复杂意图和

阿里云开源通义千问 720 亿参数模型 Qwen-72B

2023-12-02

今天，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。地址：https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍，Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

26 日「源创会」北京站，聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL，并宣布直接开源。开源地址 ModelScope魔搭社区： Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat：https://modelscope.cn/m

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

-Any Step3: Image+Text > Text HunyuanWorld-1: Image > 3D ThinkSound: Video > Audio Neta-Lumina: Text > Image ✨ 轻量级、可部署的模型 SmallThinker runs on 1GB RAM ✨ Agentic编程成为主流 Qwen3-Coder: fully spec'd tool calling GLM-4.5: b

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

Hugging Face 发布了最新的大模型榜单，阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型，旨在感知文本、图像、音频

阿里通义千问启用新域名“tongyi.ai”

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」，并带来多项新功能。除了域名更新，网页版通义千问还在聊天页面中增加了深度搜索功能，该功能支持更多内容源索引，搜索结果更加深度、专业和结构化，数字角标悬

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

技术，可直接从 360° 视频生成 FOA 空间音频 5 月 29 日，阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍，OmniAudio 能够直接从 360° 视频生成空间音频。为了解决「如何利用全景视频生成与之匹配的

阿里云推出首个域名 AI 大模型应用

2024-08-09

阿里云宣布域名产品服务完成AI化系列改造，推出首个基于通义大模型的域名AI应用，升级后的阿里云万网可通过输入品牌名称和所属行业大模型批量生成创意域名。同时，大模型将会自动进行语义解析，输出域名含义，并通过

LiblibAI 接入阿里通义大模型，推出 10 秒 AI 视频生成功能

2025-03-25

国内 AI 图像创作平台 LiblibAI 近日宣布接入阿里通义系列大模型。此次接入后，基于万相最新开源模型，LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词，或者上传图片，就能快速生成10秒短视频。这一功能的

阿里财报：AI 收入连续 8 季度三位数增长

2025-08-30

8月29日，阿里巴巴集团发布2026财年第一季度财报，业绩表现远超市场预期。剔除已出售业务影响，集团整体收入同比稳健增长10%，净利润同比大幅增长76%，充分展现了AI+云与消费两大战略领域投入的显著成效。阿里云本季度表

阿里云通义千问 14B 模型开源

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat，免费可商用。据阿里云CTO周靖人介绍，Qwen-14B在多个权威评测中超越同等规模模型，部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

熱門推薦