清华大学&生数科技提出可控长时文生音频系统 FreeAudio

2025-07-26 發表於开源资讯

清华大学与生数科技合作发表论文，提出了一种名为FreeAudio的精准时间可控长时文生音频系统。该系统无需额外训练，即可基于自然语言文本和时间提示，生成超过10秒且时间点精确可控的音频，突破了现有技术普遍存在的10秒时长限制。

https://arxiv.org/abs/2507.08557

FreeAudio系统利用大语言模型（LLM）对时间结构进行规划，将复杂的文本和时间提示解析为一系列不重叠的时间窗口，并为每个窗口生成独立的描述。

随后，通过“解耦与聚合注意力控制”机制，在DiT-based T2A模型中引导各子段与对应描述对齐。最后，通过上下文潜变量合成、参考引导和上下文修剪与拼接等长时生成优化技术，确保音频片段间的平滑过渡和全局一致性。在AudioCondition测试集上，FreeAudio的事件级和片段级得分均排名第一，并在多项客观和主观评估中表现优异。

该研究成果已被计算机多媒体领域的顶级会议ACM Multimedia 2025录用，并可能在未来应用于生数科技的Vidu产品中。

相關推薦

openKylin 社区第二次专家研讨会暨“可控开源”体系评审会顺利召开!

2022-11-24

德、麒麟信安、凝思软件、一铭软件、中兴新支点、元心科技、中国电科32所、技德系统、北京麟卓、先进操作系统创新中心等13家产业同仁和行业机构。审核：openKyli

Vidu Q1 上线“参考生图”功能，可支持 7 张参考图输入

2025-09-10

生数科技旗下视频大模型Vidu今天正式推出Vidu Q1参考生图功能，能够支持7张参考图输入。据介绍，Vidu Q1参考生图以“参考够多，还原够真”为核心，主要包括五大亮点：参考数量行业领先同时支持7张参考图输入，可控

国产操作系统新进展：OpenCloudOS 社区推出首个全自研发行版

2023-04-01

红旗、飞腾、浪潮、龙芯中科、OPPO、中科方德、兆芯、清华大学、北京大学等都是社区重要成员。目前，OpenCloudOS社区及衍生版本装机量累计超过1000万节点，覆盖了银行、保险、证券等12大行业，并经历了海量场景长时间的

openKylin 社区首届咨询委员会会议成功召开！

2023-03-27

天工程大学教授邹鹏，共创软件联盟理事长张玉志，国防科技大学研究员吴庆波，先进操作系统创新中心(天津)总经理韩乃平，原科技部高技术研究发展中心研究员嵇智源，开源专家、LVS创始人章文嵩，中南大学自动化学院院长

北京人形机器人半马参赛名单揭晓

2025-04-19

支队伍参赛，其中既有来自企业或研究机构的队伍，也有清华大学、北京科技职业大学等高校科研组织。根据《科创板日报》基于公开信息统计，已知有7家企业将携自家研发的机器人参赛，其余机构则大多选择安排第三方机器

生树科技发布高可控 AI 视频大模型「Vidu Q1」

2025-04-23

生树科技旗下的 Vidu AI 发布了业内首个高可控 AI 视频大模型「Q1」。据介绍，Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。并且 Vidu Q1 在四大核心能力进行了全面升级：极「质」高清：画质细

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

于2019年的智谱AI，是国内最早一批研发大模型的企业，由清华大学知识工程实验室（KEG）技术成果转化。智谱清言在线体验：https://chatglm.cn/ 百川智能（百川大模型） 8 月 31 日，前搜狗 CEO 王小川创立的百川智能宣布率先通

Pika 发布音频驱动的视频生成模型

2025-08-14

基于文本生成短视频的 AI 工具。 Pika 的核心产品为「文生视频」模型，号称用户一句话描述，就能生成风格多样的动画短视频。

商汤发布首个“可控”人物视频生成大模型 Vimi

2024-07-05

成数字分身和不同风格的写真视频。目前，Vimi已在商汤科技官网开放预约。 Vimi 也入选了2024世界人工智能大会的“镇馆之宝”名单。其他入选的还包括阿里云AI编程助手通义灵码、支付宝智能助理、智谱AI基座大模型、特斯拉

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

丸研发新型人脸动画技术，声音+指令精准控制表情趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate，该算法能够根据音频和各种可选的控制条件生成高质量的肖像视频。通俗来讲，就是给定一张照片和一段音频，就可以生

数字经济与开源创新共舞，开启经管法教育新篇章——第一届数字经济开源创新学术会议暨经管法高校开源创新教育论坛在上经贸大举行

2024-10-19

员会指导下认真落实国家政策的重要活动。来自中科院、清华大学、北京大学、华东师范大学、上海交通大学、复旦大学、北京科技大学、中国传媒大学、澳门理工大学、天津中教开源创新研究院等学术界专家，与来自华为、红

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

507，CoT音频模型ThinkSound，统一视频生成模型Wan2.2-TI2V-5B，文生视频Wan2.2-T2V-A14B。 2、月之暗面（2个）：MoE基础模型Kimi-K2-Base，与Numina团队联合研发的数学定理证明模型Kimina-Prover-72B。 3、智谱（2个）：多模态大模型GLM-4.1V-9B-Thinkin

我国科学家发明混合并行新算法，让 AI 训练速度翻倍

2025-05-30

近日，西北农林科技大学信息工程学院智能计算与农业信息系统团队刘斌教授携其课题组在国际计算机体系结构领域权威期刊《IEEE Transactions on Computers》（TC，CCF A类期刊）上发表研究论文。该论文由西北农林科技大学携手美国

FlagOpen 大模型技术开源体系，开启大模型时代“新 Linux”生态

2023-03-02

壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业，清华大学、北京大学、中科院计算所优势团队，共建“北京国家新一代人工智能创新发展试验区AI开放生态实验室”，共同开展基础软硬件适配、评测等工作，实现拉动基

熱門推薦