清华大学&生数科技提出可控长时文生音频系统 FreeAudio


清华大学与生数科技合作发表论文,提出了一种名为FreeAudio的精准时间可控长时文生音频系统。该系统无需额外训练,即可基于自然语言文本和时间提示,生成超过10秒且时间点精确可控的音频,突破了现有技术普遍存在的10秒时长限制。

https://arxiv.org/abs/2507.08557

FreeAudio系统利用大语言模型(LLM)对时间结构进行规划,将复杂的文本和时间提示解析为一系列不重叠的时间窗口,并为每个窗口生成独立的描述。

随后,通过“解耦与聚合注意力控制”机制,在DiT-based T2A模型中引导各子段与对应描述对齐。最后,通过上下文潜变量合成、参考引导和上下文修剪与拼接等长时生成优化技术,确保音频片段间的平滑过渡和全局一致性。在AudioCondition测试集上,FreeAudio的事件级和片段级得分均排名第一,并在多项客观和主观评估中表现优异。

该研究成果已被计算机多媒体领域的顶级会议ACM Multimedia 2025录用,并可能在未来应用于生数科技的Vidu产品中。


相關推薦

2022-11-24

德、麒麟信安、凝思软件、一铭软件、中兴新支点、元心科技、中国电科32所、技德系统、北京麟卓、先进操作系统创新中心等13家产业同仁和行业机构。   审核:openKyli

2023-04-01

红旗、飞腾、浪潮、龙芯中科、OPPO、中科方德、兆芯、清华大学、北京大学等都是社区重要成员。 目前,OpenCloudOS社区及衍生版本装机量累计超过1000万节点,覆盖了银行、保险、证券等12大行业,并经历了海量场景长时间的

2023-03-27

天工程大学教授邹鹏,共创软件联盟理事长张玉志,国防科技大学研究员吴庆波,先进操作系统创新中心(天津)总经理韩乃平,原科技部高技术研究发展中心研究员嵇智源,开源专家、LVS创始人章文嵩,中南大学自动化学院院长

2025-04-19

支队伍参赛,其中既有来自企业或研究机构的队伍,也有清华大学、北京科技职业大学等高校科研组织。根据《科创板日报》基于公开信息统计,已知有7家企业将携自家研发的机器人参赛,其余机构则大多选择安排第三方机器

2025-04-23

生树科技旗下的 Vidu AI 发布了业内首个高可控 AI 视频大模型「Q1」。 据介绍,Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。并且 Vidu Q1 在四大核心能力进行了全面升级: 极「质」高清:画质细

2023-09-08

于2019年的智谱AI,是国内最早一批研发大模型的企业,由清华大学知识工程实验室(KEG)技术成果转化。 智谱清言在线体验:https://chatglm.cn/ 百川智能(百川大模型) 8 月 31 日,前搜狗 CEO 王小川创立的百川智能宣布率先通

2024-07-05

成数字分身和不同风格的写真视频。目前,Vimi已在商汤科技官网开放预约。 Vimi 也入选了2024世界人工智能大会的“镇馆之宝”名单。其他入选的还包括阿里云AI编程助手通义灵码、支付宝智能助理、智谱AI基座大模型、特斯拉

2025-06-08

丸研发新型人脸动画技术,声音+指令精准控制表情 趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate,该算法能够根据音频和各种可选的控制条件生成高质量的肖像视频。通俗来讲,就是给定一张照片和一段音频,就可以生

2024-10-19

员会指导下认真落实国家政策的重要活动。来自中科院、清华大学、北京大学、华东师范大学、上海交通大学、复旦大学、北京科技大学、中国传媒大学、澳门理工大学、天津中教开源创新研究院等学术界专家,与来自华为、红

2025-08-05

507,CoT音频模型ThinkSound,统一视频生成模型Wan2.2-TI2V-5B,文生视频Wan2.2-T2V-A14B。 2、月之暗面(2个):MoE基础模型Kimi-K2-Base,与Numina团队联合研发的数学定理证明模型Kimina-Prover-72B。 3、智谱(2个):多模态大模型GLM-4.1V-9B-Thinkin

2025-05-30

近日,西北农林科技大学信息工程学院智能计算与农业信息系统团队刘斌教授携其课题组在国际计算机体系结构领域权威期刊《IEEE Transactions on Computers》(TC,CCF A类期刊)上发表研究论文。 该论文由西北农林科技大学携手美国

2023-03-02

壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计算所优势团队,共建“北京国家新一代人工智能创新发展试验区AI开放生态实验室”,共同开展基础软硬件适配、评测等工作,实现拉动基

2022-11-16

份有限公司任强副总经理、北京师范大学黄华副院长、某科技大学李爱平研究员等13位专家参加,围绕社区运营和研发工作展开了重点讨论。 会议开始,openKylin社区常务副秘书长刘敏结合社区自成立以来在平台搭建、活动运营

2023-07-05

清华大学人工智能研究院基础模型研究中心(简称“研究中心”)于 6 月 30 日下午正式宣布成立。 清华大学校长王希勤,中国科学院院士、清华大学人工智能研究院名誉院长张钹,中国工程院院士、清华大学网研院院长、中关