清华大学开源 Video-T1:无需重新训练 AI 视频秒变高清大片


清华大学的研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。

何为“测试时缩放”?

在大型语言模型 (LLMs) 领域,研究人员已经发现,通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路,并将其应用于视频生成领域。简单来说,传统的视频生成模型在接收到文本提示后,会直接生成一段视频。

而采用了 TTS 的 Video-T1,则像是在生成视频的过程中进行多次“搜索”和“筛选”,通过生成多个候选视频,并利用“测试验证器”进行评估,最终选择质量最高的视频。这就像一位精雕细琢的艺术家,在完成最终作品前会尝试多种不同的方法和细节。

Video-T1的核心技术

Video-T1并没有直接增加训练成本,而是专注于如何更有效地利用现有模型的能力。其核心方法可以理解为在模型的“噪声空间”中寻找更优的视频生成轨迹。为了实现这一目标,研究团队提出了两种主要的搜索策略:

随机线性搜索 (Random Linear Search):这种方法通过随机采样多个高斯噪声,让视频生成模型对这些噪声进行逐步去噪,生成多个候选视频片段,然后利用测试验证器对这些候选视频进行评分,最终选择得分最高的视频。

帧树搜索 (Tree-of-Frames, ToF):考虑到同时对所有帧进行全步去噪会带来巨大的计算成本,ToF 采用了一种更高效的策略。它将视频生成过程分为三个阶段:首先进行图像级别的对齐,这会影响后续帧的生成;其次,在测试验证器中使用动态提示,重点关注运动的稳定性物理上的合理性,并根据反馈指导搜索过程;最后,评估视频的整体质量,并选择与文本提示对齐度最高的视频。ToF 这种自回归的方式能够更智能地探索视频生成的可能性。

 

TTS 的显著效果

实验结果表明,随着测试时计算量的增加(即生成更多候选视频),模型性能会持续提升。这意味着,通过投入更多的推理时间,即使是同一个视频生成模型,也能够产生更高质量、与文本提示更加一致的视频。研究人员在多个视频生成模型上进行了实验,结果都显示出 TTS 能够稳定地带来性能提升。同时,不同的测试验证器关注的评估方面有所不同,因此在性能提升的速率和程度上也存在差异。

Video-T1的 TTS 方法在常见的提示类别(如场景、物体)和容易评估的维度(如图像质量)上取得了显著的改进。通过观察官方提供的视频演示可以看出,经过 TTS 处理后的视频在清晰度、细节和与文本描述的贴合度上都有明显的提升。例如,描述“戴着太阳镜在泳池边当救生员的猫”的视频,在经过 TTS 处理后,猫的形象更加清晰,救生员的动作也更加自然。

挑战与展望

尽管 TTS 在许多方面都带来了显著的进步,但研究人员也指出,对于一些难以评估的潜在属性,例如运动的流畅性时序上的一致性(避免画面闪烁),TTS 的改进效果相对有限。这主要是因为这些属性需要对跨帧的运动轨迹进行精确控制,而目前的视频生成模型在这方面仍然面临挑战。

清华大学开源的 Video-T1通过创新的测试时缩放策略,为提升视频生成质量提供了一种新的有效途径。它无需昂贵的重新训练,而是通过更智能地利用推理时的计算资源,让现有模型焕发出更强的能力。随着未来研究的深入,我们有理由期待 TTS 技术在视频生成领域发挥越来越重要的作用。


相關推薦

2023-06-22

从而更好地理解世界。” 值得一提的是,6 月 19 日,由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AI

2023-06-29

看吧! 🧨Diffusers 库支持 UniDiffuser pipeline UniDiffuser 是清华大学朱军老师团队提出的一个为多模态设计的概率建模框架,你可以在机器之心的这篇文章里了解更多《清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文

2024-03-02

国具有庞大的互联网用户群体和数据规模,将为人工智能训练提供海量的资源支持。同时,中国在制造业、服务业、交通业、健康教育等领域拥有丰富的应用场景,加之拥有超大规模市场优势,能为人工智能产业提供更多发展空

2024-08-20

昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,旨在让创作者“一键成剧”,轻松制作高质量AI视频。 SkyReels平台集成了昆仑万维自研剧

2023-09-08

于2019年的智谱AI,是国内最早一批研发大模型的企业,由清华大学知识工程实验室(KEG)技术成果转化。 智谱清言在线体验:https://chatglm.cn/ 百川智能(百川大模型) 8 月 31 日,前搜狗 CEO 王小川创立的百川智能宣布率先通

2023-10-26

,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应用提供强大支持。在预训练方面,该预训练与模型具备以下四项核心优势。 统一的预训练方式

2023-08-31

可观测领域的神器 or 鸡肋? 阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。 Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语/代码词块的数据集上进

2025-03-28

上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。 在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类

2023-07-08

好的服务。昇腾AI云服务单集群提供2000P Flops算力,千卡训练30天长稳率达到90%,为业界提供稳定可靠的AI算力,让大模型触手可及。 华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0 张平安表示:“盘古大模型要让每个

2023-07-25

以及各行业领域的研究报告定制服务。 会议还邀请到了开源PHP的董事长马越就模型开源和AI行业应用进行了相关分享。开源PHP创立于 2008 年,收录全球知名开源项目近 10 万款,涉及几百个不同的分类,并于 2022 年发布了中国开

2023-03-02

e eKuiper 是 Golang 实现的轻量级物联网边缘分析、流式处理开源软件,可以运行在各类资源受限的边缘设备上。eKuiper 的主要目标是在边缘端提供一个流媒体软件框架(类似于 Apache Flink )。eKuiper 的规则引擎允许用户提供基于 SQL

2023-11-04

深言科技与清华大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发

2023-03-02

壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计算所优势团队,共建“北京国家新一代人工智能创新发展试验区AI开放生态实验室”,共同开展基础软硬件适配、评测等工作,实现拉动基

2024-09-26

可大幅降低AI应用开发的技术门槛和成本。该项技术是与清华大学高性能计算研究所合作的研发成果,可通过降低模型应用间的耦合性,提高资源利用率。Serverless API简化了AI应用开发过程,开发者只需注册账号即可直接调用,且