清华大学开源 Video-T1：无需重新训练 AI 视频秒变高清大片

2025-03-27 發表於开源资讯

清华大学的研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。

何为“测试时缩放”?

在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成领域。简单来说，传统的视频生成模型在接收到文本提示后，会直接生成一段视频。

而采用了 TTS 的 Video-T1，则像是在生成视频的过程中进行多次“搜索”和“筛选”，通过生成多个候选视频，并利用“测试验证器”进行评估，最终选择质量最高的视频。这就像一位精雕细琢的艺术家，在完成最终作品前会尝试多种不同的方法和细节。

Video-T1的核心技术

Video-T1并没有直接增加训练成本，而是专注于如何更有效地利用现有模型的能力。其核心方法可以理解为在模型的“噪声空间”中寻找更优的视频生成轨迹。为了实现这一目标，研究团队提出了两种主要的搜索策略:

随机线性搜索（Random Linear Search）:这种方法通过随机采样多个高斯噪声，让视频生成模型对这些噪声进行逐步去噪，生成多个候选视频片段，然后利用测试验证器对这些候选视频进行评分，最终选择得分最高的视频。

帧树搜索（Tree-of-Frames， ToF）:考虑到同时对所有帧进行全步去噪会带来巨大的计算成本，ToF 采用了一种更高效的策略。它将视频生成过程分为三个阶段:首先进行图像级别的对齐，这会影响后续帧的生成;其次，在测试验证器中使用动态提示，重点关注运动的稳定性和物理上的合理性，并根据反馈指导搜索过程;最后，评估视频的整体质量，并选择与文本提示对齐度最高的视频。ToF 这种自回归的方式能够更智能地探索视频生成的可能性。

TTS 的显著效果

实验结果表明，随着测试时计算量的增加（即生成更多候选视频），模型性能会持续提升。这意味着，通过投入更多的推理时间，即使是同一个视频生成模型，也能够产生更高质量、与文本提示更加一致的视频。研究人员在多个视频生成模型上进行了实验，结果都显示出 TTS 能够稳定地带来性能提升。同时，不同的测试验证器关注的评估方面有所不同，因此在性能提升的速率和程度上也存在差异。

Video-T1的 TTS 方法在常见的提示类别（如场景、物体）和容易评估的维度(如图像质量)上取得了显著的改进。通过观察官方提供的视频演示可以看出，经过 TTS 处理后的视频在清晰度、细节和与文本描述的贴合度上都有明显的提升。例如，描述“戴着太阳镜在泳池边当救生员的猫”的视频，在经过 TTS 处理后，猫的形象更加清晰，救生员的动作也更加自然。

挑战与展望

尽管 TTS 在许多方面都带来了显著的进步，但研究人员也指出，对于一些难以评估的潜在属性，例如运动的流畅性和时序上的一致性（避免画面闪烁），TTS 的改进效果相对有限。这主要是因为这些属性需要对跨帧的运动轨迹进行精确控制，而目前的视频生成模型在这方面仍然面临挑战。

清华大学开源的 Video-T1通过创新的测试时缩放策略，为提升视频生成质量提供了一种新的有效途径。它无需昂贵的重新训练，而是通过更智能地利用推理时的计算资源，让现有模型焕发出更强的能力。随着未来研究的深入，我们有理由期待 TTS 技术在视频生成领域发挥越来越重要的作用。

清华大学开源 Video-T1：无需重新训练 AI 视频秒变高清大片

何为“测试时缩放”?

Video-T1的核心技术

TTS 的显著效果

挑战与展望

相關推薦

三星 Galaxy S25系列：用未来科技，点亮你的精彩每一刻

清华博士带队，发布全球首个自回归视频生成大模型「Magi-1」

AI 初创公司 Midjourney 更新功能，允许标准订阅用户生成高清视频

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

Pika 发布音频驱动的视频生成模型

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

经济日报：Sora 远不是人工智能终点

中国开源 AI 社区 7 月高亮时刻回顾

MOSS-TTSD 开源：百万小时训练打造 AI 播客新王者

Meta 发布开源世界模型 V-JEPA 2

机器人界 Sora，清华&星动纪元开源首个 AIGC 机器人大模型