阶跃星辰开源 Step-Video-TI2V 图生视频模型

2025-03-21 發表於开源资讯

阶跃星辰宣布开源图生视频模型 Step-Video-TI2V，一款基于30B参数Step-Video-T2V训练的图生视频模型，支持生成102帧、5秒、540P分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点，同时天生具备一定的特效生成能力。

公告称，和目前已有开源图生视频模型相比，Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限，其运动幅度可控能力，更是能够平衡图生视频生成结果的动态性和稳定性，为创作者提供更为灵活的选择。

相比文生视频模型 Step-Video-T2V，此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化：

第一，引入图像条件，提高一致性

为了让模型更好地理解输入的图片，我们没有采用传统的 cross-attention 方法，而是使用了更直接、更高效的方式，将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接，这样生成的视频和原图才能更一致。

第二，引入运动幅度控制，赋予用户更高自由度

在训练过程中，Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息，特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别（motion = 2， 5， 10），精准控制视频的动态幅度，平衡视频的动态性、稳定性和一致性。

在数据优化方面，项目团队对于主体动作和镜头运动进行了专项精准标注，使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

阶跃星辰方面称，在 VBench-I2V 基准测试中，Step-Video-TI2V 取得了 state-of-the-art 级别的表现，并验证了动态性打分对生成视频稳定性和一致性的控制能力。

目前，Step-Video-TI2V 已完成与华为昇腾计算平台的适配，并在魔乐社区（Modelers）上线。

相關推薦