阶跃星辰开源 Step-Video-TI2V 图生视频模型


阶跃星辰宣布开源图生视频模型 Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

公告称,和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。

相比文生视频模型 Step-Video-T2V,此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化:

第一,引入图像条件,提高一致性

为了让模型更好地理解输入的图片,我们没有采用传统的 cross-attention 方法,而是使用了更直接、更高效的方式,将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接,这样生成的视频和原图才能更一致。

第二,引入运动幅度控制,赋予用户更高自由度

在训练过程中,Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息,特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别(motion = 2, 5, 10),精准控制视频的动态幅度,平衡视频的动态性、稳定性和一致性。

在数据优化方面,项目团队对于主体动作和镜头运动进行了专项精准标注,使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

阶跃星辰方面称,在 VBench-I2V 基准测试中,Step-Video-TI2V 取得了 state-of-the-art 级别的表现,并验证了动态性打分对生成视频稳定性和一致性的控制能力。

目前,Step-Video-TI2V 已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。


相關推薦

2025-03-27

间开源三款多模态大模型,其最新开源的是图生视频模型Step-Video-TI2V,支持生成的视频具备运动幅度可控和镜头运动可控两大核心特点,同时自带一定的特效生成能力。 为何开源大模型成为中国当前的发展潮流?FutureLabs未来实

2024-08-08

虎”(智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰),正以惊人的速度,跨过200亿元的估值大关。 2024年8月5日,据彭博社报道,月之暗面刚交割一轮超过3亿美元的融资,投后估值高达33亿美元。 前不久,王小

2024-07-27

一轮融资,即智谱AI与月之暗面。此外,新晋大模型公司阶跃星辰也跻身AI独角兽序列。今年6月,该公司被传正在进行一轮估值约20亿美元的新融资,阿里在投资者之列。 相关数据显示,今年上半年,招投标市场已经产生了498次

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源,公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。 用户既可以直接调用大模型,也可以根据自身业务需求对大模型进行微调或个性化

2024-04-18

近日中国电信开源了12B参数规模星辰语义大模型TeleChat-12B。相较于1月开源的7B版本,内容、性能和应用等方面整体效果提升了30%。其中,多轮推理、安全问题等领域提升超40%。另外,据了解,中国电信将于年内开源千亿级参数大

2025-03-25

接入阿里通义系列大模型。 此次接入后,基于万相最新开源模型,LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词,或者上传图片,就能快速生成10秒短视频。这一功能的实现,让创意转化为视频内容变得更加

2024-05-27

了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是目前国内支持最多方言的语音识别大模型。 据悉,中国电信人工智能

2024-08-29

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端

2023-11-14

eholder: "点击输入内容...", content: 'AiEditor 是一个面向 AI 的开源富文本编辑器。输入 空格 + "/" 可以快速弹出 AI 菜单哦 ', ai: { model: { xinghuo: { appId: "***", apiKey: "***", apiSecret: "***", } } } }) 或者直接移除 AI 的配置,如下所示(移除后

2024-10-19

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端

2024-08-13

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前

2024-10-17

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端

2024-08-09

计算,用户可以快速部署上手流行大语言模型、文生图、图生图、图生文等 10 多款热门 AI 应用。 四大维度创作,将有机会 get 周边制作、艺术展出、万元奖金 为了鼓励参赛者进行创作,本次大赛特设「AI 技术突破奖」1名,将

2024-09-30

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端