字节跳动今天在深圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。
据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力。
据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角,带来真实世界的体验。支持包括黑白、3D 动画、2D 动画、国画等多种风格,包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅。
字节跳动表示,豆包·视频生成模型可以大幅降低动画的制作成本,生动的呈现童话故事情节。此外,还有城市文旅、音乐 MV、微电影、短剧等应用场景,都可以通过豆包·视频生成模型实现降本提效和创意合规。