字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。
https://seaweed.video/
令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:
- Seaweed-7B Elo 评分为 1047,胜率 58%,而 Wan 2.1 仅有 53%,OpenAI 的 Sora 更是仅有 36%
- 可实时生成分辨率为 1280×720、帧率为 24fps 的视频,比同类模型快 62 倍
- 40GB 显存即可支持 1280×720 分辨率生成
据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。
另外,团队为了提升 Seaweed-7B 的训练效率,采用了多阶段训练策略和 GPU 资源的优化调配。预训练阶段通过低分辨率图像开始,逐步引入高分辨率视频训练,提升了模型的泛化能力。此外,在后训练阶段,通过监督微调和基于人类反馈的强化学习(RLHF)进一步提高了生成视频的美学质量和运动一致性。
目前,Seaweed-7B 相关报告已公开:https://seaweed.video/seaweed.pdf