字节跳动发布视频生成基础大模型 Seaweed-7B

2025-04-18 發表於开源资讯

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。

https://seaweed.video/

令人惊喜的是，该模型以 66.5 万个 H100 GPU 小时训练成本，在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1，具体来看：

Seaweed-7B Elo 评分为 1047，胜率 58%，而 Wan 2.1 仅有 53%，OpenAI 的 Sora 更是仅有 36%
可实时生成分辨率为 1280×720、帧率为 24fps 的视频，比同类模型快 62 倍
40GB 显存即可支持 1280×720 分辨率生成

据官方介绍，Seaweed-7B 结合了变分自编码器（VAE）和潜在扩散变换器（DiT）。其中，VAE 负责高效的训练和推理，而 DiT 则通过扩散模型生成图像和视频，显著提高了生成的质量与效率。

另外，团队为了提升 Seaweed-7B 的训练效率，采用了多阶段训练策略和 GPU 资源的优化调配。预训练阶段通过低分辨率图像开始，逐步引入高分辨率视频训练，提升了模型的泛化能力。此外，在后训练阶段，通过监督微调和基于人类反馈的强化学习（RLHF）进一步提高了生成视频的美学质量和运动一致性。

目前，Seaweed-7B 相关报告已公开：https://seaweed.video/seaweed.pdf

相關推薦

字节跳动发布豆包视频生成大模型

2024-09-25

字节跳动今天在深圳举办2024火山引擎 AI 创新巡展，并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。据悉，豆包·视频生成模型能遵从复杂 prompt，解锁时序性多拍动作指令与多个主体间的交互能力

字节跳动商业化团队模型训练被“投毒”，内部人士称未影响豆包大模型

2024-10-21

近日，有消息称字节跳动发生大模型训练被实习生“投毒”事件。据悉，该事件发生在字节跳动商业化团队，因实习生田某某对团队资源分配不满，利用HF（huggingface）的漏洞，通过共享模型注入破坏代码，导致团队模型训练成

字节跳动 Seedance 1.0 模型评测结果超越谷歌 Veo 3

2025-06-19

在近期的人工智能视频生成领域，字节跳动悄然发布了一款名为 Seedance1.0的新模型，该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

字节跳动 AI Lab 负责人李航卸任，Seed 团队步入调整期

2025-06-17

更新：针对有消息称，字节人工智能实验室（AI Lab）负责人李航已经正式卸任，其在内部系统的身份变为劳务/顾问一事，字节相关负责人回应《科创板日报》：“李航是退休返聘，管理范围没有变化。” 据爆料，字节跳

字节 AI Lab 将全部并入 Seed

2025-04-17

AI 科技评论独家获悉，字节 AI Lab 即将全部收归 Seed 团队下。字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门，目前由李航管理，自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬，原 Google DeepMind 副总裁吴永辉入职字

字节跳动 Seed 团队开源多模态基础模型 Bagel，支持视觉理解、文生图和图像编辑

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL，该模型拥有70亿个活跃参数，总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体，在标准多模态理解基准测试中表现出色，优于现有顶级开源视觉语言模型如Qwen2

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

）、月之暗面（2个）、智谱（2个）、阶跃星辰（1个）、字节跳动（2个）、昆仑万维（2个）、智源研究院（1个）、中国电信人工智能研究院（1个）、蚂蚁集团（4个）、快手（1个）、捏Ta（1个）、磐石（3个）、上海交通大学

字节视觉大模型负责人今日内部官宣“暂时休息”

2025-07-18

根据网易科技的独家报道，7月17日上午，字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”，相关工作已完成交接，其职务由周畅（花名“时光”）接手。周畅所在架构为“多模态交互与世界

字节跳动最新思考模型 Seed-Thinking-v1.5 技术报告发布

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布，涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索：通过数据层面的精细化处理提升推理能力，融合可验证数据和非可验证数据，并提出全新的评测基准

字节跳动发布通用机器人模型 GR-3

2025-07-23

字节跳动Seed团队正式推出全新Vision-Language-Action Model（VLA）模型 GR-3，该模型在机器人操作领域展现出突破性能力，不仅能理解包含抽象概念的语言指令，还可精准操作柔性物体，并具备快速迁移至新任务、认识新物体的泛化能

火山引擎总裁谭待：豆包大模型“地板价”，仍有盈利空间

2024-09-26

模型原名“云雀”，是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等 AI 创作工具，并把大模型接入抖音、番茄小

字节推出全新 AI 剪辑应用 “剪小映”

2025-05-30

字节跳动公司发布了一款名为 “剪小映” 的新应用，其宣传口号 “捕捉美好，智创影片” 引发了广泛关注。这也是字节继 “即梦 AI” 之后的又一力作。借助火山引擎的豆包大模型技术，“剪小映” 旨在为用户提供更加便

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

Google 开发者在线课程开始学习 8 月 31 日，百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服

Perplexity 欲收购 TikTok 并开源其算法

2025-03-28

对手或投资者财团可能进行的收购不同，后者可能会保持字节跳动的影响力。该计划包括： “在美国数据中心和美国监督下”从头重建 TikTok 算让推荐系统“透明”且开源使用 NVIDIA Dynamo 技术升级 AI 基础设施为视

熱門推薦