字节跳动发布视频生成基础大模型 Seaweed-7B


字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。

https://seaweed.video/

令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

  • Seaweed-7B Elo 评分为 1047,胜率 58%,而 Wan 2.1 仅有 53%,OpenAI 的 Sora 更是仅有 36%
  • 可实时生成分辨率为 1280×720、帧率为 24fps 的视频,比同类模型快 62 倍
  • 40GB 显存即可支持 1280×720 分辨率生成

据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。

另外,团队为了提升 Seaweed-7B 的训练效率,采用了多阶段训练策略和 GPU 资源的优化调配。预训练阶段通过低分辨率图像开始,逐步引入高分辨率视频训练,提升了模型的泛化能力。此外,在后训练阶段,通过监督微调和基于人类反馈的强化学习(RLHF)进一步提高了生成视频的美学质量和运动一致性。

目前,Seaweed-7B 相关报告已公开:https://seaweed.video/seaweed.pdf


相關推薦

2024-09-25

字节跳动今天在深圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力

2024-10-21

近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。 据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成

2025-04-17

AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字

2024-09-26

模型原名“云雀”,是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等 AI 创作工具,并把大模型接入抖音、番茄小

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2025-03-28

对手或投资者财团可能进行的收购不同,后者可能会保持字节跳动的影响力。该计划包括: “在美国数据中心和美国监督下”从头重建 TikTok 算 让推荐系统“透明”且开源 使用 NVIDIA Dynamo 技术升级 AI 基础设施 为视

2023-03-25

Katalyst 是字节跳动对多年大规模业务云原生化场景中资源管理能力的抽象和总结,我们期望通过 Katalyst 的开源直接或间接的帮助用户做好资源管理,实现降本增效。 当下互联网应用以天为单位,在线业务的资源使用情况往

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2023-02-08

源项目前 100。 国内 腾讯、华为、阿里巴巴、美团、字节跳动、百度、京东、网易、快手、圆通 等 和 国外 Google, Microsoft, Amazon, Paypal, IBM, Shopee 等数百名知名大厂员工点了 Star, 也有 腾讯、华为、字节跳动、Microsoft、Zoom、

2025-04-18

字节跳动旗下「豆包大模型团队」发文表示,全新图像生成基础模型「Seedream 3.0」技术报告正式发布。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,亮点如下: 原生 2K 直出,适配多比例场景:无需后

2024-09-26

标准,广泛用于数据仓库、数据湖、机器学习等领域。在字节跳动内部每天运行百万级别的 Spark 离线作业,Shuffle 量高达 500PB,CPU 资源需求达到千万级别。随着业务的快速发展,用户对计算资源的需求越来越大,除了增加物理

2024-08-14

公,效率翻倍。 豆包 抖音旗下的人工智能产品,基于字节跳动推出的自研豆包大模型。豆包电脑版以“豆包”主智能体为核心,集合AI搜索、写作、阅读总结、图像生成功能于一体,能够在工作、学习等各种场景为你提供帮

2024-06-26

有消息称字节跳动为削减采购成本并确保高端 AI 芯片供应稳定,与美国博通(Broadcom)合作开发先进AI处理器。针对该消息,字节跳动方面对第一财经记者回应称:消息不实。 据媒体报道,字节跳动与博通合作开发的处理器为