字节跳动 Seed 团队开源多模态基础模型 Bagel，支持视觉理解、文生图和图像编辑

2025-05-24 發表於开源资讯

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL，该模型拥有70亿个活跃参数，总参数量达140亿。

BAGEL集视觉理解、文生图、图像编辑于一体，在标准多模态理解基准测试中表现出色，优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。

在文本到图像生成质量上，BAGEL的表现可与专用生成器SD3相媲美。在经典图像编辑场景中，BAGEL展示了优于许多领先开源模型的定性结果。

BAGEL采用了混合变换器专家（MoT）架构，并使用两个独立编码器分别捕捉图像的像素级和语义级特征。模型遵循“下一个标记组预测”范式进行训练，预训练使用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。

经过持续训练和监督微调，BAGEL展示了先进的上下文多模态能力，包括自由形式图像编辑、未来帧预测、三维操作和世界导航（“世界建模”任务）。

研究表明，结合变分自编码器（VAE）和视觉变换器（ViT）的特征显著提升了智能编辑能力。BAGEL以Apache 2.0许可证开源。

开源地址

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
https://github.com/ByteDance-Seed/Bagel

论文地址

https://arxiv.org/abs/2505.14683

相關推薦

字节视觉大模型负责人今日内部官宣“暂时休息”

2025-07-18

根据网易科技的独家报道，7月17日上午，字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”，相关工作已完成交接，其职务由周畅（花名“时光”）接手。周畅所在架构为“多模态交互与世界

字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本

2025-06-28

字节跳动正式发布了 Agent TARS 的 Beta 版本，将其定位为一个开源的多模态 AI Agent 工具，旨在提供与各种现实世界工具的无缝集成能力，并实现“随时随地可用”。 Agent TARS 的早期预览版已于三月份开源。此

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

）、月之暗面（2个）、智谱（2个）、阶跃星辰（1个）、字节跳动（2个）、昆仑万维（2个）、智源研究院（1个）、中国电信人工智能研究院（1个）、蚂蚁集团（4个）、快手（1个）、捏Ta（1个）、磐石（3个）、上海交通大学

字节跳动发布图像编辑模型 SeedEdit 3.0

2025-06-07

字节跳动 Seed 团队宣布正式发布了图像编辑模型SeedEdit3.0，技术报告对外公开，模型同步在即梦网页端开启测试，豆包 App 也即将上线。 SeedEdit3.0 基于文生图模型Seedream3.0开发，通过引入多样化的数据融合方法和特定奖励模型，

字节跳动发布通用机器人模型 GR-3

2025-07-23

字节跳动Seed团队正式推出全新Vision-Language-Action Model（VLA）模型 GR-3，该模型在机器人操作领域展现出突破性能力，不仅能理解包含抽象概念的语言指令，还可精准操作柔性物体，并具备快速迁移至新任务、认识新物体的泛化能

小红书开源多模态大模型 dots.vlm1

2025-08-08

档等非典型结构化图片时表现出色。在数据方面，Hi Lab 团队构建了规模庞大且清洗精细的训练集。他们通过自主重写网页数据和自研 dots.ocr 工具处理 PDF 文档，显著提升了图文对齐的质量，为模型的跨模态理解能力打

豆包公布 Seedream 3.0 文生图模型技术报告

2025-04-18

字节跳动旗下「豆包大模型团队」发文表示，全新图像生成基础模型「Seedream 3.0」技术报告正式发布。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型，亮点如下：原生 2K 直出，适配多比例场景：无需后

字节跳动 Seedance 1.0 模型评测结果超越谷歌 Veo 3

2025-06-19

在近期的人工智能视频生成领域，字节跳动悄然发布了一款名为 Seedance1.0的新模型，该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

Google 开发者在线课程开始学习 8 月 31 日，百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服

字节跳动 AI Lab 负责人李航卸任，Seed 团队步入调整期

2025-06-17

更新：针对有消息称，字节人工智能实验室（AI Lab）负责人李航已经正式卸任，其在内部系统的身份变为劳务/顾问一事，字节相关负责人回应《科创板日报》：“李航是退休返聘，管理范围没有变化。” 据爆料，字节跳

字节跳动 Seed 助力清华获机器人足球世界杯冠军

2025-08-02

字节跳动 Seed 发文宣布，其与清华大学赵明国教授团队联合研发的人形机器人运动算法 “HumanoidKick” 在 2025RoboCup 机器人世界杯人形组成人组比赛中，成功帮助清华火神队获得冠军。这也是中国机器人足球队首次在机器人世界杯

字节跳动 Seed 最新强化学习配方 POLARIS 开源

2025-07-17

字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供

字节跳动最新思考模型 Seed-Thinking-v1.5 技术报告发布

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布，涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索：通过数据层面的精细化处理提升推理能力，融合可验证数据和非可验证数据，并提出全新的评测基准

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

推出大规模、可漫游的3D场景生成模型。腾讯重申拥抱开源，已实现图像、视频、3D、文本等全模态开源，未来将持续推出多尺寸模型并开源更多多模态基础模型及插件。腾讯也正在推广其AI IDE“Genie IDE”，目前已开放预约

熱門推薦