字节跳动 Seed 团队开源多模态基础模型 Bagel,支持视觉理解、文生图和图像编辑


字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。

BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。

在文本到图像生成质量上,BAGEL的表现可与专用生成器SD3相媲美。在经典图像编辑场景中,BAGEL展示了优于许多领先开源模型的定性结果。

BAGEL采用了混合变换器专家(MoT)架构,并使用两个独立编码器分别捕捉图像的像素级和语义级特征。模型遵循“下一个标记组预测”范式进行训练,预训练使用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。

经过持续训练和监督微调,BAGEL展示了先进的上下文多模态能力,包括自由形式图像编辑、未来帧预测、三维操作和世界导航(“世界建模”任务)。

研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力。BAGEL以Apache 2.0许可证开源。

 

开源地址

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
https://github.com/ByteDance-Seed/Bagel

论文地址

https://arxiv.org/abs/2505.14683


相關推薦

2025-04-18

字节跳动旗下「豆包大模型团队」发文表示,全新图像生成基础模型「Seedream 3.0」技术报告正式发布。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,亮点如下: 原生 2K 直出,适配多比例场景:无需后

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2024-07-07

:https://github.com/Kwai-Kolors/Kolors 可图大模型是由快手AI团队自研打造的文生图大模型,具备强大的图像生成能力,它基于大语言模型与跨模态模型实现精准的用户意图理解,可以支持古诗词等中文特色的内容理解与生成,并且

2025-04-03

种模态,同时以流式方式生成文本和自然语音响应。开发团队表示,他们对 Qwen2.5-Omni 进行了全面评估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。 在需

2025-05-23

推出大规模、可漫游的3D场景生成模型。 腾讯重申拥抱开源,已实现图像、视频、3D、文本等全模态开源,未来将持续推出多尺寸模型并开源更多多模态基础模型及插件。 腾讯也正在推广其AI IDE“Genie IDE”,目前已开放预约

2025-04-17

AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字

2023-08-26

M模型通常仅支持224分辨率。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。 在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准

2024-10-15

尽管 MM1.5 模型在多项基准测试中取得了优秀表现,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更复杂的架构,来提升模型对移动设备 UI 的理解能力,加强“苹果牌”AI 的实力。 论文地址:https://arxiv.org/

2023-06-22

根据《科创板日报》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态

2023-09-07

务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知榜单排名第二. 感知榜单排名第一 认知榜单排名第二 昆仑万维天工大模型多模态团队最新一篇

2025-04-18

限,取得72.2分; 基于司南OpenCompass开源评测框架,研究团队对InternVL3进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准

2023-03-02

入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工智能重大科技项目支持下,2023年

2024-10-23

、图像、视频三种模态数据的理解和生成。 目前 Emu3 已开源了关键技术和模型。 公告称,Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预