豆包公布 Seedream 3.0 文生图模型技术报告

2025-04-18 發表於开源资讯

字节跳动旗下「豆包大模型团队」发文表示，全新图像生成基础模型「Seedream 3.0」技术报告正式发布。

Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型，亮点如下：

原生 2K 直出，适配多比例场景：无需后处理可直接输出 2K 分辨率图像，从手机端到巨幅海报场景的视觉需求均可满足；
3 秒出图，大幅提升创作效率：面向海报设计、视觉创意等需求，可实现 3 秒左右快速生成高品质图像，实现「所想即所得」的实时创意交互；
小字更准，文本排版效果增强：优化小字体高保真生成、多行文本语义排版等业界难题，让 AI 具备商业级图文设计能力；
美感 & 结构提升，生成富有感染力：指令遵循进一步增强，人体和物体结构崩坏改善，且进一步弱化了出图的 AI 感，实现从「看得清」到「有感染力」的审美提升。

值得一提的是，在权威竞技场 Artificial Analysis 上，Seedream 3.0 与 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技，在近期打榜中，一度排名第一。

Seedream 3.0 已在本月正式上线，目前已在豆包、即梦等平台全量开放。

另外，Seedream 3.0 的相关技术报告以及详细内容也已经上架：

Arxiv：https://arxiv.org/abs/2504.11346
技术呈现页：https://team.doubao.com/tech/seedream3_0

相關推薦

字节跳动发布图像编辑模型 SeedEdit 3.0

2025-06-07

测试，豆包 App 也即将上线。 SeedEdit3.0 基于文生图模型Seedream3.0开发，通过引入多样化的数据融合方法和特定奖励模型，解决了以往图像编辑模型在主体与背景保持、指令遵循等方面的不足。根据介绍，该模型可处理并生成 4K

火山引擎总裁谭待：豆包大模型“地板价”，仍有盈利空间

2024-09-26

。 “7 月，5000 亿。 “9 月，13000 亿。” 短短四个月，豆包大模型日均 tokens 使用量就从千亿级跨越到了万亿级，呈现爆发式增长。 9 月 24 日，在深圳举行的 2024 火山引擎 AI 创新巡展上，火山引擎总裁谭待公布，

Black Forest 开源 FLUX.1 Kontex 模型，使用文本即可实现一键 PS

2025-06-28

该模型让用户通过自然语言就能实现一键P图。 Black Forest公布的测试数据显示，FLUX.1-Kontext在人类偏好评估、指令编辑、文本插入与编辑、样式参考等评估基准中，超过了OpenAI发布的最新文生图模型GPT-image-1，成为目前最强开源

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

跳动旗下抖音的一款基于云雀大模型开发的 AI 机器人「豆包」开始小范围邀请测试。用户可通过手机号、抖音或者 Apple ID 登录。「豆包」是此前字节内部代号为 “Grace” 的 AI 项目，目前拥有文生文、文生图的功能。进入默认

快手文生图大模型可图宣布开源

2024-07-07

高级副总裁、主站业务与社区科学负责人盖坤宣布，快手文生图大模型可图（Kolors）正式开源。该模型基于数十亿图文对进行训练，支持256的上下文token数，支持中英双语，技术细节参考技术报告。地址：https://github.com/Kwai-Kolor

openKylin 2.0 智能文生图，解锁无限创意！

2024-10-22

于KolourPaint画图工具和VISION视觉大模型，开发实现了智能文生图功能。那么，当传统的画图应用遇上先进的AI文生图技术，会碰撞出怎样的火花呢？ 01智能生成，创意无限在openKylin 2.0版本中，画图工具利用先进的自然语言处理

开源文生图模型 Stable Diffusion 开发商欠账 1 亿美元

2024-05-18

团体洽谈以筹集资金。 The Information 昨日报道称，知名文生图模型公司Stability AI因为资金紧张，最近几周至少与一位潜在买家就出售问题进行了讨论。据悉，在2024年第一季度，Stability AI的营收不到500万美元，亏损超过3000万美

深度解读飞桨框架3.0，“大模型训推一体”等五大新特性，引领深度学习框架代际变革

2024-08-02

心转换成具体的代码实现。在生成式大语言模型 Llama 和文生图模型 Stable Diffusion 上的实验结果显示，通过使用编译器的优化技术，相较于未采用手动性能优化的基础版本，推理速度分别实现了 36%和 30%的提升。动静统一自动

中国移动“九天”3.0 发布，多项核心技术同步开源

2025-07-30

中国移动发布了其自主研发的 “九天”基础大模型3.0。根据介绍，“九天众擎语言大模型”实现了架构上的突破性创新，采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系，其推理能力

AI视野：百度开放文心4.0开发权限申请；腾讯混元大模型开放文生图功能；谷歌AI应用禁止生成受限内容；Midjourney新网站上线测试版

2023-10-26

道，申请文心大模型4.0的开发权限。腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能，利用强大的中文理解能力，根据关键词生成具有真实感和自然度的各种风格图片，已被180多个业务接入，将在广告、游戏、内容

智谱开源新一代文生图模型 CogView3-Plus

2024-10-16

智谱宣布开源文生图模型 CogView3 及 CogView3-Plus-3B。CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议，目前该系列模型的能力已上线「智谱清言」（chatglm.cn）。 CogView3-Plus-3B 的效果： CogView3 是一个基于级联扩散的 text2img 模型

字节跳动 Seed 团队开源多模态基础模型 Bagel，支持视觉理解、文生图和图像编辑

2025-05-24

70亿个活跃参数，总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体，在标准多模态理解基准测试中表现出色，优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。在文本到图像生成质量上，BAGEL的表现可与专

腾讯混元3D世界模型技术亮点速览

2025-08-02

该模型通过语义分层的3D场景表征与生成算法，同时支持"文生世界"和"图生世界"两种生成方式。主要技术框架包括三部分，即全景世界代理生成、基于语义的世界分层与分层世界重建。混元3D世界模型1.0（HunyunWorld-1.0）是融合

AI 专区上新啦！豆包、通义、360 AI、天工 AI、澜舟智库等入驻麒麟软件商店

2024-08-14

雅意等AI产品上架后，麒麟软件商店再添新成员！近日，豆包、通义、360AI搜索、360智脑、360智绘、昆仑万维天工AI、澜舟智库等重磅AI产品登陆麒麟软件商店人工智能专区，涵盖了AI对话、AI写作、AI绘图、AI搜索等多个领域，为

熱門推薦