豆包公布 Seedream 3.0 文生图模型技术报告


字节跳动旗下「豆包大模型团队」发文表示,全新图像生成基础模型「Seedream 3.0」技术报告正式发布。

Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,亮点如下:

  • 原生 2K 直出,适配多比例场景:无需后处理可直接输出 2K 分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足;
  • 3 秒出图,大幅提升创作效率:面向海报设计、视觉创意等需求,可实现 3 秒左右快速生成高品质图像,实现「所想即所得」的实时创意交互;
  • 小字更准,文本排版效果增强:优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力;
  • 美感 & 结构提升,生成富有感染力:指令遵循进一步增强,人体和物体结构崩坏改善,且进一步弱化了出图的 AI 感,实现从「看得清」到「有感染力」的审美提升。

值得一提的是,在权威竞技场 Artificial Analysis 上,Seedream 3.0 与 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技,在近期打榜中,一度排名第一。

Seedream 3.0 已在本月正式上线,目前已在豆包、即梦等平台全量开放。

另外,Seedream 3.0 的相关技术报告以及详细内容也已经上架:

  • Arxiv:https://arxiv.org/abs/2504.11346
  • 技术呈现页:https://team.doubao.com/tech/seedream3_0

相關推薦

2024-09-26

。 “7 月,5000 亿。 “9 月,13000 亿。” 短短四个月,豆包大模型日均 tokens 使用量就从千亿级跨越到了万亿级,呈现爆发式增长。 9 月 24 日,在深圳举行的 2024 火山引擎 AI 创新巡展上,火山引擎总裁谭待公布,

2023-09-08

跳动旗下抖音的一款基于云雀大模型开发的 AI 机器人「豆包」开始小范围邀请测试。用户可通过手机号、抖音或者 Apple ID 登录。 「豆包」是此前字节内部代号为 “Grace” 的 AI 项目,目前拥有文生文、文生图的功能。进入默认

2024-07-07

高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolor

2024-10-22

于KolourPaint画图工具和VISION视觉大模型,开发实现了智能文生图功能。那么,当传统的画图应用遇上先进的AI文生图技术,会碰撞出怎样的火花呢? 01智能生成,创意无限 在openKylin 2.0版本中,画图工具利用先进的自然语言处理

2024-05-18

团体洽谈以筹集资金。 The Information 昨日报道称,知名文生图模型公司Stability AI因为资金紧张,最近几周至少与一位潜在买家就出售问题进行了讨论。 据悉,在2024年第一季度,Stability AI的营收不到500万美元,亏损超过3000万美

2024-08-02

心转换成具体的代码实现。 在生成式大语言模型 Llama 和文生图模型 Stable Diffusion 上的实验结果显示,通过使用编译器的优化技术,相较于未采用手动性能优化的基础版本,推理速度分别实现了 36%和 30%的提升。 动静统一自动

2023-10-26

道,申请文心大模型4.0的开发权限。腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能,利用强大的中文理解能力,根据关键词生成具有真实感和自然度的各种风格图片,已被180多个业务接入,将在广告、游戏、内容

2024-10-16

智谱宣布开源文生图模型 CogView3 及 CogView3-Plus-3B。CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议,目前该系列模型的能力已上线「智谱清言」(chatglm.cn)。 CogView3-Plus-3B 的效果: CogView3 是一个基于级联扩散的 text2img 模型

2024-08-14

雅意等AI产品上架后,麒麟软件商店再添新成员!近日,豆包、通义、360AI搜索、360智脑、360智绘、昆仑万维天工AI、澜舟智库等重磅AI产品登陆麒麟软件商店人工智能专区,涵盖了AI对话、AI写作、AI绘图、AI搜索等多个领域,为

2024-05-18

型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S版主要部署在手机端,拥有3B参数量; M版主要部署在PC端,参数量为5B;

2024-09-30

等)、国内公共大模型(包括通义千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支持编排AI工作流

2023-02-09

Google 在昨天推出了 ChatGPT 的竞品 Bard,时隔仅仅一天时间,刚向 OpenAI 投资数十亿美元的微软就做出了回应。在今天凌晨举行的一场小型发布会上,微软展示了必应(Bing)中由 AI 驱动的新搜索功能,以及内置了相同 AI 技术的新

2025-04-12

语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。 国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进

2024-10-21

所夸大。 另外,该人士称,受代码入侵影响的业务不是豆包大模型,而是商业化技术团队的模型训练任务,影响了广告部门的部分技术工作,实习生通过共享模型进行入侵的部分也不属于集团大模型。 此次事件暴露出字节跳