字节跳动旗下「豆包大模型团队」发文表示,全新图像生成基础模型「Seedream 3.0」技术报告正式发布。
Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,亮点如下:
- 原生 2K 直出,适配多比例场景:无需后处理可直接输出 2K 分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足;
- 3 秒出图,大幅提升创作效率:面向海报设计、视觉创意等需求,可实现 3 秒左右快速生成高品质图像,实现「所想即所得」的实时创意交互;
- 小字更准,文本排版效果增强:优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力;
- 美感 & 结构提升,生成富有感染力:指令遵循进一步增强,人体和物体结构崩坏改善,且进一步弱化了出图的 AI 感,实现从「看得清」到「有感染力」的审美提升。
值得一提的是,在权威竞技场 Artificial Analysis 上,Seedream 3.0 与 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技,在近期打榜中,一度排名第一。
Seedream 3.0 已在本月正式上线,目前已在豆包、即梦等平台全量开放。
另外,Seedream 3.0 的相关技术报告以及详细内容也已经上架:
- Arxiv:https://arxiv.org/abs/2504.11346
- 技术呈现页:https://team.doubao.com/tech/seedream3_0