智谱开源新一代文生图模型 CogView3-Plus


智谱宣布开源文生图模型 CogView3 及 CogView3-Plus-3B。CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议,目前该系列模型的能力已上线「智谱清言」(chatglm.cn)。

CogView3-Plus-3B 的效果:

CogView3 是一个基于级联扩散的 text2img 模型,包含三个阶段:

  • 第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。
  • 第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
  • 第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

公告称,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

CogView-3-Plus 在 CogView3(ECCV'24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。其采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练,CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。从效果上看,CogView3-plus 有着和最领先的 text2img 模型持平的水平。


相關推薦

2023-09-08

,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京企业机构:

2024-07-07

学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolors/Kolors 可图大模型是由快手AI

2024-05-18

也早已从 Stability AI 公司离职。 延伸阅读 Stability AI 开源 Stable Diffusion,基于文本生成图像的 AI 模型 Stability AI 开源大型语言模型 StableLM,只会一点点中文

2023-10-21

清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱,形成数据与知识双轮驱动的认知引擎,基于此模型打造

2023-07-22

清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱,形成数据与知识双轮驱动的认知引擎,基于此模型打造

2024-10-22

openKylin中自己动手开发,代码已在https://gitee.com/openkylin中开源。​​​​​​​ 04结语 在openKylin 2.0版本中,AI文生图技术的融入是对传统画图应用的一次革新。社区诚邀广大用户、开发者及艺术爱好者共同加入这场创意与技术

2024-05-18

裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S版主要部署在手机端,拥有3B参数量; M版主要部署在PC

2023-09-22

清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱,形成数据与知识双轮驱动的认知引擎,基于此模型打造

2023-10-26

发者DeepSparse:稀疏性技术加速神经网络推理DeepSparse是一种开源的CPU推理运行时,采用复杂的稀疏性技术,有效提高神经网络推理速度,支持多种模型。项目地址:https://github.com/neuralmagic/deepsparse【AiBase提要】- 💡 DeepSparse采用稀疏

2024-08-15

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2024-08-02

大模型时代而锤炼的3.0版本的正式出炉!飞桨正式开启了新一代框架技术创新之路! 设计思想 深度学习框架的设计对于推动人工智能技术的发展至关重要,其核心设计目标是让深度学习技术的创新与应用更简单。 如何做到这

2024-08-08

7 月 26 日,智谱发布 AI 生视频「清影」并上线智谱清言APP,30秒将任意文图生成视频。现在,智谱宣布正式开源清影模型 CogVideoX。 CogVideoX开源模型包含多个不同尺寸大小的模型,此次开源的是 CogVideoX-2B,它在FP-16精度下的推理

2024-07-05

GeekAI 基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 OpenAI, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion AI绘画功能。 主要特性

2023-09-27

IOS 版本恢复上架啦,看这里 喜大普奔,开源 AI 聊天、绘图软件 AIdea 终于在 Apple Store 恢复上架了。 大约在 4 周前,我发布了 花了小半年开发了一个 AI 套壳 APP,然而大势已过,直接开源了 这篇文章,将开发了近半年的 APP