智谱开源新一代文生图模型 CogView3-Plus

2024-10-16 發表於开源资讯

智谱宣布开源文生图模型 CogView3 及 CogView3-Plus-3B。CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议，目前该系列模型的能力已上线「智谱清言」（chatglm.cn）。

CogView3-Plus-3B 的效果：

CogView3 是一个基于级联扩散的 text2img 模型，包含三个阶段：

第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。
第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。
第三阶段：将生成结果再次基于中继扩散迭代，生成 2048×2048 高分辨率的图像。

公告称，在实际效果上，CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，同时只需要 SDXL 大约 1/10 的推理时间。

CogView-3-Plus 在 CogView3（ECCV'24）的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。其采用了 Zero-SNR 扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比，它在保持模型基本能力的同时，有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练，CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。从效果上看，CogView3-plus 有着和最领先的 text2img 模型持平的水平。

相關推薦

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

，百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服务。具体包括：五家北京企业机构：

智谱：Z 基金出资 3 亿支持全球开源社区

2025-04-19

投资基金日前宣布在去年已有投资基础上，继续追加投资智谱（Z.ai）2 亿元人民币，支持智谱的开源模型研发与开源社区生态建设。智谱方面表示，为了进一步以实际行动推动开源生态建设，Z 基金出资 3 亿元支持全球范围内

快手文生图大模型可图宣布开源

2024-07-07

学负责人盖坤宣布，快手文生图大模型可图（Kolors）正式开源。该模型基于数十亿图文对进行训练，支持256的上下文token数，支持中英双语，技术细节参考技术报告。地址：https://github.com/Kwai-Kolors/Kolors 可图大模型是由快手AI

开源文生图模型 Stable Diffusion 开发商欠账 1 亿美元

2024-05-18

也早已从 Stability AI 公司离职。延伸阅读 Stability AI 开源 Stable Diffusion，基于文本生成图像的 AI 模型 Stability AI 开源大型语言模型 StableLM，只会一点点中文

字节跳动 Seed 团队开源多模态基础模型 Bagel，支持视觉理解、文生图和图像编辑

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL，该模型拥有70亿个活跃参数，总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体，在标准多模态理解基准测试中表现出色，优于现有顶级开源视觉语言模型如Qwen2

openKylin 2.0 智能文生图，解锁无限创意！

2024-10-22

openKylin中自己动手开发，代码已在https://gitee.com/openkylin中开源。 04结语在openKylin 2.0版本中，AI文生图技术的融入是对传统画图应用的一次革新。社区诚邀广大用户、开发者及艺术爱好者共同加入这场创意与技术

智谱 AI：2023 年已完成超 25 亿元融资

2023-10-21

清华大学计算机系技术成果转化而来的公司，致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B，并构建了高精度通用知识图谱，形成数据与知识双轮驱动的认知引擎，基于此模型打造

美团投资大模型公司智谱 AI，占股超 10%

2023-07-22

清华大学计算机系技术成果转化而来的公司，致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B，并构建了高精度通用知识图谱，形成数据与知识双轮驱动的认知引擎，基于此模型打造

智谱 AI 发布 GLM-4.5 技术报告

2025-08-12

上月底，智谱 AI 正式发布新一代旗舰模型 GLM-4.5，专为智能体应用打造的基础模型。官方称 “GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA 水平，在真实代码智能体的人工对比评测中，实测国内最佳。” GLM-4.5 不

Black Forest 开源 FLUX.1 Kontex 模型，使用文本即可实现一键 PS

2025-06-28

知名开源平台Black Forest开源了文生图模型FLUX.1-Kontext的开发者版本，该模型让用户通过自然语言就能实现一键P图。 Black Forest公布的测试数据显示，FLUX.1-Kontext在人类偏好评估、指令编辑、文本插入与编辑、样式参考等评估基准

豆包公布 Seedream 3.0 文生图模型技术报告

2025-04-18

0 与 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技，在近期打榜中，一度排名第一。 Seedream 3.0 已在本月正式上线，目前已在豆包、即梦等平台全量开放。另外，Seedream 3.0 的相关技术报告以及详细

腾讯混元文生文大模型将在三季度开源

2024-05-18

裁、腾讯混元大模型负责人蒋杰透露称，将在今年三季度开源混元最核心的文生文模型。蒋杰称，腾讯内部正在训练三种尺寸（S、M、L）的文生文模型供开源使用， S版主要部署在手机端，拥有3B参数量； M版主要部署在PC

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

、高校或研究机构：阿里（9个）、月之暗面（2个）、智谱（2个）、阶跃星辰（1个）、字节跳动（2个）、昆仑万维（2个）、智源研究院（1个）、中国电信人工智能研究院（1个）、蚂蚁集团（4个）、快手（1个）、捏Ta（1个）

腾讯阿里参投，智谱 AI 完成 B-4 轮融资

2023-09-22

清华大学计算机系技术成果转化而来的公司，致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B，并构建了高精度通用知识图谱，形成数据与知识双轮驱动的认知引擎，基于此模型打造

熱門推薦