腾讯混元开源定制化图像生成插件 InstantCharacter


腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型Flux的兼容。“通过这个插件,在大模型中,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。”

示例:

输入原始图片

+ prompt :a  rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

根据介绍,InstantCharacter的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景。

测评结果显示,InstantCharacter实现的效果媲美GPT 4o等业界领先模型。

InstantCharacter 利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。


相關推薦

2023-10-26

tudio 星河社区官方频道,申请文心大模型4.0的开发权限。腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能,利用强大的中文理解能力,根据关键词生成具有真实感和自然度的各种风格图片,已被180多个业务接入,将

2024-05-18

5月17日上午,在腾讯生成式AI产业应用峰会上,腾讯副总裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S

2023-08-05

根据多家媒体的报道,腾讯自研的“腾讯混元大模型”已经进入应用内测阶段。腾讯员工近期收到了内部邮件邀请,可以通过网页或者小程序体验混元大模型,腾讯内部多个业务也已经接入混元大模型进行测试。 腾讯表示,从

2025-03-29

腾讯混元日前宣布正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型,进一步丰富 3D AIGC 社区。 本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型,均基于Hunyuan 3D 2.0模型,组成了包含6大模型的Hunyuan 3D 2.0 家族。

2025-03-21

腾讯混元通过官方公众号宣布,全新的推理模型 T1 将于本周五(北京时间 3 月 21 日 23 时)正式发布。 与此同时,腾讯宣布,混元大模型首次登上 Chatbot Arena 榜单,跻身全球 Top 15。用户在该平台上以匿名方式与多个模型互动

2023-09-07

微信今天宣布,现已上线「腾讯混元助手」小程序。小程序页面显示,腾讯混元助手目前仅向受邀用户开放。 可以看到,腾讯的 AI 大模型被命名为“腾讯混元大模型”,「腾讯混元助手」则是基于该大模型的多模态对话 Bot

2025-03-21

腾讯开源发文宣布,腾讯混元首次上榜海外权威大模型竞技场 Chatbot Arena 最新排名,跻身全球 Top 15。 Chatbot Arena 发起方 LMSYS Org (加州大学伯克利分校等机构支持的非营利组织)通过官方X账号对腾讯混元的加入表示欢迎。 “

2025-04-03

腾讯元宝宣布再次更新,其识图功能进一步拓展,支持一次性上传10张图片,非常适用于那些需要理清结构、提炼重点、生成内容的情况。 “这项功能结合了混元的多模态理解能力,也是元宝双模型能力的体现。现在,你只要

2025-03-20

3月19日,腾讯2024年第四季度及全年业绩新闻发布上,腾讯总裁刘炽平透露,从2月到3月,元宝的日活跃用户(DAU )增长了20倍,成为了中国DAU排名第三的AI原生移动应用。 另外,腾讯董事会主席兼首席执行官马化腾透露,腾讯

2023-09-05

介绍 Tailchat 是一款插件化易拓展的开源 IM 应用。可拓展架构赋予 Tailchat 无限可能性。 前端微内核架构 + 后端微服务架构 使得 Tailchat 能够驾驭任何定制化 / 私有化的场景 面向企业与私域用户打造,

2023-09-27

产模型:通义千问,文心一言,讯飞星火,商汤日日新,腾讯混元大语言模型 开源大模型:Llama2 ,ChatGLM2 ,AquilaChat 7B ,Bloomz 7B 等,后续还将开放更多 文生图、图生图、超分辨率、黑白图片上色等功能,集成 Stable Diffusion

2023-07-20

介绍 Tailchat 是一款插件化易拓展的开源 IM 应用。可拓展架构赋予 Tailchat 无限可能性。 前端微内核架构 + 后端微服务架构 使得 Tailchat 能够驾驭任何定制化 / 私有化的场景 面向企业与私域用户打造,高度自

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 腾讯宣布开源 tRPC ,一款基于插件化理念设计的支持多语言、高性能的 RPC 开发框架。首批开源支持 Go/Cpp 两种编程语言,预计接下来会开源更多编程语言的支持。 根据介

2024-09-30

括Llama 3 / Qwen 2等)、国内公共大模型(包括通义千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支