腾讯混元开源定制化图像生成插件 InstantCharacter


腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型Flux的兼容。“通过这个插件,在大模型中,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。”

示例:

输入原始图片

+ prompt :a  rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

根据介绍,InstantCharacter的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景。

测评结果显示,InstantCharacter实现的效果媲美GPT 4o等业界领先模型。

InstantCharacter 利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。


相關推薦

2025-05-10

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。HunyuanCustom 融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。 HunyuanCustom 整体架构

2025-05-23

腾讯混元宣布模型矩阵全面升级: 旗舰快思考模型混元TurboS、深度思考模型混元T1升级,并基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视

2025-05-17

腾讯混元图像2.0模型(Hunyuan Image2.0)已正式发布。该模型主要有两大特点:实时生图、超写实画质。目前已在腾讯混元官方网站上线(https://hunyuan.tencent.com/),并对外开放注册体验。 官方数据显示,在图像生成领域专门测试

2023-10-26

tudio 星河社区官方频道,申请文心大模型4.0的开发权限。腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能,利用强大的中文理解能力,根据关键词生成具有真实感和自然度的各种风格图片,已被180多个业务接入,将

2024-05-18

5月17日上午,在腾讯生成式AI产业应用峰会上,腾讯副总裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S

2023-08-05

根据多家媒体的报道,腾讯自研的“腾讯混元大模型”已经进入应用内测阶段。腾讯员工近期收到了内部邮件邀请,可以通过网页或者小程序体验混元大模型,腾讯内部多个业务也已经接入混元大模型进行测试。 腾讯表示,从

2025-03-29

腾讯混元日前宣布正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型,进一步丰富 3D AIGC 社区。 本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型,均基于Hunyuan 3D 2.0模型,组成了包含6大模型的Hunyuan 3D 2.0 家族。

2025-05-16

微软的人工智能研究团队 WizardLM,近日被爆出已整体加入腾讯 AI 实验室旗下的“混元”团队。多位核心研究人员在社交平台 X(原推特)上宣布了这一动向。 在周二的帖子中,曾领导多个 WizardLM 项目的微软高级研究员 Can Xu 表

2025-03-21

腾讯混元通过官方公众号宣布,全新的推理模型 T1 将于本周五(北京时间 3 月 21 日 23 时)正式发布。 与此同时,腾讯宣布,混元大模型首次登上 Chatbot Arena 榜单,跻身全球 Top 15。用户在该平台上以匿名方式与多个模型互动

2025-05-15

社交媒体上宣布,他与WizardLM团队已离开微软,并加入了腾讯混元(Tencent Hunyuan)团队。他们将继续致力于推动大型语言模型(LLM)的训练技术发展,并构建更优质的AI模型。 Can Xu提及,腾讯最新的Hunyuan-Turbos模型在lmarena.a

2023-09-07

微信今天宣布,现已上线「腾讯混元助手」小程序。小程序页面显示,腾讯混元助手目前仅向受邀用户开放。 可以看到,腾讯的 AI 大模型被命名为“腾讯混元大模型”,「腾讯混元助手」则是基于该大模型的多模态对话 Bot

2025-03-21

腾讯开源发文宣布,腾讯混元首次上榜海外权威大模型竞技场 Chatbot Arena 最新排名,跻身全球 Top 15。 Chatbot Arena 发起方 LMSYS Org (加州大学伯克利分校等机构支持的非营利组织)通过官方X账号对腾讯混元的加入表示欢迎。 “

2025-05-01

腾讯对其混元大模型研发体系进行了全面重构,围绕算力、算法和数据三大核心板块,刷新团队部署,加码研发投入。 调整后,腾讯成立两个新的部门:大语言模型部和多模态模型部,分别负责探索大语言模型和多模态大模

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾