腾讯开源可控视频生成框架 MimicMotion


腾讯宣布开源可控视频生成框架 MimicMotion该框架可以通过提供参考人像及由骨骼序列表示的动作来产生平滑的高质量人体动作视频

公告称,大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法目前模型及配套代码均已开源

与以往的方法相比MimicMotion具有以下几个亮点

  • 首先通过引入了置信度感知的姿态引导信号大幅提升了帧间一致性使得产生的视频在时序上能够做到平滑自然
  • 其次通过放大置信度感知的区域损失显著减少了图像失真使得局部画面如人体手部细节得到了大幅改善
  • 最后通过结合扩散过程的渐进式潜在特征融合策略MimicMotion能够在有限的算力资源内生成无限长的视频同时保证画面连贯

主要优势:

  • 生成结果细节更清晰 (尤其是手部细节);
  • 生成视频时序平滑度更好无明显闪烁;
  • 能够生成长视频并且无明显跳变

架构设计

MimicMotion模型的核心结构是一个带有U-Net的隐空间视频扩散模型用于在隐空间中进行逐步去噪输入视频帧的VAE编码器和相应的解码器用于获取去噪视频帧这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结VAE编码器独立地应用于输入视频的每一帧以及条件参考图像基于逐帧操作不考虑时间或跨帧交互不同的是VAE解码器处理经过U-Net时空交互的隐特征为了确保生成流畅的视频VAE解码器在空间层外加入了时间层以镜像VAE编码器的架构

除了输入视频帧之外参考图像和姿态序列是模型的另外两个输入参考图像通过两个独立的路径输入到扩散模型中一个路径是将图像输入到U-Net的每个模块中具体来说通过类似CLIP的视觉编码器提取图像特征并将其输入到每个U-Net模块的交叉注意力中以最终控制输出结果另一个路径针对输入的隐特征与原始视频帧类似输入的参考图像使用相同的冻结VAE编码器进行编码以在隐空间中获得其表示然后单个参考图像的隐特征沿着时间维度复制以与输入视频帧的特征对齐复制的隐参考图像与隐视频帧沿通道维度连接在一起然后一起输入到U-Net中进行扩散

为了引入姿态的指导PoseNet被设计为一个可训练的模块用于提取输入姿态序列的特征它由多个卷积层实现不使用VAE编码器的原因是姿态序列的像素值分布与VAE自编码器训练的普通图像不同通过PoseNet提取姿态特征然后逐元素地添加到U-Net第一个卷积层的输出中这样姿态指导的影响可以从去噪的一开始就发挥作用

MimicMotion在生成多种形式的人体动作视频上均具有良好的结果包括半身动作全身动作以及谈话动作视频相比现有的开源方案如MagicPoseMoore-AnimateAnyone等;

MimicMotion具有以下几点优势:

1. 生成结果细节更加丰富且清晰包括人体手部细节;

2. 帧间连续性更加优秀画面无明显跳变;

3. 支持平滑的长视频生成

在量化指标评估实验中MimicMotion相比现有开源方案MagicPoseMoore-AnimateAnyone以及MuseV在FID-VID及FVD测试指标上均取得了领先

考虑生成结果对于用户的直观感受在由36位人员参与的用户调研中MimicMotion获得了75.5%以上的优胜率


  • 官方网站:https://tencent.github.io/MimicMotion
  • 代码仓库:https://github.com/Tencent/MimicMotion
  • 论文地址:https://arxiv.org/abs/2406.19680

相關推薦

2023-02-08

回顾 腾讯 APIJSON 是一种专为 API 而生的 JSON 网络传输协议 以及 基于这套协议实现的 ORM 库。 为各种增删改查提供了完全自动化的万能 API,零代码实时满足千变万化的各种新增和变更需求。 能大幅降低开发和沟通成本,简化

2023-01-04

具体见 Release 发布版本。   apijson-router  腾讯 APIJSON 5.1.0+ 的路由插件,可控地对公网暴露类 RESTful 简单接口,内部转成 APIJSON 格式请求来执行。 适合在公司外的公网可控地暴露 HTTP 接口,以及方便接入 Zo

2024-07-05

商汤发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。 商汤方面称,Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,Vimi

2025-03-21

阶跃星辰宣布开源图生视频模型 Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。 公

2024-08-20

剧”时代加速来临。 同时,WorldEngine结合了引擎的精确可控能力(如光照模拟、物理模拟、3D空间、实时交互等) 以及AI视频大模型的幻想生成能力,提供了全新的线上混合视频创作模式,让视频创作从模糊生成迈向更加精确可

2023-10-26

tudio 星河社区官方频道,申请文心大模型4.0的开发权限。腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能,利用强大的中文理解能力,根据关键词生成具有真实感和自然度的各种风格图片,已被180多个业务接入,将

2024-09-26

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO,能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲,用户只要给定一个图像和视频或者动作序列,它就能把给定图像的人物直接替换成视频里面

2023-04-01

研社区9.0版本(以下简称“OC9.0”)。据了解,该版本由腾讯等十余家企业共同开发并长期维护,其内核及用户态软件均为自主选型、独立演进,在操作系统发行版的全链路均实现自主可控。 操作系统等基础软件是信息技术的

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 腾讯宣布开源 tRPC ,一款基于插件化理念设计的支持多语言、高性能的 RPC 开发框架。首批开源支持 Go/Cpp 两种编程语言,预计接下来会开源更多编程语言的支持。 根据介

2024-08-13

:https://aieditor.dev/versions.html 在线演示 现代风格(类腾讯文档): http://aieditor1.jpress.cn 经典/传统风格: https://aieditor.dev/demo.html 开源版(已完善)  基础:标题、正文、字体、字号、加粗、斜体、下划线、删

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2024-09-25

:https://aieditor.dev/versions.html 在线演示 现代风格(类腾讯文档): http://aieditor1.jpress.cn 经典 / 传统风格: https://aieditor.dev/demo.html 开源版(已完善)  基础:标题、正文、字体、字号、加粗、斜体、下划线、删

2023-08-09

存泄露。 非常用场景,应用重启后泄露问题消失,影响可控。 2023年8月30日 I7BF3M 长时间运行测试,launcher进程概率性出现appfreeze,原因是STRINGID:APPLICATION_BLOCK_INPUT卡在libeventhandler.z.so。 该问题不会引起系统重启,整体

2025-03-29

腾讯混元日前宣布正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型,进一步丰富 3D AIGC 社区。 本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型,均基于Hunyuan 3D 2.0模型,组成了包含6大模型的Hunyuan 3D 2.0 家族。