一觉醒来,发现宇智波佐助在跳芭蕾


阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO,能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲,用户只要给定一个图像和视频或者动作序列,它就能把给定图像的人物直接替换成视频里面的人物,并且可以控制这个角色的动作和场景进行互动。

具体视频效果见:https://menyifang.github.io/projects/MIMO/index.html

计算机视觉和图形学领域的一个基本问题是,3D作品通常需要多视角捕捉进行逐个案例训练,这严重限制了它们在短时间内建模任意角色的适用性。最近的2D方法通过预训练扩散模型打破了这一限制,但在姿势通用性和场景交互方面仍然存在困难。

MIMO是一种新颖的可泛化模型,它不仅可以根据简单用户输入合成具有可控属性的角色视频,这些可控属性包括角色、动作和场景,MIMO 还能同时实现对任意角色的高级可扩展性、对新型3D动作的通用性以及对互动现实世界场景的适用性,所有这些都在一个统一框架中完成。

MIMO的核心思想是将2D视频编码为紧凑空间代码,同时考虑到视频发生固有的3D特性。用户可以输入多项数据:单个图像作为角色,一系列姿势作为动作,以及单个视频/图像作为场景。MIMO模型能够将这些目标属性嵌入潜在空间,以构建目标编码,并通过空间感知分解将驱动视频编码为空间编码,自由地按特定顺序整合潜在编码,从而实现直观的合成属性控制。

最后,明明介绍页面在一本正经讲核心原理,突然看到这里的坤哥,真的绷不住。

项目主页:https://menyifang.github.io/projects/MIMO/index.html


相關推薦

2022-09-07

没有告诉我”。且一切都发生的毫无预兆,该用户只是睡一觉醒来,打开电脑就发生了此等情况。 帖子一经发布后引发了很多共鸣,许多用户表示自己遇到了同样的问题。经过一些讨论和专家诊断后,确认了这一问题是 Windows

2022-10-10

一大波流量和新用户涌入,直接给服务器干崩溃了。Ash 醒来时看到了服务器的停机警报,本就为家人的病情一筹莫展,还不得不挤出时间通过 ssh 进入服务器进行调整。 现实和网络的双重打击让 Ash 感到心力交瘁,与很多开源

2023-04-03

更新,但尚未构建新包。 从以前的版本升级时,请确保在跳转到 3.0 之前至少使用 MidnightBSD 2.2.5,否则某些系统上的 usr.bin/lex 存在问题。 进行从 2.x 到 3.x 的重大升级时,有时需要在 usr.bin/Makefile 中禁用 perl 构建。如果在 src/

2021-11-18

示,有 300% 的测试目标存在某种形式的漏洞,36% 的测试发现了高危或严重漏洞;还有 76% 发现的漏洞属于 OWASP Top 10 类别,而应用程序和服务器配置错误占所发现的整体漏洞的 21%。 在移动应用程序中,150% 的已发现漏洞与不安

2022-01-06

多网站(包括一些高流量的在线服务)进行了调研,结果发现了 70 个具有不同影响的缓存中毒漏洞。 根据介绍,Web 缓存中毒攻击的目标是网络服务器和客户端设备之间的中间存储点,如 point-of-presence servers、代理和负载

2021-12-17

继 CVE-2021-44228 和 CVE-2021-45046 之后发现的第五个 Log4Shell 漏洞。 距离 Apache Log4j “核弹级”漏洞的公开已过去将近一周,在此期间被记录的漏洞总共有两个,分别是 CVE-2021-44228 和 CVE-2021-45046。针对漏洞的补丁版本也早已发布

2022-08-15

安全研究人员发现,Discord、Microsoft Teams 和其他应用软件所使用的底层框架存在 RCE(远程代码执行)漏洞。 上周四在拉斯维加斯举行的黑帽网络安全大会 (Black Hat cybersecurity conference) 上,安全研究人员在流行的应用软件如 D

2022-03-31

3 月 21 日他们已观察到不少于 218 个恶意 NPM 包。检查后发现这都是针对 Azure 开发人员的新的大规模供应链攻击,攻击者采用了一个自动脚本来创建账户并上传覆盖整个 scope 的恶意软件包,旨在窃取个人身份信息。 除了针对 

2024-06-18

官网 :https://mybatis-mp.cn 1: 使用JPA / Hibernate ??? 1:复杂的不会,好难??? 2:数据库函数不支持??? 3:复杂sql 无能为力,上手难??? 4:   只查几列,不会映射??? 5:实体类多表关系复杂,很重?

2022-08-24

微软方面近日公布了他们发现的有关 ChromeOS 漏洞的技术细节。公告指出,该公司在 ChromeOS 组件中发现了一个可以远程触发的内存损坏漏洞,允许攻击者执行拒绝服务 (DoS) 攻击,或者在极端情况下执行远程代码执行 (RCE)。 微软

2023-07-26

理日益增加的成本和频率的数据泄露方面存在分歧。研究发现,虽然 95% 的研究组织经历过不止一次的数据泄露事件,但被泄露的组织更有可能将事件成本转嫁给消费者 (57%),而不是增加安全投资 (51%)。 报告中的一些主要发现

2022-01-21

KDE 历来以资源密集型、外观丑陋和 bug 过多而饱受诟病,前两个问题都已作大量优化, bug 问题却迟迟未处理。因此,在 KDE 2022 路线图中,KDE 开发人员 Nate Graham 提出了一个 “15 minutes bug”计划,该计划旨在消除 KDE 的一些简单

2022-07-01

可能会进入前五名。 在这 8 个月时间里,DevJobsScanner 共发现了 3 万个工作机会,占具有明确编程语言需求工作中的 2%。 按月份划分的 Go 工作占比: 7. Ruby Ruby 占据了需求量最大的编程语言的第七名,它最受欢迎的用法是

2022-11-17

疑的软件包,而花更多的时间交付产品。 锁文件的自动发现 Deno 从 v1.0 开始就支持锁文件,然而使用锁文件的体验还有待改进,此前用户总是有需要提供 --lock=<filename> 标记来使用锁文件。Deno 意识到这种情况导致许多用户