一觉醒来，发现宇智波佐助在跳芭蕾

2024-09-26 發表於开源资讯

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO，能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲，用户只要给定一个图像和视频或者动作序列，它就能把给定图像的人物直接替换成视频里面的人物，并且可以控制这个角色的动作和场景进行互动。

具体视频效果见：https://menyifang.github.io/projects/MIMO/index.html

计算机视觉和图形学领域的一个基本问题是，3D作品通常需要多视角捕捉进行逐个案例训练，这严重限制了它们在短时间内建模任意角色的适用性。最近的2D方法通过预训练扩散模型打破了这一限制，但在姿势通用性和场景交互方面仍然存在困难。

MIMO是一种新颖的可泛化模型，它不仅可以根据简单用户输入合成具有可控属性的角色视频，这些可控属性包括角色、动作和场景，MIMO 还能同时实现对任意角色的高级可扩展性、对新型3D动作的通用性以及对互动现实世界场景的适用性，所有这些都在一个统一框架中完成。

MIMO的核心思想是将2D视频编码为紧凑空间代码，同时考虑到视频发生固有的3D特性。用户可以输入多项数据：单个图像作为角色，一系列姿势作为动作，以及单个视频/图像作为场景。MIMO模型能够将这些目标属性嵌入潜在空间，以构建目标编码，并通过空间感知分解将驱动视频编码为空间编码，自由地按特定顺序整合潜在编码，从而实现直观的合成属性控制。

最后，明明介绍页面在一本正经讲核心原理，突然看到这里的坤哥，真的绷不住。

项目主页：https://menyifang.github.io/projects/MIMO/index.html

一觉醒来，发现宇智波佐助在跳芭蕾

相關推薦

Windows Defender 将 Chromium、Electron 误报为恶意软件

心力交瘁，mastodon.technology 作者宣布关闭该实例

MidnightBSD 3.0 发布，FreeBSD 衍生版本

研究发现 300% 的应用程序存在漏洞

Sonatype 报告：Q1 共发现了近 18000 个恶意开源软件

新研究提出 AI 自主架构发现系统 ASI-Arch

研究人员发现 70 个 Web 缓存中毒漏洞，涉及 GitHub/GitLab/oschina 平台

捍卫低空安全！中科固源发现无人机 MavLink 协议远程内存泄漏漏洞

中国安全专家发现苹果自研 5G 基带漏洞，现已被修复

Apache Log4j 发现第五个漏洞,全球上亿网站和开源项目已经陷落

Electron 被曝远程代码执行漏洞，Discord、Notion、Teams 受影响

研究发现超 2000 个针对 Azure 开发人员的恶意 NPM 包

绝世好 ORM 之 mybatis-mp，不要犹疑，试试，你会发现新大陆！！！

微软报告了一个 ChromeOS 远程内存损坏漏洞