Stability AI 开源视频生成模型 Stable Video Diffusion


Stability AI 发布了开源视频生成模型 Stable Video Diffusion,该模型基于该公司现有的 Stable Diffusion 文本转图像模型,能够通过对现有图像进行动画化生成视频。

主要特性

  • 文本到视频
  • 图像到视频
  • 14 或 25 帧,576 x 1024分辨率
  • 多视图生成
  • 帧插值
  • 支持3D 场景
  • 通过 LoRA 控制摄像机

Stable Video Diffusion 提供两个模型,分别为 SVD 和 SVD-XT。其中,SVD 将静止图像转换为 14 帧的 576x1024 视频,而 SVD-XT 在相同的架构下将帧数提升至 24。

两者都能以每秒 3 到 30 帧的速度生成视频。白皮书显示,这两个模型最初在数百万个视频的数据集上进行训练,然后在数十万到百万数量级的较小数据集上进行“微调”。

Stability AI 称正在开发一个新的网络平台,包括一个文本到视频的界面。这个工具将展示Stable Video Diffusion在广告、教育、娱乐等多个领域的实际应用。

开源地址

  • GitHub:https://github.com/Stability-AI/generative-models
  • 论文:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
  • HuggingFace:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

相關推薦

2022-10-19

是什么,那毫无疑问要属 Stable Diffusion,它是由初创公司 StabilityAI 于今年发布的深度学习文字转图像模型,它主要用于根据文字的描述产生详细图像。Stable Diffusion 的诞生除了让 AI 绘画这个领域突然火爆,还催生出了售卖 AI 关

2024-05-18

The Information 刚刚报道了最新消息,称Stability AI正在与包括肖恩·帕克(美国互联网创业家、Facebook首任总裁)在内的团体洽谈以筹集资金。 The Information 昨日报道称,知名文生图模型公司Stability AI因为资金紧张,最近几周至少

2022-11-26

器(OpenCLIP)训练的文本转图像模型,该模型由 LAION 在 Stability AI 的支持下开发,与早期的 V1 版本相比,大大改善了生成图像的质量。该版本中的文本转图像模型可以生成默认分辨率为 512x512 像素和 768x768 像素的图像。 这些模

2023-07-15

图像生成模型 Stable Diffusion 背后的初创公司 Stability AI 宣布推出 Stable Doodle,一项可将草图一键生成图片的新服务。主要是通过利用最新的 Stable Diffusion 模型分析草图轮廓,然后生成“视觉上令人愉悦”的艺术再现。 Stability

2022-12-22

今年 8 月,Stability AI 开源了一个叫 Stable Diffusion 的 AI 模型,它可以根据用户给定的文本生成对应的图像。Stable Diffusion 的原理是通过 “学习”从互联网上抓取的大量图像数据集,以获得生成图像的能力。 这个 AI 在艺术圈引

2023-01-18

日前,三位艺术家对 Stability AI(Stable Diffusion 背后的开发商)提起了诉讼,指控 Stability AI 直接、间接侵犯版权、违反 DMCA 和不正当竞争等。 这三位艺术家(Sarah Andersen、Kelly McKernan、Karla Ortiz)认为 Stability AI 在「未经原艺术

2023-06-25

Stability AI 近日发布了 Stable Diffusion XL 0.9,这是 Stable Diffusion 文本-图像模型套件中最先进的开发成果。继 4 月发布 Stable Diffusion XL Beta 之后,Stable Diffusion XL 0.9 在图像和构图细节方面比前者有了巨大的改进。 示例 在 SDXL Beta 版

2023-11-11

彭博社援引消息人士的话报道称,AI 初创公司 Stability AI 已获得了由英特尔领投的新一轮融资。该公司在这笔交易中以可转换票据的形式筹集了近 5000 万美元,交易于 10 月份完成。 Stability AI 是 Stable Diffusion 背后的公司,Stable Di

2023-10-04

Stability AI 昨日发布最新语言模型:Stable LM 3B,可在笔记本和手机等智能设备上运行。 公告写道,Stable LM 3B 包含 30 亿个参数,相比于行业通常使用的 70 亿参数,它更小、更高效。主要功能如下:  文本生成:可以用于

2023-01-03

I 绘画/图片生成这个领域,Stable Diffusion 背后的创业公司 StabilityAI 在今年 10 月就借着这股风潮获得了 1 亿美元的融资,估值甚至达到了 10 亿美元。而且随着人工智能驱动的内容生成需求越来越高的情况,Stability AI 未来的估值有

2023-02-10

个德国非营利组织,这个名字你可能不太熟悉,但 Stable Diffusion 和 Imagen 这两个知名的「文本转图像」模型所使用的训练数据集就来自于 LAION,而该组织的目标就是「向公众提供大规模机器学习模型、数据集和相关代码」。 LAI

2024-07-17

码器用于获取去噪视频帧,这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结。VAE编码器独立地应用于输入视频的每一帧以及条件参考图像,基于逐帧操作,不考虑时间或跨帧交互。不同的是,VAE解码器处理经过U-Net

2024-07-05

一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion AI绘画功能。 主要特性: 完整的开源系统,前端应用和后台管理系统皆可开箱即用。 基于 Websocket 实现,完美的打字机体验。 内置了各种预训练好的角

2024-09-25

系列 🚀 BUG修复 🛠️  修复 Dify 中使用 stable diffusion 在 Xinference 上生图的问题,现在可以使用 dify 的 stable diffusion tool 调用 Xinference 上的文生图模型,如 FLUX.1-dev 🖼️ 修复 CosyVoice 输出可能被截断的问题 🎤 修复