Pika 发布音频驱动的视频生成模型


Pika 发布了一款突破性的音频驱动视频生成模型(Audio-Driven Performance Model),能近乎实时地生成具有逼真表情和完美唇形同步的视频,速度提升 20 倍且成本大幅降低。

据介绍,该模型支持任意长度和风格的视频制作,并能在 6 秒或更短的时间内完成高清视频的生成。新模型在速度上提升了 20 倍,同时成本也大幅降低。

Pika 以生成逼真视频的 AI 技术而知名。而据公开信息,郭文景是 Pika Labs 的联合创始人与 CEO。她与联合创始人兼 CTO Chenlin Meng 均为斯坦福大学 AI Lab 博士生,在 2023 年 4 月从斯坦福辍学、创立了 Pika Labs,致力于开发基于文本生成短视频的 AI 工具。

Pika 的核心产品为「文生视频」模型,号称用户一句话描述,就能生成风格多样的动画短视频。


相關推薦

2025-08-05

Meta 日前正在积极寻求与 AI 视频生成技术的初创公司建立合作伙伴关系,旨在发力视频生成领域。 知情人士称,Meta 近期与 AI 视频初创公司 Pika 就潜在合作展开了讨论,内容包括可能的收购或技术授权协议。另据透露,Meta 还

2025-06-08

意识正在形成 今日凌晨,OpenAI 模型行为主管 Joanne Jang 发布了长篇博文,分析了 ChatGPT 目前与用户之间的情感关系,并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出,最近越来越多用户反映称,与 ChatGPT 聊天就

2025-06-04

04.14906 (@APPSO、@阿里语音 AI) 2、可灵 2.1 系列视频模型发布,拥有卓越的动态效果表现,更强的语义响应 快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型: 标准版支持标准

2023-11-06

OpenHarmony 4.0 版本现已发布,开发套件同步升级到API 10。相比3.2 Release版本,新增4000多个ArkTS API,应用开发能力更加丰富;HDF新增200多个HDI接口,硬件适配更加便捷;持续优化图形框架和方舟编译器(ArkCompiler),用户交互体验得

2023-08-09

分支获取源码。可获取该版本分支的最新源码,包括版本发布后在该分支的合入。 repo init -u [email protected]:openharmony/manifest.git -b OpenHarmony-4.0-Beta2 --no-repo-verify repo sync -c repo forall -c 'git lfs pull'   从版本发布Tag节点获取

2023-04-08

OpenHarmony 3.2 已正式发布。 OpenHarmony 开源项目是由开放原子开源基金会孵化及运营的开源项目,由开放原子开源基金会 OpenHarmony 项目群工作委员会负责运作。 OpenHarmony 整体遵从分层设计,从下向上依次为:内核层、系统服

2025-08-01

S 应用推出全新图像视频生成功能「Imagine」: 支持带音频的视频生成(类似谷歌 Veo 3) 可一次性生成 4 段视频 生成速度显著提升 据悉,Grok 的生成模型 Aurora 已经升级,马斯克表示正在修复相关的 bug。 从早期泄

2025-07-10

径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息,从而更好地理解人类的复杂意图和“话外音”。 HumanOmniV2引入了三项关键技术: 强制上下文总结机制,要求模型在生成最终答案前先输出对多模

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼

2024-10-15

角色与职责,培育数字化采购力量。” 万联证券在此前发布的研究报告中也提到,自“十三五”、“十四五”规划将人工智能作为重点任务,明确了战略发展目标之后,国家陆续出台指导性及支持性政策推动生成式AI发展,目

2024-06-28

分析公司 Forrester 发布了最新的 2024 年十大新兴技术报告。 GenAI for visual content 先进的机器学习模型可以根据文本、音频或视频提示生成图像或视频,这项技术将帮助公司为营销、体验和产品生成视觉内容。 GenAI

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。 为了解决「如何利用全景视频生成与之匹

2025-04-12

成多种媒体形式的模型。谷歌最新的 Gemini 模型可以生成音频、图像和文本,而 OpenAI 的 ChatGPT 中的默认模型可以原生创建图像,包括吉卜力工作室风格的艺术作品。亚马逊也宣布计划在今年晚些时候推出“any-to-any”模型。 而

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。