Pika 发布音频驱动的视频生成模型

2025-08-14 發表於开源资讯

Pika 发布了一款突破性的音频驱动视频生成模型（Audio-Driven Performance Model），能近乎实时地生成具有逼真表情和完美唇形同步的视频，速度提升 20 倍且成本大幅降低。

据介绍，该模型支持任意长度和风格的视频制作，并能在 6 秒或更短的时间内完成高清视频的生成。新模型在速度上提升了 20 倍，同时成本也大幅降低。

Pika 以生成逼真视频的 AI 技术而知名。而据公开信息，郭文景是 Pika Labs 的联合创始人与 CEO。她与联合创始人兼 CTO Chenlin Meng 均为斯坦福大学 AI Lab 博士生，在 2023 年 4 月从斯坦福辍学、创立了 Pika Labs，致力于开发基于文本生成短视频的 AI 工具。

Pika 的核心产品为「文生视频」模型，号称用户一句话描述，就能生成风格多样的动画短视频。

相關推薦

Meta 有望收购 AI 视频初创公司 Pika Labs

2025-08-05

Meta 日前正在积极寻求与 AI 视频生成技术的初创公司建立合作伙伴关系，旨在发力视频生成领域。知情人士称，Meta 近期与 AI 视频初创公司 Pika 就潜在合作展开了讨论，内容包括可能的收购或技术授权协议。另据透露，Meta 还

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

意识正在形成今日凌晨，OpenAI 模型行为主管 Joanne Jang 发布了长篇博文，分析了 ChatGPT 目前与用户之间的情感关系，并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出，最近越来越多用户反映称，与 ChatGPT 聊天就

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

04.14906 （@APPSO、@阿里语音 AI） 2、可灵 2.1 系列视频模型发布，拥有卓越的动态效果表现，更强的语义响应快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉，可灵 2.1 系列拥有标准版和大师版两个版本模型：标准版支持标准

OpenHarmony 4.0 正式发布

2023-11-06

OpenHarmony 4.0 版本现已发布，开发套件同步升级到API 10。相比3.2 Release版本，新增4000多个ArkTS API，应用开发能力更加丰富；HDF新增200多个HDI接口，硬件适配更加便捷；持续优化图形框架和方舟编译器（ArkCompiler），用户交互体验得

OpenHarmony 4.0 Beta2

2023-08-09

分支获取源码。可获取该版本分支的最新源码，包括版本发布后在该分支的合入。 repo init -u [email protected]:openharmony/manifest.git -b OpenHarmony-4.0-Beta2 --no-repo-verify repo sync -c repo forall -c 'git lfs pull' 从版本发布Tag节点获取

OpenHarmony 3.2 发布：支持采用 ArkTS 语言进行大型应用、原子化服务开发

2023-04-08

OpenHarmony 3.2 已正式发布。 OpenHarmony 开源项目是由开放原子开源基金会孵化及运营的开源项目，由开放原子开源基金会 OpenHarmony 项目群工作委员会负责运作。 OpenHarmony 整体遵从分层设计，从下向上依次为：内核层、系统服

Grok 即将推出「Imagine」功能，支持生成带音频的视频

2025-08-01

S 应用推出全新图像视频生成功能「Imagine」：支持带音频的视频生成（类似谷歌 Veo 3）可一次性生成 4 段视频生成速度显著提升据悉，Grok 的生成模型 Aurora 已经升级，马斯克表示正在修复相关的 bug。从早期泄

腾讯 AI Lab 发布多模态音频生成工具 AudioGenie

2025-08-21

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统，为多模态到多音频（MM2MA）生成领域带来重大突破。该系统能从视频、文本、图像等多模态输入中，精准合成音效、语音、音乐、歌曲等多种音频，有效解决了

阿里通义开源多模态推理模型 HumanOmniV2

2025-07-10

径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息，从而更好地理解人类的复杂意图和“话外音”。 HumanOmniV2引入了三项关键技术：强制上下文总结机制，要求模型在生成最终答案前先输出对多模

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft，该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示，这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉，可用文本内容生成高质量、逼

我国生成式 AI 服务大模型的注册用户超 6 亿

2024-10-15

角色与职责，培育数字化采购力量。” 万联证券在此前发布的研究报告中也提到，自“十三五”、“十四五”规划将人工智能作为重点任务，明确了战略发展目标之后，国家陆续出台指导性及支持性政策推动生成式AI发展，目

阿里通义实验室发布 OmniAudio，可从 360° 视频生成空间音频

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。为了解决「如何利用全景视频生成与之匹

Forrester 发布 2024 年十大新兴技术趋势

2024-06-28

分析公司 Forrester 发布了最新的 2024 年十大新兴技术报告。 GenAI for visual content 先进的机器学习模型可以根据文本、音频或视频提示生成图像或视频，这项技术将帮助公司为营销、体验和产品生成视觉内容。 GenAI

DeepMind CEO：谷歌最终将合并 Gemini 和 Veo AI 模型

2025-04-12

成多种媒体形式的模型。谷歌最新的 Gemini 模型可以生成音频、图像和文本，而 OpenAI 的 ChatGPT 中的默认模型可以原生创建图像，包括吉卜力工作室风格的艺术作品。亚马逊也宣布计划在今年晚些时候推出“any-to-any”模型。而

熱門推薦