Grok 即将推出「Imagine」功能,支持生成带音频的视频


据报道,xAI 即将为 Grok iOS 应用推出全新图像视频生成功能「Imagine」:

  • 支持带音频的视频生成(类似谷歌 Veo 3)

  • 可一次性生成 4 段视频

  • 生成速度显著提升

据悉,Grok 的生成模型 Aurora 已经升级,马斯克表示正在修复相关的 bug。

从早期泄露的信息来看,Imagine 将在 Grok 的应用和网页版中拥有独立的标签页,与原有的文字对话功能并列。

Grok 届时将提供两个主要入口:「Ask」用于文字问答,「Imagine」则专注于图像与视频生成,用户可以在两者之间自由切换,使用更便捷。

在 Imagine 页面中,除了展示一些预先生成的图像和视频供用户探索外,还提供完整的创作自由。你可以手动输入 Prompt(提示词)生成内容,也可以通过语音方式来描述想要创作的画面或场景。

每次生成后,系统会给出 4 个不同版本的视频供你挑选,每段视频都配有不同的背景音效。生成结果会附带一些实用按钮,例如收藏、下载、在线分享,还可以点击「Redo」重新生成内容。

同时,Imagine 还提供多种预设模式可选,包括 Spicy(火辣)、Fun(风趣)和 Normal(常规)。此外,Imagine 页面还支持无限浏览推荐内容,用户可以持续向下滑动,探索更多图像与视频变体。


相關推薦

2025-06-04

?丨Voice Agent 学习笔记 a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记 a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记 Ele

2025-03-21

Forest Labs(xAI 去年与该公司合作在马斯克的社交网络 X 上推出了图片生成功能)每张图片的收费约为 0.05 美元。 另一家流行的图像模型提供商 Ideogram 的收费更高,为 0.08 美元。 在其文档中,xAI 指出,API 尚不支持调整图片的质

2025-07-11

penAI 的 o3 (high) 的 21%。 除了 Grok 4 和 Grok4 Heavy,xAI 还推出了其迄今最昂贵的 AI 订阅计划、名为 SuperGrokHeavy 的每月 300 美元的订阅服务。该计划的订阅者将能抢先体验 Grok4 Heavy,并优先使用新功能。此计划与其他主要 AI 提供

2025-06-08

; 可模拟现实对话中的情感、打断、语气变化; 即将开放 API 接口,支持创作者和开发者。 官方介绍: https://elevenlabs.io/v3 相关链接: https://t.co/RHi7prurqm (@elevenlabsio@X、@小互 AI) 02 有亮点的产品 1、NotebookLM 前创

2025-08-12

最大的亮点在于其原生多模态能力,能够直接处理视频和音频的比特流,无需进行转换即可理解内容。 这意味着 Grok V7不仅能看懂视频画面,还能听懂语音中的细微变化,精准辨识出表达的情绪和语调重点,从而实现更深层次

2025-08-21

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统,为多模态到多音频(MM2MA)生成领域带来重大突破。 该系统能从视频、文本、图像等多模态输入中,精准合成音效、语音、音乐、歌曲等多种音频,有效解决了

2025-04-24

Vision 目前仅支持 iOS 版 Grok 应用。 此外,Grok 今天还推出了包括多语言音频和 Grok 语音模式下的实时搜索等其他新功能。

2025-08-07

斯克于8月6日通过社交媒体透露,他的人工智能公司 xAI 即将开源其新款 AI 模型 Grok2。马斯克表示:“现在是时候开源 Grok2了。” 这一消息无疑引发了广泛关注,期待的用户也纷纷表示期待这一模型的推出。 Grok2于2024年8月13日以

2022-09-28

支持强大的队列任务处理和脚本功能。 Avidemux 2.8.1 现已推出,更新内容如下: 新特性 新的 HiDPI 兼容按钮组 通过 CTRL+F 快捷方式添加部分过滤器的快速方法 音频部门改进 自定义帧速率更改(带音高控制的音频拉伸)

2025-08-06

三天的人工智能象棋对决是Google数据科学社区 Kaggle 即将在新开发的 Game Arena 举办的一系列锦标赛的首场。在那里,模型将在一系列旨在评估其思维和推理能力的战略游戏中相互竞争。 Google DeepMind 和 Kaggle 将与 Chess.com、国

2023-02-03

新增重要功能 增加时光回溯功能 所谓时光回溯功能,就是加大视频流在服务器的缓存,可以通过配置publish下的buffertime来控制缓存多久。例如可以缓存7秒视频,那么服务器就会至少缓存7秒音视频数据,当我们需要

2025-04-23

更低的抽卡率实现更高质量的可控生成。 音效同步可控功能则确保了随着视频环境与画面转场,Vidu Q1 能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如 0-2s 风声、3-5s 雨声等,节

2025-07-08

谷歌 Gemini CLI(命令行工具)发布了一系列功能更新和改进,包括新增音视频文件输入、Markdown表格渲染等功能,并优化了历史记录、隐私命令及编辑器支持。 新功能 音频与视频支持:Gemini CLI 现支持处理音视频内容 Markd

2025-05-21

xAI最新的人工智能模型Grok3已正式在GitHub Models上推出公开预览版。 Grok3作为一款功能强大的工具,适用于数据提取、代码编写、文本摘要等任务,广泛服务于金融、医疗、法律和科学等行业。由xAI开发的Grok3旨在提供卓越的推理