Grok 即将推出「Imagine」功能，支持生成带音频的视频

2025-08-01 發表於开源资讯

据报道，xAI 即将为 Grok iOS 应用推出全新图像视频生成功能「Imagine」：

支持带音频的视频生成（类似谷歌 Veo 3）
可一次性生成 4 段视频
生成速度显著提升

据悉，Grok 的生成模型 Aurora 已经升级，马斯克表示正在修复相关的 bug。

从早期泄露的信息来看，Imagine 将在 Grok 的应用和网页版中拥有独立的标签页，与原有的文字对话功能并列。

Grok 届时将提供两个主要入口：「Ask」用于文字问答，「Imagine」则专注于图像与视频生成，用户可以在两者之间自由切换，使用更便捷。

在 Imagine 页面中，除了展示一些预先生成的图像和视频供用户探索外，还提供完整的创作自由。你可以手动输入 Prompt（提示词）生成内容，也可以通过语音方式来描述想要创作的画面或场景。

每次生成后，系统会给出 4 个不同版本的视频供你挑选，每段视频都配有不同的背景音效。生成结果会附带一些实用按钮，例如收藏、下载、在线分享，还可以点击「Redo」重新生成内容。

同时，Imagine 还提供多种预设模式可选，包括 Spicy（火辣）、Fun（风趣）和 Normal（常规）。此外，Imagine 页面还支持无限浏览推荐内容，用户可以持续向下滑动，探索更多图像与视频变体。

相關推薦

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

？丨Voice Agent 学习笔记 a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场丨 Voice Agent 学习笔记 a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记 Ele

xAI Grok 推出用于生成图像的 API

2025-03-21

Forest Labs（xAI 去年与该公司合作在马斯克的社交网络 X 上推出了图片生成功能）每张图片的收费约为 0.05 美元。另一家流行的图像模型提供商 Ideogram 的收费更高，为 0.08 美元。在其文档中，xAI 指出，API 尚不支持调整图片的质

“全球最强 AI 模型” Grok 4 正式发布

2025-07-11

penAI 的 o3 (high) 的 21%。除了 Grok 4 和 Grok4 Heavy，xAI 还推出了其迄今最昂贵的 AI 订阅计划、名为 SuperGrokHeavy 的每月 300 美元的订阅服务。该计划的订阅者将能抢先体验 Grok4 Heavy，并优先使用新功能。此计划与其他主要 AI 提供

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

；可模拟现实对话中的情感、打断、语气变化；即将开放 API 接口，支持创作者和开发者。官方介绍： https://elevenlabs.io/v3 相关链接： https://t.co/RHi7prurqm （@elevenlabsio@X、@小互 AI） 02 有亮点的产品 1、NotebookLM 前创

马斯克宣布 Grok V7 基础模型完成预训练，具备原生多模态能力

2025-08-12

最大的亮点在于其原生多模态能力，能够直接处理视频和音频的比特流，无需进行转换即可理解内容。这意味着 Grok V7不仅能看懂视频画面，还能听懂语音中的细微变化，精准辨识出表达的情绪和语调重点，从而实现更深层次

腾讯 AI Lab 发布多模态音频生成工具 AudioGenie

2025-08-21

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统，为多模态到多音频（MM2MA）生成领域带来重大突破。该系统能从视频、文本、图像等多模态输入中，精准合成音效、语音、音乐、歌曲等多种音频，有效解决了

xAI 的 Grok 聊天机器人支持实时视觉功能

2025-04-24

Vision 目前仅支持 iOS 版 Grok 应用。此外，Grok 今天还推出了包括多语言音频和 Grok 语音模式下的实时搜索等其他新功能。

马斯克宣布 Grok2 将于下周开源

2025-08-07

斯克于8月6日通过社交媒体透露，他的人工智能公司 xAI 即将开源其新款 AI 模型 Grok2。马斯克表示:“现在是时候开源 Grok2了。” 这一消息无疑引发了广泛关注，期待的用户也纷纷表示期待这一模型的推出。 Grok2于2024年8月13日以

Avidemux 2.8.1 发布，视频编辑器

2022-09-28

支持强大的队列任务处理和脚本功能。 Avidemux 2.8.1 现已推出，更新内容如下：新特性新的 HiDPI 兼容按钮组通过 CTRL+F 快捷方式添加部分过滤器的快速方法音频部门改进自定义帧速率更改（带音高控制的音频拉伸）

到 2030 年全球半导体营收将突破 1 万亿美元

2025-08-29

。主要催化剂将是先进AI服务器基础设施的建设，受到即将到来的AI应用持续且可能加速的需求驱动。短中长期的大部分需求来自超大规模云服务商（Hyperscalers），在近期推动文本、并逐步扩展到音频与视觉等多模态GenAI走向

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力

2025-08-06

三天的人工智能象棋对决是Google数据科学社区 Kaggle 即将在新开发的 Game Arena 举办的一系列锦标赛的首场。在那里，模型将在一系列旨在评估其思维和推理能力的战略游戏中相互竞争。 Google DeepMind 和 Kaggle 将与 Chess.com、国

Monibuca v4.4.0 发布 —— 开源 Go 语言流媒体服务器

2023-02-03

新增重要功能增加时光回溯功能所谓时光回溯功能，就是加大视频流在服务器的缓存，可以通过配置publish下的buffertime来控制缓存多久。例如可以缓存7秒视频，那么服务器就会至少缓存7秒音视频数据，当我们需要

生树科技发布高可控 AI 视频大模型「Vidu Q1」

2025-04-23

更低的抽卡率实现更高质量的可控生成。音效同步可控功能则确保了随着视频环境与画面转场，Vidu Q1 能够输出生成相应音效，并可精准控制每段音效的长短区间，精准设置每段音频出现的时间点，如 0-2s 风声、3-5s 雨声等，节

Gemini CLI 支持处理音视频文件和 Markdown 表格渲染

2025-07-08

谷歌 Gemini CLI（命令行工具）发布了一系列功能更新和改进，包括新增音视频文件输入、Markdown表格渲染等功能，并优化了历史记录、隐私命令及编辑器支持。新功能音频与视频支持：Gemini CLI 现支持处理音视频内容 Markd

熱門推薦