DeepMind CEO：谷歌最终将合并 Gemini 和 Veo AI 模型

2025-04-12 發表於开源资讯

谷歌 DeepMind 首席执行官 Demis Hassabis 最近在 LinkedIn 联合创始人 Reid Hoffman 联合主持的播客 Possible 上表示，谷歌计划最终将其 Gemini AI 模型与其Veo 视频生成模型相结合，以提高前者对物理世界的理解。

Hassabis 表示：“我们从一开始就将 Gemini 打造成多模式的基础模型，我们这样做的原因是我们对通用数字助理这一理念有一个愿景，这种助理……能够在现实世界中真正为你提供帮助。”

AI 行业正逐渐走向“全能”模型——可以理解和合成多种媒体形式的模型。谷歌最新的 Gemini 模型可以生成音频、图像和文本，而 OpenAI 的 ChatGPT 中的默认模型可以原生创建图像，包括吉卜力工作室风格的艺术作品。亚马逊也宣布计划在今年晚些时候推出“any-to-any”模型。

而这些全能模型需要大量的训练数据，譬如图像、视频、音频、文本等等。Hassabis 暗示，Veo 的视频数据主要来自谷歌旗下的平台 YouTube。“基本上，通过观看 YouTube 视频--大量的 YouTube 视频，[Veo 2] 就能了解世界的物理原理。”

谷歌此前曾向 TechCrunch 表示，根据其与 YouTube 创作者的协议，其模型“可能”会使用“部分”YouTube 内容进行训练。据报道，谷歌去年扩大了服务条款，部分原因是为了让该公司能够利用更多数据来训练其 AI 模型。

相關推薦