谷歌发布 Gemma 3n,专为移动设备打造的全新 AI 模型


Google宣布推出 Gemma 3n,这是其下一代的开放 AI 模型,与我们之前看到的相比有了显著的提升。继上个月在 Google I/O 大会上进行预览后,完整版现已发布,可直接在移动硬件上运行。

与 Gemini 的不同之处在于,Gemma 是为开发者下载和修改而设计的,而Gemini 是Google的封闭式专有模型。

该模型现在可以原生处理图像、音频和视频等输入并生成文本,这比仅仅基于文本的模型有了很大的飞跃。它甚至可以在内存仅为 2GB 的硬件上运行,并且据称在编码和推理等任务上表现更佳。以下是Google列出的所有改进:

  • 多模式设计: Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。
  • 专为设备端优化: Gemma 3n 型号以效率为设计重点,提供两种基于有效参数的尺寸:E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B,但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当,仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。
  • 突破性的架构: Gemma 3n 的核心是新颖的组件,例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。
  • 增强质量: Gemma 3n 在多语言(支持 140 种文本语言和 35 种语言的多模式理解)、数学、编码和推理方面实现了质量改进。

Gemma 3n高效的核心是Google称之为 MatFormer 的新架构。Google用俄罗斯套娃的比喻来描述它:一个较大的模型里面包含一个较小的、功能齐全的版本

这使得单个模型能够以不同的规模运行不同的任务。至于基准测试,更大的 E4B 模型是第一个在 10B 参数下突破 LMArena 1300 分的模型。

该模型的音频功能现在支持设备上的语音转文本和翻译,并使用能够精细处理语音的编码器。视觉方面则由名为 MobileNet-V5 的全新编码器提供支持,该编码器比其前代产品速度更快、效率更高。它能够在 Google Pixel 设备上以高达 60FPS 的速度处理视频。

如果您有兴趣,可以立即开始使用,因为这些模型可以通过 Hugging Face 和 Kaggle 等熟悉的平台获得,您甚至可以直接在Google AI Studio 中对它们进行试验:https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it

更多详情请参阅官方公告帖


相關推薦

2025-06-13

谷歌发布了LiteRT-LM早期版本,这是一个C++库,用于在边缘平台上高效运行语言模型。 LiteRT-LM支持跨平台高效运行Gemma-3N系列模型,支持2B和4B参数模型,适用于桌面环境(Mac/Windows/Linux)及物联网设备。 LiteRT-LM的README写道:

2025-05-10

电子设计自动化技术提供商 Cadence 公司推出了一款新型超级计算机,可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。 这款超级计算机名为 Millennium M2000 ,配备了英伟达 HGX B200 系统和

2025-04-25

源许可协议,几乎不设使用或商业限制。这与Meta的Llama、谷歌的Gemma等开源模型形成对比,后者因使用条款过于繁琐而受到批评。OpenAI显然希望避免步其后尘。 目前,OpenAI面临来自包括中国AI实验室DeepSeek在内的开源策略竞争者

2025-04-16

谷歌旗下 AI 研究实验室 DeepMind 公布了一款名为「DolphinGemma」的 AI 模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。 DolphinGemma 基于谷歌开放的 Gemma 系列模型构建,其训练数据来源于专注于研究大西洋

2022-09-16

如约重聚,主旨演讲干货新鲜出炉,一起回顾一下! 谷歌一直积极帮助开发者灵活运用前沿科技,探索创新的方式以解决现实问题,以科技之力应对变化,帮助他人,如 Google 大中华区总裁陈俊廷所强调:“谷歌一直在坚

2025-04-25

谷歌一年一度的开发者大会 Google I/O 2025 将于 5 月 20 日至 21 日举行,目前谷歌已经提前公布了部分会议议程。 https://io.google/2025/explore 在本次大会中,Android 系统依旧是重头戏之一。谷歌表示将举办一场关于安卓“进阶版”用

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的

2025-06-11

最佳实践,包括遵循广泛采用的robots.txt协议,允许网页发布者选择性地退出其内容被用于训练Apple的生成基础模型。网页发布者可以对Applebot可以查看的页面以及这些页面如何被使用进行精细控制,同时这些页面仍会出现在Siri和

2025-05-20

阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM(World Preference Modeling),包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。 根据官方介绍,该模型通过对1500万条偏好数据的超

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2024-05-28

18 系统提供一系列生成式 AI 功能。 此外,该公司仍在与谷歌进行一系列谈判,试图将 Gemini 作为另一种可选的方案内置在 iOS 系统中。 古尔曼表示,苹果公司预计将在下月举行的 WWDC 2024 上官宣与 OpenAI 达成的伙伴协议。 古尔

2023-08-02

期待已久的UKUI 4.0伴随openKylin 1.0版本的发布终于和大家见面啦,今天我们就来聊聊UKUI 4.0的那些新特性。   相较于之前版本,UKUI 4.0版本从设计和功能上都做出了较大的改动。设计上,UKUI 4.0提出了“轻量化之路——视

2025-04-11

谷歌宣布推出基于云端、AI 驱动的集成开发环境(IDE)—— Firebase Studio。 Firebase Studio是 Google Firebase 平台的一部分,是一种浏览器可访问的云端开发环境。 作为一个基于云的全新“AI 代理式”开发环境,开发者可以随时

2023-10-26

人搜索功能让展示和查找作品更便捷。📰🤖📢AI新鲜事谷歌发布新规:AI应用禁止生成受限内容谷歌宣布要求 Android 应用改进对人工智能生成内容的审查,以确保用户可以方便举报冒犯性内容,并限制照片和视频权限。【AiBase提