谷歌发布 Gemma 3n，专为移动设备打造的全新 AI 模型

2025-06-28 發表於开源资讯

Google宣布推出 Gemma 3n，这是其下一代的开放 AI 模型，与我们之前看到的相比有了显著的提升。继上个月在 Google I/O 大会上进行预览后，完整版现已发布，可直接在移动硬件上运行。

与 Gemini 的不同之处在于，Gemma 是为开发者下载和修改而设计的，而Gemini 是Google的封闭式专有模型。

该模型现在可以原生处理图像、音频和视频等输入并生成文本，这比仅仅基于文本的模型有了很大的飞跃。它甚至可以在内存仅为 2GB 的硬件上运行，并且据称在编码和推理等任务上表现更佳。以下是Google列出的所有改进：

多模式设计： Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。
专为设备端优化： Gemma 3n 型号以效率为设计重点，提供两种基于有效参数的尺寸：E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B，但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当，仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。
突破性的架构： Gemma 3n 的核心是新颖的组件，例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。
增强质量： Gemma 3n 在多语言（支持 140 种文本语言和 35 种语言的多模式理解）、数学、编码和推理方面实现了质量改进。

Gemma 3n高效的核心是Google称之为 MatFormer 的新架构。Google用俄罗斯套娃的比喻来描述它：一个较大的模型里面包含一个较小的、功能齐全的版本。

这使得单个模型能够以不同的规模运行不同的任务。至于基准测试，更大的 E4B 模型是第一个在 10B 参数下突破 LMArena 1300 分的模型。

该模型的音频功能现在支持设备上的语音转文本和翻译，并使用能够精细处理语音的编码器。视觉方面则由名为 MobileNet-V5 的全新编码器提供支持，该编码器比其前代产品速度更快、效率更高。它能够在 Google Pixel 设备上以高达 60FPS 的速度处理视频。

如果您有兴趣，可以立即开始使用，因为这些模型可以通过 Hugging Face 和 Kaggle 等熟悉的平台获得，您甚至可以直接在Google AI Studio 中对它们进行试验：https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it

更多详情请参阅官方公告帖。

谷歌发布 Gemma 3n，专为移动设备打造的全新 AI 模型

相關推薦

谷歌发布高效运行语言模型的 C++ 库：LiteRT-LM

Cadence 发布基于英伟达 Blackwell 芯片的全新 AI 超算

OpenAI 正在打造“最强”开源模型，计划今年初夏发布

谷歌公布 AI 模型 DolphinGemma，可理解海豚声音

2022 谷歌开发者大会都有啥亮点？

Google I/O 2025 聚焦四大领域：Android、AI、Web 和云

谷歌 CEO 皮查伊回应“谷歌已死”论

苹果设备端和服务器端基础语言模型的更新

Meta 发布 Llama 3.2 多模态 AI 模型

Qwen 发布全新偏好建模模型系列 WorldPM 模型

视觉聚焦、交互轻松 | UKUI 4.0 全新体验升级

OpenAI 将为 iOS 18 提供生成式 AI 功能

谷歌 Gemini Live 即将升级：实时画面提示与三大应用深度整合

格芯收购 RISC-V 公司 MIPS