Gemma 3n – 谷歌推出的端侧多模态AI模型

最近更新: 2026年6月7日下午8:02

Gemma 3n是什么

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入，可生成结构化文本输出。新增的音频处理能力，能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

阅读目录

Gemma 3n是什么
Gemma 3n的主要功能
Gemma 3n的技术原理
Gemma 3n的项目地址
Gemma 3n的应用场景

Gemma 3n

Gemma 3n的主要功能

优化的端侧性能与效率：Gemma 3n 在移动设备上的响应速度比 Gemma 3 4B 提升约 1.5 倍，通过每层嵌入（PLE）、KVC 共享、高级激活量化等技术，实现了更小的内存占用。
多模态输入支持：支持文本、图像、音频和视频的理解处理，能够处理复杂的多模态交互。
隐私优先与离线可用：所有计算都在本地设备上完成，无需联网，数据不会离开设备，保障用户隐私。
灵活的模型架构：基于 MatFormer 架构，内嵌一个先进的 2B 子模型，可根据需求动态切换性能和质量。
多语言支持：支持超过 140 种语言，在日语、德语、韩语、西班牙语和法语等语言上有出色表现。
32K 令牌上下文窗口：能处理长达 32,000 个单词或符号的输入，适合处理长文本。

Gemma 3n的技术原理

基于 Gemini Nano 架构：Gemma 3n 继承了 Gemini Nano 的轻量化架构，专为移动设备优化。通过知识蒸馏和量化感知训练（QAT），在保持高性能的同时大幅降低资源需求。
逐层嵌入技术：采用逐层嵌入（Per-Layer Embeddings，PLE）技术，显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型，只需 2GB 或 3GB 的动态内存即可运行。
多模态融合：结合了 Gemini 2.0 的分词器和增强的数据混合，支持 140 多种语言的文本和视觉处理，覆盖全球用户需求。
局部/全局层交错设计：采用 5:1 的局部/全局层交错机制，每 5 层局部层后接 1 层全局层，以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

Gemma 3n的项目地址

项目官网：https://deepmind.google/models/gemma/gemma-3n/

Gemma 3n的应用场景

语音转录与情感分析：能实时转录语音、识别背景音或分析音频情感，适用于语音助手和无障碍应用。
内容生成：支持在手机上生成图像描述、视频摘要或语音转录，适合内容创作者快速编辑短视频或社交媒体素材。
学术任务定制：开发者可用 Gemma 3n 的微调功能，在 Colab 上为学术任务定制模型，如分析实验图像或转录讲座音频。
低资源设备：专为低资源设备设计，仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

URM – 阿里妈妈推出的世界知识大模型

发表评价

Gemma 3n – 谷歌推出的端侧多模态AI模型

Gemma 3n是什么

Gemma 3n的主要功能

Gemma 3n的技术原理

Gemma 3n的项目地址

Gemma 3n的应用场景

发表评价取消回复

最近更新

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

OmniGen – 统一图像生成的扩散模型，支持多模态输入

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Gemma 3n是什么

Gemma 3n的主要功能

Gemma 3n的技术原理

Gemma 3n的项目地址

Gemma 3n的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复