模型发布2026-04-03

Gemma 4 开放模型系列：一份给开发者的简报

Google DeepMind 于 2026 年 4 月 2 日发布 Gemma 4。全系采用 Apache 2.0 商用许可，覆盖 E2B 到 31B 多种规格。原生多模态、最高 256K 上下文、极低端侧延迟，帮你评估本地部署与 API 调用的真实 ROI。

一、核心结论

许可与定位

采用 Apache 2.0 许可，商用友好，支持开发者的「数字主权」。定位强调推理与 agent 工作流，原生多模态（文本、图像，小模型带音频），上下文最长可到 256K。

规格与生态

提供 E2B、E4B、26B MoE、31B Dense 四档规格，覆盖手机边缘、笔电到工作站。官方 day-0 对接 llama.cpp、vLLM、MLX 等推理栈，以及 Ollama、LM Studio 等本地工具。

注：下文数字与排名均来自发布方或合作方公开材料；若你上生产环境，仍以自家评测为准。

二、四大核心指标：速度、成本、能力与窗口

Gemma 4 针对不同场景（从移动端到工作站）推出了四个主要版本：E2B、E4B、26B A4B (MoE) 和 31B (Dense)。以下是四个最受关注维度的具体表现：

最高提速

-60%

端侧能耗

89.2%

AIME 2026

256K

最大上下文

1. 性能响应速度 (Speed & Latency)

相比前代版本，Gemma 4 的生成速度最高提升了 4 倍。其中 E2B 是为最高速度优化的版本，运行速度是 E4B 的 3 倍。架构上引入了 Shared KV Cache，最后几层复用前面的键值状态，消除了冗余计算，在处理长上下文时显著降低延迟。

2. 成本与硬件消耗 (Cost & Hardware)

Apache 2.0 协议意味着真正的「零 API 调用成本」。INT4 量化下的 VRAM 需求极低：

E2B (实际 2.3B)：约 2.5GB - 4GB，专为手机等边缘设备设计。
E4B (实际 4.5B)：约 4.2GB - 6GB，适合轻薄本。
26B A4B (激活 3.8B)：约 6.5GB - 18GB。
31B (总 30.7B)：约 18GB - 20GB。

电池能耗方面，相比前代最高节省 60% 电量。Pixel 9 Pro 上进行 25 次完整对话，仅耗电 0.75%。

3. 模型能力 (Capabilities)

定位「同尺寸下最强开源模型」。31B (Dense) 在 MMLU Pro 达 85.2%，AIME 2026 (无工具) 高达 89.2%，LiveCodeBench v6 达 80.0%。 26B A4B (MoE) 每次仅激活 4B 参数，但性能紧追 31B。全系原生支持文本、图像和视频输入，E2B 和 E4B 更原生支持音频输入。拥有可配置的「思考模式 (Thinking Mode)」，原生支持函数调用和结构化 JSON 输出。

4. 上下文窗口 (Context Window)

E2B 和 E4B 两款端侧模型支持 128K Tokens。26B A4B 和 31B 桌面/工作站级模型支持高达 256K Tokens，足以处理整个代码库或长篇文档。

三、架构上值得记的几点

Per-Layer Embeddings (PLE)

用在 E 系列。每层 decoder 为小表做 token embedding，换取参数效率。有效参数和总参数分开算，部署时需注意显存占用。

Shared KV Cache

靠后层复用靠前层的 K/V 状态，少算一遍投影，在长上下文场景下显著节省显存并提升速度。

Hybrid Attention

局部滑动窗口和全局全上下文层交替使用，兼顾了推理速度与全局上下文的感知能力。

Proportional RoPE (p-RoPE)

应用于全局注意力层，专门服务于超长上下文（128K/256K）的外推需求。

四、部署与工具链

端侧与 Android

AICore Developer Preview 已可对接，代码可平滑过渡到带 Gemini Nano 4 的设备。高通、联发科等芯片侧已联合优化，覆盖手机、树莓派、Jetson 等边缘场景。

训练与推理栈

推理引擎支持 llama.cpp、vLLM、MLX、transformers.js、Mistral.rs。微调支持 Unsloth Studio、TRL、Vertex AI。

本地客户端

桌面侧已集成 LM Studio、Ollama，以及 Pi、Open Code 等编码助手。建议配合本地 ROI 计算器评估自托管的硬件与电费成本。

五、行业里大家在聊什么

美国开源阵营的强力回应

许可证放宽、规格梯度清晰、社区工具跟进快。在 Qwen 和 DeepSeek 持续发力的背景下，Gemma 4 被视为美国开源阵营的重要反击。

与 Llama 4 的对比

同期 Meta Llama 4 在社区反馈中存在体量和体验上的争议。Gemma 4 的 31B Dense 在 Arena 类榜单上排到全球第三，以更小的参数规模实现了前沿能力。

六、几条原话

「Gemma 4 以 Apache 2.0 发布是一个巨大里程碑……本地 AI 正在迎来自己的时刻，也是 AI 行业的未来。」
— Clément Delangue，Hugging Face CEO

「Gemma 4 是你能在自己硬件上跑的最强模型家族之一……用明显更少的硬件开销摸到前沿能力。」
— Google DeepMind 博客（意译）

「我们内部测试里几乎找不到『好用来演示微调』的糟糕基线——开箱已经太强。」
— Hugging Face 技术团队（意译）

七、落地时可照做的几件事

多模态 Prompt 顺序	图像或音频放在文本前，有利于推理路径和性能（官方集成建议）。
视觉 Token 预算	70–140 token 用于快速扫图（分类、简述）；约 1120 token 用于高精度任务（OCR、版式文档）。
Thinking 模式	在 system 侧用 `<\|think\|>` 触发。多轮对话时，不要把思考块原样塞回历史，只保留最终回复。
量化与显存	26B / 31B 的 GGUF 量化版，单卡 80GB 或高端消费卡即可运行。
Android 路线	端侧 Agent 开发者可先用 AICore 预览版打通工具调用与 JSON 输出，后续无缝对接 Nano 4 设备。

本文整理自 Google DeepMind 与生态伙伴的公开通报，便于和 API 定价总览、国内模型价格横评对照阅读。TrakToken 专注云端 API 比价与成本工具；开源权重不直接进我们的价格表，但和「要不要本地跑」的决策是同一张桌上的事。

纠错与补充欢迎到 GitHub 开 Issue。联系：hi@kuhung.me。