Gemma 4 发布了,相比 Gemma 3 升级很大,但到底要不要换?这取决于你在做什么。这篇把每个重要区别都说清楚,帮你做判断。
核心变化一览
| 特性 | Gemma 3 | Gemma 4 |
|---|---|---|
| 开源协议 | Google 限制性协议 | Apache 2.0 |
| 架构 | 仅 Dense | Dense + MoE |
| 音频输入 | 不支持 | E2B 和 E4B 支持 |
| 最大上下文 | 128K | 256K |
| 模型规格 | 1B, 4B, 12B, 27B | 1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense |
| 函数调用 | 基础支持 | 原生支持+结构化输出 |
| 量化支持 | GGUF | GGUF + 更好的量化容忍度 |
协议:从限制到真正开源
这可能是最大的变化。Gemma 3 用的是 Google 自己的协议,商用有限制,还有使用量上限。Gemma 4 换成了 Apache 2.0,跟 Kubernetes、TensorFlow 一个级别。
这意味着什么:
- 没有使用限制。 随便用在任何产品里,商业也行。
- 不用担心输出版权。 Google 不主张模型输出的权利。
- 自由修改和分发。 做衍生模型没有法律风险。
- 企业友好。 法务部门最爱 Apache 2.0,因为条款清晰明确。
如果之前因为协议问题不敢在生产环境用 Gemma 3,这个障碍现在没了。
MoE 架构:26B 模型
Gemma 4 新增了 MoE(混合专家)架构的模型。26B MoE 总参数 260 亿,但每个 token 只激活约 38 亿参数。
为什么这很重要:
- 快:激活参数少,推理速度比同等质量的 Dense 模型快得多
- 内存:虽然整个 26B 都要加载,但实际计算量接近 4B 模型
- 质量:基准测试显示 26B MoE 在大部分任务上接近 27B Dense
# 用 Ollama 跑 MoE 模型
ollama run gemma4:26b
# 对比一下速度——MoE 明显更快
ollama run gemma4:27b音频支持:E2B 和 E4B
Gemma 4 的 E2B(20 亿参数)和 E4B(40 亿参数)边缘模型新增了音频理解能力,可以同时处理语音、文字和图片。
使用场景:
- 设备端语音指令处理
- 带上下文理解的音频转写
- 语音+文字+图片的多模态应用
注意:音频支持仅限 E2B 和 E4B。更大的 12B、27B、26B、31B 只处理文字和图片。
256K 上下文窗口
Gemma 3 上限是 128K token,Gemma 4 翻倍到 256K:
| 上下文长度 | 大约相当于 |
|---|---|
| 8K | 一篇长文章 |
| 32K | 一个短章节 |
| 128K(Gemma 3 上限) | 一本中篇小说 |
| 256K(Gemma 4 上限) | 一本完整小说 |
但是上下文越长越吃内存也越慢。能用 256K 不代表要用 256K,按实际需要设。
性能提升
主要基准测试的对比:
| 测试 | Gemma 3 27B | Gemma 4 27B | 提升 |
|---|---|---|---|
| MMLU | 75.6 | 80.2 | +4.6 |
| HumanEval | 68.5 | 76.8 | +8.3 |
| GSM8K | 82.3 | 88.1 | +5.8 |
| MATH | 45.2 | 53.7 | +8.5 |
代码生成(HumanEval)和数学推理(MATH)提升最大,通用知识(MMLU)也有进步但幅度小一些。
迁移指南
Ollama 用户
# 删旧模型
ollama rm gemma3:12b
# 拉新模型
ollama pull gemma4:12b
# 现有的 Ollama API 脚本不用改
# 只换个模型名就行transformers 用户
# 之前(Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")
# 之后(Gemma 4)—— 同样的 API,换个模型名
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")不兼容的地方
- 聊天模板格式变了:如果你在手动拼接 prompt,需要确认新格式
- Tokenizer 有变动:部分特殊 token 改了,做 token 级操作的代码要验证
- MoE 模型需要特殊支持:26B MoE 需要框架支持 MoE 架构,不是所有工具都搞定了
什么时候不用升级
有些情况下留在 Gemma 3 是合理的:
- 你用的工具还不支持 Gemma 4。 有些框架跟进新版本比较慢。
- 你微调过 Gemma 3。 微调权重没法迁移到 Gemma 4,重新微调需要时间和算力。
- 稳定性比功能重要。 Gemma 3 有几个月的社区打磨和 bug 修复。
- 硬件很紧张。 Gemma 4 同等大小可能内存要求稍高一点。
下一步
- 准备选模型? 看 Gemma 4 模型选择指南 了解各模型大小的推荐场景
- 想深入了解 MoE 和 Dense 的区别? 看 Gemma 4 26B vs 31B 对比
- 想看 Gemma 4 跟竞品的对比? 看 Gemma 4 vs Llama 4
总结:Gemma 4 在每个可衡量的维度上都比 Gemma 3 好,Apache 2.0 协议也扫清了商用的最大障碍。除非有特殊原因,升级是值得的。



