Gemma 4 是相對於 Gemma 3 的重大升級,但值得切換嗎?答案取決於你在做什麼。這篇文章拆解每一個有意義的差異,讓你可以做出明智的決定。
重大變更一覽
| 特色 | Gemma 3 | Gemma 4 |
|---|---|---|
| 授權 | Google Restricted Use | Apache 2.0 |
| 架構 | 僅 Dense | Dense + MoE |
| 音訊輸入 | 不支援 | E2B 和 E4B 模型 |
| 最大上下文 | 128K | 256K |
| 模型大小 | 1B, 4B, 12B, 27B | 1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense |
| 函式呼叫 | 基本 | 原生帶結構化輸出 |
| 量化支援 | 有 GGUF | GGUF + 改善的量化容忍度 |
授權:從受限到開放
這可以說是最大的變更。Gemma 3 使用 Google 的自訂授權,在某些情境下限制商業使用並有使用量上限。Gemma 4 改為 Apache 2.0——與 Kubernetes 和 TensorFlow 等專案使用的相同授權。
這對你的意義:
- 無使用限制。 在任何產品中使用,商業或其他。
- 沒有輸出所有權顧慮。 Google 不主張模型輸出的權利。
- 自由分岔和修改。 在沒有法律不確定性下建構衍生模型。
- 企業友善。 法務團隊喜歡 Apache 2.0,因為它廣為人知。
如果授權是你在正式環境避開 Gemma 3 的原因,這個阻礙消失了。
MoE 架構:26B 模型
Gemma 4 在傳統 Dense 模型旁引入了混合專家(MoE)模型。26B MoE 模型有 260 億總參數,但每個 token 只啟動約 38 億。
這為什麼重要:
- 速度:MoE 執行速度比同等品質的 Dense 模型快得多,因為啟動的參數較少
- 記憶體:完整的 26B 需要載入,但推論計算接近 4B 模型
- 品質:基準測試顯示 26B MoE 在大多數任務上與 27B Dense 表現相當
# 用 Ollama 執行 MoE 模型
ollama run gemma4:26b
# 比較速度——你會注意到 MoE 明顯更快
ollama run gemma4:27b音訊輸入:E2B 和 E4B
Gemma 4 透過 E2B(20 億)和 E4B(40 億)邊緣模型加入音訊理解。這些可以處理連同文字和圖片的口語音訊。
使用場景:
- 裝置端語音指令處理
- 帶上下文理解的音訊轉錄
- 結合語音、文字和圖片的多模態應用
注意:音訊支援僅在 E2B 和 E4B 模型中。較大的 12B、27B、26B 和 31B 模型處理文字和視覺,但不處理音訊。
256K 上下文視窗
Gemma 3 的上限是 128K tokens。Gemma 4 將其加倍至 256K。實際上:
| 上下文長度 | 大約相當於 |
|---|---|
| 8K | 一篇長文章 |
| 32K | 一本書的短章節 |
| 128K(Gemma 3 最大) | 一本中篇小說 |
| 256K(Gemma 4 最大) | 一本完整小說 |
記住較長的上下文使用更多記憶體並減慢推論。你能用 256K 不代表你應該用——將上下文設為你實際需要的。
基準測試改進
Gemma 4 在標準基準測試中顯示有意義的改進:
| 基準測試 | Gemma 3 27B | Gemma 4 27B | 改進 |
|---|---|---|---|
| MMLU | 75.6 | 80.2 | +4.6 |
| HumanEval | 68.5 | 76.8 | +8.3 |
| GSM8K | 82.3 | 88.1 | +5.8 |
| MATH | 45.2 | 53.7 | +8.5 |
最大的進步在程式碼生成(HumanEval)和數學推理(MATH)。通用知識(MMLU)也有提升,但較為溫和。
遷移指南
從 Gemma 3 的 Ollama
# 移除舊模型
ollama rm gemma3:12b
# 下載新模型
ollama pull gemma4:12b
# 你現有使用 Ollama API 的腳本可以不變
# 只需更新模型名稱從 Gemma 3 的 transformers
# 之前(Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")
# 之後(Gemma 4)——相同的 API,不同的模型名稱
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")破壞性變更
- 聊天模板格式:Gemma 4 使用更新的聊天模板。如果你手動建構提示詞,檢查新格式。
- tokenizer 更新:一些特殊 token 變了。如果你在做 token 層級的操作,驗證你的程式碼。
- MoE 模型需要不同的設定:26B MoE 模型需要支援 MoE 架構的框架。不是所有工具都處理這個。
何時留在 Gemma 3
有合理的理由留在 Gemma 3:
- 你的工具尚未支援 Gemma 4。 一些框架落後於新發布。
- 你已微調 Gemma 3。 你的微調權重無法轉移到 Gemma 4。重新微調需要時間和算力。
- 穩定性比功能更重要。 Gemma 3 有數個月的社群 bug 修復。
- 你在非常受限的硬體上。 Gemma 4 模型在相同大小下可能有稍高的記憶體需求。
下一步
- 準備挑選模型? 查看 該選哪個 Gemma 4 模型? 的詳細大小建議
- 想更好地理解 MoE vs Dense? 閱讀 Gemma 4 26B vs 31B:MoE vs Dense 的深度比較
- 好奇 Gemma 4 如何與競爭對手較量? 看 Gemma 4 vs Llama 4 的跨系列比較
底線:Gemma 4 在每個可測量的方面都是更好的模型,而 Apache 2.0 授權消除了最大的商業障礙。除非你有特定理由留在 Gemma 3,升級是值得的。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


