Gemma 4 該選哪個版本？E2B/E4B/26B/31B 怎麼選

Gemma 4 有四個版本，選對了用起來飛快，選錯了要麼卡得要死要麼大材小用。這篇幫你搞清楚每個版本的定位，選出最適合你的那個。

四個模型一覽

模型	總參數量	活躍參數量	架構	最低記憶體	推薦記憶體
E2B	20 億	20 億	Dense	4 GB	6 GB
E4B	40 億	40 億	Dense	6 GB	8 GB
26B A4B	260 億	38 億	MoE	8 GB	16-18 GB
31B Dense	310 億	310 億	Dense	20 GB	24-32 GB

重點關注 26B 模型——它用的是**混合專家（MoE）**架構。雖然總參數有 260 億，但每次推論只啟動大約 38 億參數。這代表你能用小模型的速度享受大模型的品質。想深入了解 MoE 架構的優劣，看看 26B 和 31B 詳細比較。

逐個拆解

E2B——口袋火箭

20 億參數，約 4 GB 記憶體

最小的 Gemma 4 模型，專門為資源受限的情境設計。手機、樹莓派、嵌入式裝置，或者你需要極快回應不需要深度推理的情境。

ollama run gemma4:e2b

擅長：

快速文字產生和摘要
簡單問答
分類任務
在手機和邊緣裝置上執行
延遲敏感的情境

不足：

複雜多步推理會吃力
創意寫作不夠細膩
長對話可能遺失上下文

E4B——萬用首選（推薦大多數人用）

40 億參數，約 6 GB 記憶體

如果你不知道該選哪個，選這個。E4B 在任何現代筆電上都能順暢執行，品質好得超出預期。

ollama run gemma4:e4b

擅長：

通用聊天和問答
程式碼產生和解釋
內容寫作和編輯
多模態任務（圖片+文字）
日常本機 AI 使用

為什麼推薦它：

最近 3-4 年的筆電基本都能跑
Apple Silicon 上輕鬆 20+ tokens/s，聊天很順暢
品質真的不錯——遠超你對 4B 模型的預期
資源佔用低，跑著它還能正常用其他應用程式

26B A4B——效率之王

260 億總參數，僅 38 億活躍（MoE 架構），約 8-18 GB 記憶體

這是整個陣容裡最有意思的模型。Google 訓練了 260 億參數，但每次推論只啟動 38 億。你用小模型的算力，得到大模型的知識。

ollama run gemma4:26b

擅長：

複雜推理和分析
多語言程式碼任務
長文產生
專業知識問答
整個系列中性價比最高

需要注意：

雖然活躍參數少，但全部 260 億參數都得載入記憶體
GGUF Q4 量化後大概需要 8-16 GB，取決於上下文長度
MoE 模型輸出品質可能略有波動（不同輸入啟動不同專家）

誰該用這個： 如果你有 16 GB 以上記憶體和一張還行的顯示卡（或者 Apple Silicon Mac），這可能是整個系列裡最值的選擇。接近 31B 的品質，E4B 的速度。

31B Dense——極限效能

310 億參數，全密集，最低約 20 GB 記憶體

最大、最強的 Gemma 4 模型。每個 token 都經過全部 310 億參數的處理。沒有捷徑，沒有路由——純粹的能力。

ollama run gemma4:31b

擅長：

最有挑戰性的推理任務
最高品質的創意寫作
複雜程式碼產生和除錯
研究和分析
品質是唯一考量的情境

硬體需求：

最少 20 GB 記憶體（推薦 24-32 GB）
強烈建議有獨立顯示卡才能有可接受的速度
Q4 量化後模型檔案約 18 GB

GPU 使用者：顯存需求

按具體機型（MacBook、電競 PC、雲端 GPU）看設定夠不夠，參考硬體設定需求詳解。

模型	Q4_K_M	Q5_K_M	Q8_0	FP16
E2B	~1.5 GB	~1.8 GB	~2.5 GB	~4 GB
E4B	~3 GB	~3.5 GB	~5 GB	~8 GB
26B A4B	~8 GB	~10 GB	~14 GB	~52 GB
31B Dense	~18 GB	~21 GB	~30 GB	~62 GB

小提醒： Q4_K_M 量化對大多數人來說是最佳選擇。品質損失微乎其微，記憶體節省巨大。

別忘了 KV Cache

很多人踩的坑：模型權重不是唯一吃記憶體的東西。KV cache（儲存對話上下文的快取）也很大，尤其是 Gemma 4 支援超長上下文視窗的情況下。

社群回饋 31B 模型在 262K 上下文視窗下，KV cache 單獨就要吃掉約 22 GB 額外記憶體。這還是模型權重之外的。

實用建議：

記憶體不夠就縮短上下文長度：

# 在 Ollama 裡設定較小的上下文視窗
ollama run gemma4:31b --ctx-size 8192

26B 和 31B 模型可以開啟 KV cache 量化（Q8 或 Q4）來大幅降低記憶體佔用
E2B 和 E4B 就好得多——即使上下文較長，KV cache 也很可控

決策樹：看你有什麼硬體

「我就一支手機或樹莓派」 → E2B，其他的塞不下。

「我有 8 GB 記憶體的筆電」 → E4B，跑起來很順暢，還有餘裕給其他應用程式。

「我有 16 GB 記憶體的筆電/桌機」 → 追求速度選 E4B，追求品質選 26B（量化版），願意等一等的話。

「我有 24 GB 以上記憶體或 8 GB 以上顯存的顯示卡」 → 26B 是最佳選擇。說真的，性價比太高了。

「我有工作站，24 GB 以上顯存」 → 31B Dense，極致品質。算力夠就上。

「我想在伺服器/雲端上用」 → 26B 或 31B，看預算和延遲需求。

效能基準比較

基準測試	E2B	E4B	26B A4B	31B Dense
MMLU	良好	較好	一流水準	最佳
HumanEval（程式碼）	可用	良好	很好	優秀
GSM8K（數學）	基礎	良好	強	最強
多模態（視覺）	基礎	良好	強	最佳
速度（M3 tok/s）	~60	~35	~25	~8

26B MoE 是亮點——品質分接近 31B，速度快將近 3 倍。MoE 架構確實很有用。

量化怎麼選？

從 Hugging Face 下載 GGUF 檔案時你會看到 Q4_K_M、Q5_K_M、Q8_0 等選項：

量化等級	品質損失	體積縮小	建議
Q4_K_M	極小	約 75%	預設首選
Q5_K_M	很小	約 65%	空間夠就選這個
Q8_0	幾乎無	約 50%	追求品質
FP16	無	原始大小	僅用於微調