Gemma 4 在大模型端給了兩個選擇:26B MoE(混合專家)和 31B Dense(稠密)。這兩個模型工作方式完全不同,選哪個取決於你看重什麼。來拆解一下。
MoE 是什麼?簡單說
26B MoE 模型有 260 億個參數,但重點是——它不會同時用所有參數。它有多個「專家」子網路,一個路由機制會針對每個 token 選擇啟動哪些專家。每次實際只有約 38 億參數在工作。
打個比方:一家醫院有 20 個專科醫師。病人來了不會 20 個醫師都看一遍,而是根據病情分到 2-3 個相關科別。醫院有 20 個醫師的知識量,但每次就診只用到一小部分人力。
MoE 26B 架構:
┌─────────────────────────────┐
│ 路由器:「用哪些專家?」 │
├──────┬──────┬──────┬───────┤
│ 專家1 │ 專家2 │ 專家3 │ ... │ ← 總計 26B 參數
├──────┴──────┴──────┴───────┤
│ 每個 token 只啟動 ~3.8B │ ← 實際運算量
└─────────────────────────────┘Dense 是什麼?
31B Dense 就很直接——所有 310 億參數對每一個 token 都全部啟動。沒有路由,沒有專家,一個大網路做所有事。
Dense 31B 架構:
┌─────────────────────────────┐
│ 每個 token 都用全部 31B 參數 │ ← 全量運算
└─────────────────────────────┘正面比較
| 指標 | 26B MoE | 31B Dense |
|---|---|---|
| 總參數量 | 26B | 31B |
| 活躍參數量 | ~3.8B | 31B |
| 顯存 (FP16) | ~52 GB | ~62 GB |
| 顯存 (Q4_K_M) | ~15 GB | ~18 GB |
| 速度 (tok/s, RTX 4090) | ~45 | ~18 |
| 速度 (tok/s, M3 Max 36GB) | ~25 | ~10 |
基準測試比較
| 測試 | 26B MoE | 31B Dense | 贏家 |
|---|---|---|---|
| MMLU | 79.5 | 81.3 | Dense (+1.8) |
| HumanEval | 75.2 | 77.1 | Dense (+1.9) |
| GSM8K | 87.0 | 88.9 | Dense (+1.9) |
| MATH | 52.1 | 54.8 | Dense (+2.7) |
| ARC-Challenge | 68.3 | 69.1 | Dense (+0.8) |
| 平均 | 72.4 | 74.2 | Dense (+1.8) |
Dense 模型在純品質上全面勝出,但差距不大——通常 1-3 分。問題是這個小品質優勢值不值那麼大的速度差距。
速度比較
MoE 的亮點在這裡。每個 token 只啟動 3.8B 參數,推論速度快得多:
| 硬體 | 26B MoE Q4 (tok/s) | 31B Dense Q4 (tok/s) | MoE 加速 |
|---|---|---|---|
| RTX 4090 24GB | ~45 | ~18 | 2.5 倍 |
| RTX 3090 24GB | ~30 | ~12 | 2.5 倍 |
| M3 Max 36GB | ~25 | ~10 | 2.5 倍 |
| M4 Max 48GB | ~32 | ~14 | 2.3 倍 |
MoE 穩定快 2-2.5 倍。對需要等回覆的互動情境來說,這個差距體感非常明顯。
顯存比較
MoE 有個需要注意的地方——雖然只啟動 3.8B 參數,但 26B 全部要載入記憶體:
| 格式 | 26B MoE | 31B Dense | 差距 |
|---|---|---|---|
| FP16 | ~52 GB | ~62 GB | MoE 省 ~10 GB |
| Q8_0 | ~28 GB | ~33 GB | MoE 省 ~5 GB |
| Q5_K_M | ~19 GB | ~22 GB | MoE 省 ~3 GB |
| Q4_K_M | ~15 GB | ~18 GB | MoE 省 ~3 GB |
MoE 在每個量化級別都比 Dense 省顯存,但省的幅度沒有速度差距那麼誇張。全精度下兩個模型都需要很強的硬體。
使用情境推薦
選 26B MoE 的情況:
- 互動式聊天和程式碼輔助——2.5 倍的速度讓對話更自然順暢
- API 服務多使用者請求——更快的推論代表更高的吞吐量和更低的單次成本
- 硬體是瓶頸——顯存佔用更少,跑得更快
- 品質夠用就行——大部分實際任務中 1-2 分的基準差距根本感覺不到
- 消費級硬體——Q4 MoE 在 16GB 顯示卡上真的能用
選 31B Dense 的情況:
- 微調——Dense 模型微調比 MoE 簡單直接,不用處理專家路由的複雜性
- 高難度任務求極致品質——數學、推理、程式碼產生需要每一分的時候
- 批次處理——離線處理不在乎單 token 速度
- 研究和評估——需要絕對最優基線的時候
- 部署簡單——Dense 模型框架支援更廣,邊角案例更少
快速決策表
| 你最看重的 | 選擇 |
|---|---|
| 速度 | 26B MoE |
| 品質 | 31B Dense |
| 性價比 | 26B MoE |
| 微調 | 31B Dense |
| 互動使用 | 26B MoE |
| 離線批次處理 | 31B Dense |
框架支援
不是所有框架都能完美處理 MoE 模型:
| 框架 | MoE 支援 | Dense 支援 |
|---|---|---|
| Ollama | 支援 | 支援 |
| llama.cpp | 支援 | 支援 |
| vLLM | 支援 | 支援 |
| SGLang | 支援 | 支援 |
| LM Studio | 部分支援 | 支援 |
| TensorRT-LLM | 支援 | 支援 |
| transformers | 支援 | 支援 |
MoE 的支援已經比較成熟了,但如果某個框架遇到問題,Dense 是更保險的選擇。
下一步
- 還在糾結模型大小? 看 Gemma 4 模型選擇指南 了解包括小模型在內的完整陣容
- 想了解量化選項? 看 GGUF 指南 有 Q4/Q5/Q8 的詳細比較
- 準備跑了? 跟著 Ollama 教學 幾分鐘就能跑起來
對大部分人來說,26B MoE 是更好的選擇。快 2.5 倍,品質只差一點點。31B Dense 留給微調或者確實需要極致品質而且等得起的情境。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


