0% read

Gemma 4 的 26B 和 31B 到底選哪個?MoE vs Dense 比較

Apr 7, 2026

Gemma 4 在大模型端給了兩個選擇:26B MoE(混合專家)和 31B Dense(稠密)。這兩個模型工作方式完全不同,選哪個取決於你看重什麼。來拆解一下。

MoE 是什麼?簡單說

26B MoE 模型有 260 億個參數,但重點是——它不會同時用所有參數。它有多個「專家」子網路,一個路由機制會針對每個 token 選擇啟動哪些專家。每次實際只有約 38 億參數在工作。

打個比方:一家醫院有 20 個專科醫師。病人來了不會 20 個醫師都看一遍,而是根據病情分到 2-3 個相關科別。醫院有 20 個醫師的知識量,但每次就診只用到一小部分人力。

MoE 26B 架構:
┌─────────────────────────────┐
│  路由器:「用哪些專家?」      │
├──────┬──────┬──────┬───────┤
│ 專家1 │ 專家2 │ 專家3 │ ...  │  ← 總計 26B 參數
├──────┴──────┴──────┴───────┤
│  每個 token 只啟動 ~3.8B     │  ← 實際運算量
└─────────────────────────────┘

Dense 是什麼?

31B Dense 就很直接——所有 310 億參數對每一個 token 都全部啟動。沒有路由,沒有專家,一個大網路做所有事。

Dense 31B 架構:
┌─────────────────────────────┐
│  每個 token 都用全部 31B 參數 │  ← 全量運算
└─────────────────────────────┘

正面比較

指標26B MoE31B Dense
總參數量26B31B
活躍參數量~3.8B31B
顯存 (FP16)~52 GB~62 GB
顯存 (Q4_K_M)~15 GB~18 GB
速度 (tok/s, RTX 4090)~45~18
速度 (tok/s, M3 Max 36GB)~25~10

基準測試比較

測試26B MoE31B Dense贏家
MMLU79.581.3Dense (+1.8)
HumanEval75.277.1Dense (+1.9)
GSM8K87.088.9Dense (+1.9)
MATH52.154.8Dense (+2.7)
ARC-Challenge68.369.1Dense (+0.8)
平均72.474.2Dense (+1.8)

Dense 模型在純品質上全面勝出,但差距不大——通常 1-3 分。問題是這個小品質優勢值不值那麼大的速度差距。

速度比較

MoE 的亮點在這裡。每個 token 只啟動 3.8B 參數,推論速度快得多:

硬體26B MoE Q4 (tok/s)31B Dense Q4 (tok/s)MoE 加速
RTX 4090 24GB~45~182.5 倍
RTX 3090 24GB~30~122.5 倍
M3 Max 36GB~25~102.5 倍
M4 Max 48GB~32~142.3 倍

MoE 穩定快 2-2.5 倍。對需要等回覆的互動情境來說,這個差距體感非常明顯。

顯存比較

MoE 有個需要注意的地方——雖然只啟動 3.8B 參數,但 26B 全部要載入記憶體:

格式26B MoE31B Dense差距
FP16~52 GB~62 GBMoE 省 ~10 GB
Q8_0~28 GB~33 GBMoE 省 ~5 GB
Q5_K_M~19 GB~22 GBMoE 省 ~3 GB
Q4_K_M~15 GB~18 GBMoE 省 ~3 GB

MoE 在每個量化級別都比 Dense 省顯存,但省的幅度沒有速度差距那麼誇張。全精度下兩個模型都需要很強的硬體。

使用情境推薦

選 26B MoE 的情況:

  • 互動式聊天和程式碼輔助——2.5 倍的速度讓對話更自然順暢
  • API 服務多使用者請求——更快的推論代表更高的吞吐量和更低的單次成本
  • 硬體是瓶頸——顯存佔用更少,跑得更快
  • 品質夠用就行——大部分實際任務中 1-2 分的基準差距根本感覺不到
  • 消費級硬體——Q4 MoE 在 16GB 顯示卡上真的能用

選 31B Dense 的情況:

  • 微調——Dense 模型微調比 MoE 簡單直接,不用處理專家路由的複雜性
  • 高難度任務求極致品質——數學、推理、程式碼產生需要每一分的時候
  • 批次處理——離線處理不在乎單 token 速度
  • 研究和評估——需要絕對最優基線的時候
  • 部署簡單——Dense 模型框架支援更廣,邊角案例更少

快速決策表

你最看重的選擇
速度26B MoE
品質31B Dense
性價比26B MoE
微調31B Dense
互動使用26B MoE
離線批次處理31B Dense

框架支援

不是所有框架都能完美處理 MoE 模型:

框架MoE 支援Dense 支援
Ollama支援支援
llama.cpp支援支援
vLLM支援支援
SGLang支援支援
LM Studio部分支援支援
TensorRT-LLM支援支援
transformers支援支援

MoE 的支援已經比較成熟了,但如果某個框架遇到問題,Dense 是更保險的選擇。

下一步

對大部分人來說,26B MoE 是更好的選擇。快 2.5 倍,品質只差一點點。31B Dense 留給微調或者確實需要極致品質而且等得起的情境。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 的 26B 和 31B 到底選哪個?MoE vs Dense 比較 | 部落格