0% read

Gemma 4 26B vs 31B比較：顯存速度基準測試2026

Apr 7, 2026

|Updated: Apr 18, 2026

目錄

MoE 是什麼？簡單說 Dense 是什麼？正面比較基準測試比較速度比較顯存比較使用情境推薦選 26B MoE 的情況：選 31B Dense 的情況：快速決策表框架支援下一步

Gemma 4 在大模型端給了兩個選擇：26B MoE（混合專家）和 31B Dense（稠密）。這兩個模型工作方式完全不同，選哪個取決於你看重什麼。來拆解一下。

MoE 是什麼？簡單說

26B MoE 模型有 260 億個參數，但重點是——它不會同時用所有參數。它有多個「專家」子網路，一個路由機制會針對每個 token 選擇啟動哪些專家。每次實際只有約 38 億參數在工作。

打個比方：一家醫院有 20 個專科醫師。病人來了不會 20 個醫師都看一遍，而是根據病情分到 2-3 個相關科別。醫院有 20 個醫師的知識量，但每次就診只用到一小部分人力。

MoE 26B 架構：
┌─────────────────────────────┐
│  路由器：「用哪些專家？」      │
├──────┬──────┬──────┬───────┤
│ 專家1 │ 專家2 │ 專家3 │ ...  │  ← 總計 26B 參數
├──────┴──────┴──────┴───────┤
│  每個 token 只啟動 ~3.8B     │  ← 實際運算量
└─────────────────────────────┘

Dense 是什麼？

31B Dense 就很直接——所有 310 億參數對每一個 token 都全部啟動。沒有路由，沒有專家，一個大網路做所有事。

Dense 31B 架構：
┌─────────────────────────────┐
│  每個 token 都用全部 31B 參數 │  ← 全量運算
└─────────────────────────────┘

正面比較

指標	26B MoE	31B Dense
總參數量	26B	31B
活躍參數量	~3.8B	31B
顯存 (FP16)	~52 GB	~62 GB
顯存 (Q4_K_M)	~15 GB	~18 GB
速度 (tok/s, RTX 4090)	~45	~18
速度 (tok/s, M3 Max 36GB)	~25	~10

基準測試比較

測試	26B MoE	31B Dense	贏家
MMLU	79.5	81.3	Dense (+1.8)
HumanEval	75.2	77.1	Dense (+1.9)
GSM8K	87.0	88.9	Dense (+1.9)
MATH	52.1	54.8	Dense (+2.7)
ARC-Challenge	68.3	69.1	Dense (+0.8)
平均	72.4	74.2	Dense (+1.8)

Dense 模型在純品質上全面勝出，但差距不大——通常 1-3 分。問題是這個小品質優勢值不值那麼大的速度差距。

速度比較

MoE 的亮點在這裡。每個 token 只啟動 3.8B 參數，推論速度快得多：

硬體	26B MoE Q4 (tok/s)	31B Dense Q4 (tok/s)	MoE 加速
RTX 4090 24GB	~45	~18	2.5 倍
RTX 3090 24GB	~30	~12	2.5 倍
M3 Max 36GB	~25	~10	2.5 倍
M4 Max 48GB	~32	~14	2.3 倍

MoE 穩定快 2-2.5 倍。對需要等回覆的互動情境來說，這個差距體感非常明顯。

顯存比較

MoE 有個需要注意的地方——雖然只啟動 3.8B 參數，但 26B 全部要載入記憶體：

格式	26B MoE	31B Dense	差距
FP16	~52 GB	~62 GB	MoE 省 ~10 GB
Q8_0	~28 GB	~33 GB	MoE 省 ~5 GB
Q5_K_M	~19 GB	~22 GB	MoE 省 ~3 GB
Q4_K_M	~15 GB	~18 GB	MoE 省 ~3 GB

MoE 在每個量化級別都比 Dense 省顯存，但省的幅度沒有速度差距那麼誇張。全精度下兩個模型都需要很強的硬體。

使用情境推薦

選 26B MoE 的情況：

互動式聊天和程式碼輔助——2.5 倍的速度讓對話更自然順暢
API 服務多使用者請求——更快的推論代表更高的吞吐量和更低的單次成本
硬體是瓶頸——顯存佔用更少，跑得更快
品質夠用就行——大部分實際任務中 1-2 分的基準差距根本感覺不到
消費級硬體——Q4 MoE 在 16GB 顯示卡上真的能用

選 31B Dense 的情況：

微調——Dense 模型微調比 MoE 簡單直接，不用處理專家路由的複雜性
高難度任務求極致品質——數學、推理、程式碼產生需要每一分的時候
批次處理——離線處理不在乎單 token 速度
研究和評估——需要絕對最優基線的時候
部署簡單——Dense 模型框架支援更廣，邊角案例更少

快速決策表

你最看重的	選擇
速度	26B MoE
品質	31B Dense
性價比	26B MoE
微調	31B Dense
互動使用	26B MoE
離線批次處理	31B Dense

框架支援

不是所有框架都能完美處理 MoE 模型：

框架	MoE 支援	Dense 支援
Ollama	支援	支援
llama.cpp	支援	支援
vLLM	支援	支援
SGLang	支援	支援
LM Studio	部分支援	支援
TensorRT-LLM	支援	支援
transformers	支援	支援

MoE 的支援已經比較成熟了，但如果某個框架遇到問題，Dense 是更保險的選擇。

下一步

還在糾結模型大小？ 看 Gemma 4 模型選擇指南了解包括小模型在內的完整陣容
想了解量化選項？ 看 GGUF 指南有 Q4/Q5/Q8 的詳細比較
準備跑了？ 跟著 Ollama 教學幾分鐘就能跑起來

對大部分人來說，26B MoE 是更好的選擇。快 2.5 倍，品質只差一點點。31B Dense 留給微調或者確實需要極致品質而且等得起的情境。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />

Gemma 4 AI

Related Guides

50 個最佳 Gemma 4 提示詞：程式設計、寫作、分析與多模態（2026）

50 個最佳 Gemma 4 提示詞：程式設計、寫作、分析與多模態（2026）

精選最有效的 Gemma 4 提示詞。複製即用的程式設計、寫作、資料分析、圖片理解等提示詞合集。

2026 年最佳本機 AI 模型：完整排名與比較

2026 年最佳本機 AI 模型：完整排名與比較

2026 年最佳開源本機 AI 模型完整排名。比較 Gemma 4、Llama 4、Qwen 3、Phi-4 和 Mistral——硬體需求、安裝指南和實際使用場景一次看完。

Aider 接上 Gemma 4：2026 最強開源 AI 結對程式設計本地安裝指南

Aider 接上 Gemma 4：2026 最強開源 AI 結對程式設計本地安裝指南

手把手教你用 Aider 接上本地 Gemma 4 模型，打造零成本、完全私密的開源 AI 結對程式設計工具，支援 git 自動提交與跨檔案重構。

Gemma 4 26B vs 31B比較：顯存速度基準測試2026 | 部落格